Luận Văn Nghiên cứu phân loại văn bản tiếng Việt

Thúy Viết Bài · 5/12/13

CHƯƠNG 1 : TỔNG QUAN

Ngày này , sự bùng nổ thông tin do bị tác động bởi sự xuất hiện của các siêu phương tiện và World Wide Web (WWW) đã làm cho không gian dữ liệu gia tăng thường xuyên , điều này tạo ra một thách thức cho các hệ thống truy vấn thông tin sao cho có hiệu qủa . Một trong những khó khăn mà các hệ thống thông tin thường phải gặp đó là tần suất cập nhật của các thông tin qúa lớn .Phương thức sử dụng giấy trong giao dịch đang dần được số hóa , do nhiều tính năng vượt trội mà phương thức này mang lại , như là có thể lưu trữ lâu dài , cập nhật , sửa đổi , tìm kiếm một cách nhanh chóng . Do đó số lượng văn bản số hóa ngày nay đang tăng dần theo cấp số nhân , cùng với sự gia tăng của số lượng văn bản , nhu cầu tìm kiếm văn bản cũng tăng theo , khi đó phân loại văn bản tự động là một yêu cầu cấp thiết được đặt ra . Phân loại văn bản giúp sẽ giúp chúng ta tìm kiếm thông tin một cách nhanh chóng hơn thay vì phải tìm lần lượt trong từng văn bản , hơn nữa khi mà số lượng văn bản đang gia tăng một cách nhanh chóng thì thao tác tìm lần lượt trong từng văn bản sẽ mất rất nhiều thời gian , công sức và là một công việc nhàm chán và không khả thi. Chính vì thế nhu cầu phân loại văn bản tự động là thực sự cần thiết.

Hiện nay đã có rất nhiều công trình nghiên cứu về phân loại văn bản và đã có được những kết qủa đáng khích lệ , như là : Support Vector Machine , K – Nearest Neighbor , Linear Least Squares Fit , Neural Network , Naïve Bayes , Centroid – Based Điểm chung của các phương pháp này đều dựa vào xác suất thống kê hoặc dựa vào trọng số của các từ , cụm từ trong văn bản .Trong mỗi phương pháp đều có cách tính toán khác nhau , tuy nhiên các phương pháp này đều phải thực hiện một số bước chung , như : đầu tiên mỗi phương pháp sẽ dựa vào thông tin về sự xuất hiện của các từ trong văn bản ( tần số xuất hiện trong tập văn bản , ) để biểu diễn thành dạng vector , sau đó tùy từng bài toán cụ thể mà chúng ta sẽ quyết định chọn áp dụng phương pháp nào , công thức tính toán nào cho phù hợp để phân loại tập văn bản dựa trên tập các vector đã xây dựng được ở bước trên , nhằm mục đích đạt được kết qủa phân loại tốt nhất .

Luận Văn Nghiên cứu phân loại văn bản tiếng Việt

Thúy Viết Bài New Member
Thành viên vàng

Các file đính kèm:

87365991-phanloai-van-ban-trinh-quoc-son-ch0401047-.doc

Luận Văn Nghiên cứu phát triển phần mềm phát hiện và ngăn chặn Hacker trên mạng, phát hiện ngăn chặn xâm nhập

Đồ Án Nghiên cứu và xây dựng hệ thống tem thời gian cho PKI dựa trên bộ phần mềm mã mở TSA

Luận Văn Nghiên cứu phần mềm mã nguồn mở quản lý lớp học điện tử e-learning dokeos và ứng dụng

Luận Văn Nghiên cứu một giải pháp bảo trì phần mềm tự động kết hợp với hệ thống quản lý cấu

Luận Văn Nghiên cứu một số phương pháp phân lớp cải tiến, ứng dụng vào hệ truy tìm văn bản

Tải tài liệu

Diễn đàn

Chứng nhận bảo mật

Theo dõi chúng tôi

Tìm kiếm hữu ích

Luận Văn Nghiên cứu phân loại văn bản tiếng Việt

Thúy Viết Bài New Member Thành viên vàng

Các file đính kèm:

87365991-phanloai-van-ban-trinh-quoc-son-ch0401047-.doc

Luận Văn Nghiên cứu phát triển phần mềm phát hiện và ngăn chặn Hacker trên mạng, phát hiện ngăn chặn xâm nhập

Đồ Án Nghiên cứu và xây dựng hệ thống tem thời gian cho PKI dựa trên bộ phần mềm mã mở TSA

Luận Văn Nghiên cứu phần mềm mã nguồn mở quản lý lớp học điện tử e-learning dokeos và ứng dụng

Luận Văn Nghiên cứu một giải pháp bảo trì phần mềm tự động kết hợp với hệ thống quản lý cấu

Luận Văn Nghiên cứu một số phương pháp phân lớp cải tiến, ứng dụng vào hệ truy tìm văn bản

Thúy Viết Bài New Member
Thành viên vàng