Luận Văn Nghiên cứu phân loại văn bản tiếng Việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    #1 Thúy Viết Bài, 5/12/13
    Last edited by a moderator: 6/4/14
    CHƯƠNG 1 : TỔNG QUAN

    Ngày này , sự bùng nổ thông tin do bị tác động bởi sự xuất hiện của các siêu phương tiện và World Wide Web (WWW) đã làm cho không gian dữ liệu gia tăng thường xuyên , điều này tạo ra một thách thức cho các hệ thống truy vấn thông tin sao cho có hiệu qủa . Một trong những khó khăn mà các hệ thống thông tin thường phải gặp đó là tần suất cập nhật của các thông tin qúa lớn .Phương thức sử dụng giấy trong giao dịch đang dần được số hóa , do nhiều tính năng vượt trội mà phương thức này mang lại , như là có thể lưu trữ lâu dài , cập nhật , sửa đổi , tìm kiếm một cách nhanh chóng . Do đó số lượng văn bản số hóa ngày nay đang tăng dần theo cấp số nhân , cùng với sự gia tăng của số lượng văn bản , nhu cầu tìm kiếm văn bản cũng tăng theo , khi đó phân loại văn bản tự động là một yêu cầu cấp thiết được đặt ra . Phân loại văn bản giúp sẽ giúp chúng ta tìm kiếm thông tin một cách nhanh chóng hơn thay vì phải tìm lần lượt trong từng văn bản , hơn nữa khi mà số lượng văn bản đang gia tăng một cách nhanh chóng thì thao tác tìm lần lượt trong từng văn bản sẽ mất rất nhiều thời gian , công sức và là một công việc nhàm chán và không khả thi. Chính vì thế nhu cầu phân loại văn bản tự động là thực sự cần thiết.



    Hiện nay đã có rất nhiều công trình nghiên cứu về phân loại văn bản và đã có được những kết qủa đáng khích lệ , như là : Support Vector Machine , K – Nearest Neighbor , Linear Least Squares Fit , Neural Network , Naïve Bayes , Centroid – Based Điểm chung của các phương pháp này đều dựa vào xác suất thống kê hoặc dựa vào trọng số của các từ , cụm từ trong văn bản .Trong mỗi phương pháp đều có cách tính toán khác nhau , tuy nhiên các phương pháp này đều phải thực hiện một số bước chung , như : đầu tiên mỗi phương pháp sẽ dựa vào thông tin về sự xuất hiện của các từ trong văn bản ( tần số xuất hiện trong tập văn bản , ) để biểu diễn thành dạng vector , sau đó tùy từng bài toán cụ thể mà chúng ta sẽ quyết định chọn áp dụng phương pháp nào , công thức tính toán nào cho phù hợp để phân loại tập văn bản dựa trên tập các vector đã xây dựng được ở bước trên , nhằm mục đích đạt được kết qủa phân loại tốt nhất .
     

    Các file đính kèm:

Đang tải...