Luận Văn Sử dụng phương pháp xếp hạng trong bài toán phân cụm tiếng việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Bống Hà, 2/5/13.

  1. Bống Hà

    Bống Hà New Member

    Bài viết:
    5,424
    Được thích:
    2
    Điểm thành tích:
    0
    Xu:
    0Xu
    Cùng với sự gia tăng nhanh chóng về số lượng các trang Web thì nhu cầu về khai phá dữ liệu Web ngày càng nhận được sự quan tâm của các nhà khoa học và các nhóm nghiên cứu. Trong lĩnh vực khai phá Web thì phân cụm Web là một trong những bài toán cơ bản và quan trọng. Đây cũng là thành phần chịu nhiều ảnh hưởng của các đặc trưng ngôn ngữ. Khóa luận này tập trung nghiên cứu về bài toán phân cụm Web sử dụng phương pháp xếp hạng. Trên cơ sở lý thuyết phân cụm Web và lựa chọn các đặc trưng của tiếng Việt, khóa luận đã sử dụng phương pháp xếp hạng các cụm từ quan trọng vào phân cụm các tài liệu Web tiếng Việt và tiến hành thực nghiệm. Kết quả thực nghiệm đánh giá theo các đặc trưng TFDF, độ dài (LEN), tương tự nội tại (ICS), entropy nội tại cụm văn bản (CE) cho thấy đặc trưng TFIDF và LEN có ảnh hưởng lớn hơn so với các đặc trưng khác.
     

    Các file đính kèm:

Đang tải...