Luận Văn Sử dụng phương pháp xếp hạng trong bài toán phân cụm tiếng việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Cùng với sự gia tăng nhanh chóng về số lượng các trang Web thì nhu cầu về khai
    phá dữ liệu Web ngày càng nhận được sự quan tâm của các nhà khoa học và các nhóm
    nghiên cứu. Trong lĩnh vực khai phá Web thì phân cụm Web là một trong những bài
    toán cơ bản và quan trọng. Đây cũng là thành phần chịu nhiều ảnh hưởng của các đặc
    trưng ngôn ngữ.
    Khóa luận này tập trung nghiên cứu về bài toán phân cụm Web sử dụng phương
    pháp xếp hạng. Trên cơ sở lý thuyết phân cụm Web và lựa chọn các đặc trưng của
    tiếng Việt, khóa luận đã sử dụng phương pháp xếp hạng các cụm từ quan trọng vào
    phân cụm các tài liệu Web tiếng Việt và tiến hành thực nghiệm. Kết quả thực nghiệm
    đánh giá theo các đặc trưng TFDF, độ dài (LEN), tương tự nội tại (ICS), entropy nội
    tại cụm văn bản (CE) cho thấy đặc trưng TFIDF và LEN có ảnh hưởng lớn hơn so với
    các đặc trưng khác.
     

    Các file đính kèm:

Đang tải...