Luận Văn Nghiên cứu ứng dụng tập phổ biến và luật kết hợp vào bài toán phân loại văn bản Tiếng Việt có xem xé

Thảo luận trong 'Chưa Phân Loại' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÓM TẮT : Bài báo trình bày một số kết quả nghiên cứu ứng dụng các thuật toán tìm
    tập phổ biến và luật kết hợp vào bài toán phân lớp văn bản. Mô hình vector có thành phần là
    các cụm danh từ phổ biến được dùng để đặc trưng văn bản. Thuật toán tách từ, gán nhãn từ
    loại được sử dụng để rút trích các cụm danh từ. Thuật toán tập phổ biến và luật kết hợp được
    sử dụng để tạo đồ thị đồng hiện các từ trong ngữ cảnh nhất định nhằm xác lập nghĩa của từ
    trong văn bản và kết hợp với từ điển đồng nghĩa, gần nghĩa để điều chỉnh thành phần của
    vector văn bản nhằm nâng cao khả năng phân lớp văn bản có xem xét ngữ nghĩa. Ngoài ra,
    luật kết hợp có vế phải là các thuộc tính phân lớp sẽ được sử dụng để làm luật phân lớp.
    Chúng tôi đã thử nghiệm giải pháp đề xuất vào bài toán phân lớp các tóm tắt bài báo khoa
    học trong lĩnh vực CNTT tiếng Việt
    Từ Khoá: Cụm danh từ, Đồ thị đồng hiện, Luật kết hợp, Luật phân lớp, Tập phổ biến
    1.GIỚI THIỆU
    Với sự xuất hiện của Internet, khối lượng thông tin chủ yếu và chiếm trên 80% vẫn là
    các thông tin văn bản. Các phương pháp phân loại văn bản trước đây đều dựa trên tiếp cận
    máy học, mô hình xác suất,cây quyết định, qui nạp thuộc tính, người láng giềng gần nhất, và
    mới đây là phương pháp support vector machine [11]. Các thuật toán này thường tập trung vào
    bài toán phân làm 2 lớp và gặp khó khăn với khối lượng dữ liệu lớn. Trong bài báo này, chúng
    tôi nghiên cứu dùng tập phổ biến và luật kết hợp vào bài toán phân loại văn bản tiếng Việt
    gồm a)Đặc trưng văn bản: bao gồm tìm dãy từ phổ biến trong tập ngữ liệu văn bản và tạo đồ
    thị đồng hiện nhằm xác lập nghĩa của từ đặc trưng b) Tạo luật phân lớp văn bản. Bài báo được
    tổ chức như sau: 1) Giới thiệu 2) Bài toán tìm tập phổ biến và luật kết hợp 3) Phân lớp văn
    bản bằng luật kết hợp 4) Tạo vector đặc trưng cho văn bản 5) Xây dựng bộ phân lớp văn bản
    6) Thử nghiệm 7) Kết luận
     

    Các file đính kèm:

Đang tải...