Luận Văn Text Mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn

Thảo luận trong 'Chưa Phân Loại' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÊN ĐỀ TÀI : Text Mining và các ứng dụng của nó về thu thập thông tin từ dữ liệu văn bản và phân loại dữ liệu văn bản

    I. Đặt vấn đề 6

    II. Cơ sở lý thuyết 7

    1. Khái niệm Text Mining 7
    a. Khai phá dữ liệu (Data Mining) 7
    b. Khai phá dữ liệu văn bản (Text Mining) 8
    2. Bài toán phân loại văn bản (Text categorization) 10
    a. Khái niệm phân loại văn bản 10
    b. Các phương pháp phân loại văn bản 11
    b.1. Sử dụng từ điển phân cấp chủ đề 11
    b.1.1. Giải thuật phân lớp và phân cấp chủ đề 11
    b.1.2. Sự phù hợp và sự phân biệt của các trọng số 12
    b.2. Phương pháp cây quyết định (Decision tree) 13
    3. Bài toán thu thập thông tin (Information retrieval - IR) 14
    a. Khái niệm thu thập thông tin 14
    b. Các phương pháp thu thập thông tin 16
    b.1. Các phương pháp chuẩn 16
    b.1.1. Mô hình Boolean 16
    b.1.2. Mô hình không gian vec-tơ (Vector space model - VSM) 18
    b.2. Các phương pháp dựa trí tuệ nhân tạo (AI-based method) 21
    b.2.1 Kỹ thuật mạng Nơ-ron (Neural network) 22
    4. Một số công cụ phân tích văn bản tiếng Anh 26


    III. Các giải pháp áp dụng cho Vietnamese Text Mining 29


    1. Đặc trưng của văn bản tiếng Việt 29
    a. Các đơn vị của tiếng Việt 29
    a.1. Tiếng và đặc điểm của tiếng 29
    a.1.1. Tiếng và giá trị ngữ âm 29
    a.1.2. Tiếng và giá trị ngữ nghĩa 29
    a.1.3. Tiếng và giá trị ngữ pháp 29
    a.2. Từ và các đặc điểm của từ 30
    a.2.1. Từ là đơn vị nhỏ nhất để đặt câu 30
    a.2.2. Từ có nghĩa hoàn chỉnh và cấu tạo ổn định 30
    a.3. Câu và các đặc điểm của câu 30
    a.3.1. Câu có ý nghĩa hoàn chỉnh 30
    a.3.2. Câu có cấu tạo đa dạng. 30
    b. Các phương tiện ngữ pháp của tiếng việt. 31
    b.1. Trong phạm vi cấu tạo từ. 31
    b.2. Trong phạm vi cấu tạo câu. 31
    c. Từ tiếng việt 32
    c.1. Từ đơn - từ ghép 32
    c.2. Từ loại 32
    c.3. Dùng từ cấu tạo ngữ 33
    d. Câu tiếng việt 34
    d.1. Câu đơn 34
    d.2. Câu ghép 35
    d.2.1. Câu ghép song song 35
    d.2.2. Câu ghép qua lại 35
    d.2.3. Các thành phần câu. 35
    e. Các đặc điểm chính tả và văn bản tiếng Việt 36
    2. Các giải pháp, đánh giá hiệu quả, đề ra giải pháp cho phân tích văn bản tiếng Việt 36
    a. Bài toán phân loại văn bản tiếng Việt 36
    b. Bài toán thu thập thông tin từ văn bản tiếng Việt 37


    IV. Xây dựng thử chương trình tách thuật ngữ tiếng Việt theo phương pháp cổ điển 38


    1. Chương trình và bài toán được giải quyết 38
    2. Kết quả chạy chương trình 38




     
Đang tải...