Tổng quan về web mining

Thảo luận trong 'Quản Trị Mạng' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÊN ĐỀ TÀI : TỔNG QUAN VỀ WEB MINING


    CHƯƠNG I TỔNG QUAN VỀ WEB MINING . 5

    1. Giới thiệu chung 5
    2. Web mining . 6
    2.1 Tổng quan . 6
    2.2 Các thành phần của web mining và các phương pháp luận 7
    a. Khám phá thông tin (IR) 8
    b. Trích rút, lựa chọn và tiền xử lý thông tin 9
    c. Tổng quát hoá 10
    d. Phân tích 10
    3. Web content mining và Web structure mining . 11
    3.1 Web content mining 11
    3.2 Web structure mining . 13
    4. Web text mining . 14
    4.1 Text Classification 14
    4.2 Text Clustering 14
    4.3 Association analysis . 15
    4.4 Trend Prediction . 15


    CHƯƠNG II KHAI PHÁ DỮ LIỆU . 16


    1. Tổng quan về khai phá dữ liệu . 16
    1.1 Khái niệm 16
    1.2 Các bước của quá trình khai phá dữ liệu 16
    2. Nhiệm vụ chính của khai phá dữ liệu . 18
    3. Các phương pháp khai phá dữ liệu . 19
    4. Một số bài toán chính đối với nghiên cứu về khai phá dữ liệu 21


    CHƯƠNG III VĂN BẢN VÀ XỬ LÝ VĂN BẢN . 22


    1. Khái niệm 22
    2. Phương pháp biểu diễn văn bản bằng mô hình không gian vector 23
    Mô hình Boolean 23
    Mô hình Tần suất 23
    a. Phương pháp dựa trên tần số thuật ngữ (TF – Term Frequency) 23
    b. Phương pháp dựa trên nghịch đảo tần số văn bản (IDF -Inverse Document Frequency) . 24
    c. Phương pháp TF x IDF . 24
    2.3 Phương pháp xử lý vector thưa . 25
    3. Các bài toán xử lý văn bản không có cấu trúc 26
    Bài toán phân loại văn bản . 26
    3.1.1 Giới thiệu 26
    3.1.2 Các phương pháp phân loại văn bản 26
    a. Decision Tree 29
    b. k-Nearest Neighbor . 34
    3.2 Bài toán lập nhóm văn bản . 36
    3.2.1 Giới thiệu . 36
    3.2.2 Các phương pháp lập nhóm văn bản 37
    a. Thuật toán phân cấp Bayesian 37
    b. Thuật toán ghép nhóm theo độ tương tự 39
    c. Thuật toán K-means 40


    CHƯƠNG IV XÂY DỰNG THỬ NGHIỆM ỨNG DỤNG WEB CLUSTERING43


    1. Bài toán đặt ra 43
    2. Phương hướng giải quyết . 43
    Web Crawler . 43
    a. Giới thiệu 43
    b. Thứ tự Crawl các URLs 44
    c. Một số vấn đề cần chú ý cho Web Crawler 44
    d. Thuật toán sử dụng cho Web Crawler . 45
    Áp dụng các thuật toán lập nhóm cho bộ dữ liệu thu được . 46
    2.2.1 Các bước thực hiện để biểu diễn vector văn bản . 46
    a. Tách từ . 46
    b. Loại bỏ Stopwords . 47
    c. Stemming . 47
    d.Sắp xếp các keyword . 47
    e.Xây dựng bag - of - words . 47
    f. Biểu diễn từng file văn bản thành các vector 48
    2.2.2 Áp dụng các thuật toán lập nhóm . 54


     

    Các file đính kèm:

Đang tải...