Đồ Án Khai phá dữ liệu Web bằng kỹ thuật phân cụm

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC
    MỤC LỤC i
    DANH SÁCH CÁC HÌNH v
    DANH SÁCH CÁC BẢNG BIỂU . vi
    CÁC CỤM TỪ VIẾT TẮT vii
    LỜI MỞ ĐẦU 1
    Chương 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
    3
    1.1. Khai phá dữ liệu và phát hiện tri thức . 3
    1.1.1. Khai phá dữ liệu 3
    1.1.2. Quá trình khám phá tri thức 4
    1.1.3. Khai phá dữ liệu và các lĩnh vực liên quan 5
    1.1.4. Các kỹ thuật áp dụng trong khai phá dữ liệu 5
    1.1.5. Những chức năng chính của khai phá dữ liệu 7
    1.1.6. Ứng dụng của khai phá dữ liệu . 9
    1.2. Kỹ thuật phân cụm trong khai phá dữ liệu 10
    1.2.1. Tổng quan về kỹ thuật phân cụm 10
    1.2.2. Ứng dụng của phân cụm dữ liệu . 13
    1.2.3. Các yêu cầu đối với kỹ thuật phân cụm dữ liệu . 13
    1.2.4. Các kiểu dữ liệu và độ đo tương tự . 15
    1.2.4.1. Phân loại kiểu dữ liệu dựa trên kích thước miền . 15
    1.2.4.2. Phân loại kiểu dữ liệu dựa trên hệ đo 15
    1.2.4.3. Khái niệm và phép đo độ tương tự, phi tương tự 17
    1.3. Khai phá Web 20
    1.3.1. Lợi ích của khai phá Web . 20
    1.3.2. Khai phá Web . 21
    1.3.3. Các kiểu dữ liệu Web 22
    1.4. Xử lý dữ liệu văn bản ứng dụng trong khai phá dữ liệu Web 23
    1.4.1. Dữ liệu văn bản . 23
    1.4.2. Một số vấn đề trong xử lý dữ liệu văn bản . 23
    1.4.2.1. Loại bỏ từ dừng 24
    1.4.2.2. Định luật Zipf . 25
    1.4.3. Các mô hình biểu diễn dữ liệu văn bản 26
    1.4.3.1. Mô hình Boolean 26
    1.4.3.2. Mô hình tần số . 27
    1.5. Tổng kết chương 1 . 30
    Chương 2. MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU . 31
    2.1. Phân cụm phân hoạch 31
    2.1.1. Thuật toán k-means . 32
    2.1.2. Thuật toán PAM 34
    2.1.3. Thuật toán CLARA . 38
    2.1.4. Thuật toán CLARANS 39
    2.2. Phân cụm phân cấp 41
    2.2.1. Thuật toán BIRCH 42
    2.2.2. Thuật toán CURE 45
    2.3. Phân cụm dựa trên mật độ . 47
    2.3.1 Thuật toán DBSCAN . 47
    2.3.2. Thuật toán OPTICS 51
    2.3.3. Thuật toán DENCLUE . 52
    2.4. Phân cụm dựa trên lưới 54
    2.4.1 Thuật toán STING . 55
    2.4.2 Thuật toán CLIQUE . 56
    2.5. Phân cụm dữ liệu dựa trên mô hình . 57
    2.5.1. Thuật toán EM 58
    2.5.2. Thuật toán COBWEB . 59
    2.6. Phân cụm dữ liệu mờ . 59
    2.7. Tổng kết chương 2 . 60
    Chương 3. KHAI PHÁ DỮ LIỆU WEB . 62
    3.1. Khai phá nội dung Web . 62
    3.1.1. Khai phá kết quả tìm kiếm 63
    3.1.2. Khai phá văn bản Web 63
    3.1.2.1. Lựa chọn dữ liệu 64
    3.1.2.2. Tiền xử lý dữ liệu . 64
    3.1.2.3. Biểu điễn văn bản . 65
    3.1.2.4. Trích rút các từ đặc trưng . 65
    3.1.2.5. Khai phá văn bản . 66
    3.1.3. Đánh giá chất lượng mẫu 68
    3.2. Khai phá theo sử dụng Web 69
    3.2.1. Ứng dụng của khai phá theo sử dụng Web . 70
    3.2.2. Các kỹ thuật được sử dụng trong khai phá theo sử dụng Web . 71
    3.2.3. Những vấn đề trong khai khá theo sử dụng Web. 71
    3.2.3.1. Chứng thực phiên người dùng . 71
    3.2.3.2. Đăng nhập Web và xác định phiên chuyển hướng người dùng . 72
    3.2.3.3. Các vấn đề đối với việc xử lý Web log 72
    3.2.3.4. Phương pháp chứng thực phiên làm việc và truy cập Web . 73
    3.2.4. Quá trình khai phá theo sử dụng Web 73
    3.2.4.1. Tiền xử lý dữ liệu . 73
    3.2.4.2. Khai phá dữ liệu . 73
    3.2.4.3. Phân tích đánh giá 75
    3.2.5. Ví dụ khai phá theo sử dụng Web 75
    3.3. Khai phá cấu trúc Web 77
    3.3.1. Tiêu chuẩn đánh giá độ tương tự 79
    3.3.2. Khai phá và quản lý cộng đồng Web 80
    3.3.2.1. Thuật toán PageRank . 81
    3.3.2.2. Phương pháp phân cụm nhờ thuật toán HITS . 82
    3.4. Áp dụng thuật toán phân cụm dữ liệu trong tìm kiếm và PCDL Web 85
    3.4.1. Hướng tiếp cận bằng kỹ thuật phân cụm 85
    3.4.2. Quá trình tìm kiếm và phần cụm tài liệu 87
    3.4.2.1. Tìm kiếm dữ liệu trên Web 87
    3.4.2.2. Tiền xử lý dữ liệu . 88
    3.4.2.3. Xây dựng từ điển 89
    3.4.2.4. Tách từ, số hóa văn bản và biểu diễn tài liệu . 90
    3.4.2.5. Phân cụm tài liệu 90
    3.4.6. Kết quả thực nghiệm . 92
    3.5. Tổng kết chương 3 . 93
    KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN . 94
    PHỤ LỤC . 96
    TÀI LIỆU THAM KHẢO . 102

    LỜI MỞ ĐẦU


    Trong những năm gần đây cùng với phát triển nhanh chóng của khoa học
    kỹ thuật là sự bùng nỗ về tri thức. Kho dữ liệu, nguồn tri thức của nhân loại
    cũng trở nên đồ sộ, vô tận làm cho vấn đề khai thác các nguồn tri thức đó ngày
    càng trở nên nóng bỏng và đặt ra thách thức lớn cho nền công nghệ thông tin
    thế giới.
    Cùng với những tiến bộ vượt bậc của công nghệ thông tin là sự phát triển
    mạnh mẽ của mạng thông tin toàn cầu, nguồn dữ liệu Web trở thành kho dữ liệu
    khổng lồ. Nhu cầu về tìm kiếm và xử lý thông tin, cùng với yêu cầu về khả năng
    kịp thời khai thác chúng để mạng lại những năng suất và chất lượng cho công
    tác quản lý, hoạt động kinh doanh, đã trở nên cấp thiết trong xã hội hiện đại.
    Nhưng vấn đề tìm kiếm và sử dụng nguồn tri thức đó như thế nào để phục vụ
    cho công việc của mình lại là một vấn đề khó khăn đối với người sử dụng. Để
    đáp ứng phần nào yêu cầu này, người ta đã xây dựng các công cụ tìm kiếm và
    xử lý thông tin nhằm giúp cho người dùng tìm kiếm được các thông tin cần thiết
    cho mình, nhưng với sự rộng lớn, đồ sộ của nguồn dữ liệu trên Internet đã làm
    cho người sử dụng cảm thấy khó khăn trước những kết quả tìm được.
    Với các phương pháp khai thác cơ sở dữ liệu truyền thống chưa đáp ứng
    được các yêu cầu đó. Để giải quyết vấn đề này, một hướng đi mới đó là nghiên
    cứu và áp dụng kỹ thuật khai phá dữ liệu và khám phá tri thức trong môi trường
    Web. Do đó, việc nghiên cứu các mô hình dữ liệu mới và áp dụng các phương
    pháp khai phá dữ liệu trong khai phá tài nguyên Web là một xu thế tất yếu vừa
    có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn cao.
    Vì vậy, tác giả chọn đề tài “Khai phá dữ liệu Web bằng kỹ thuật phân cụm”
    để làm luận văn tốt nghiệp cho mình.
    Bố cục luận văn gồm 3 chương:
    Chương 1 trình bày một cách tổng quan các kiến thức cơ bản về khai phá dữ
    liệu và khám phá tri thức, khai phá dữ liệu trong môi trường Web; một số vấn đề
    về biểu diễn và xử lý dữ liệu văn bản áp dụng trong khai phá dữ liệu Web.
    Chương 2 giới thiệu một số kỹ thuật phân cụm dữ liệu phổ biến và thường
    được sử dụng trong lĩnh vực khai phá dữ liệu và khám phá tri thức.
    Chương 3 trình bày một số hướng nghiên cứu trong khai phá dữ liệu Web
    như khai phá tài liệu Web, khai phá theo sử dụng Web, khai phá cấu trúc Web
    và tiếp cận theo hướng sử dụng các kỹ thuật phân cụm dữ liệu để giải quyết bài
    toán khai phá dữ liệu Web. Trong phần này cũng trình bày một mô hình áp dụng
    kỹ thuật phân cụm dữ liệu trong tìm kiếm và phân cụm tài liệu Web.
    Phần kết luận của luận văn tổng kết lại những vấn đề đã nghiên cứu, đánh
    giá kết quả nghiên cứu, hướng phát triển của đề tài.
    Phần phụ lục trình bày một số đoạn mã lệnh xử lý trong chương trình và
    một số giao diện trong chương trình mô phỏng.
     

    Các file đính kèm:

Đang tải...