Luận Văn Ứng dụng phân loại văn bản xây dựng bộ lọc Web

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    Mục lục
    Mục lục. 1
    DANH MỤC BẢNG: 4
    DANH MỤC HÌNH: 5
    DANH MỤC TỪ VIẾT TẮT: 7
    Lời nói đầu. 8
    Chương 1: TỔNG QUAN 9
    1.1. Giới thiệu: 9
    1.2. Mục tiêu nghiên cứu: 9
    1.3. Phạm vi nghiên cứu: 9
    1.3.1. Tổng quan chung về vấn đề: 9
    1.3.2. Giới hạn vấn đề: 10
    1.4. Ý nghĩa khoa học: 11
    1.5. Lý do chọn đề tài và phát biểu bài toán: 11
    1.6. Phân tích hiện trạng. 13
    1.6.1. Những phần mềm cùng lĩnh vực trên thế giới: 13
    1.6.2. Tình hình triển khai bộ lọc web ở Việt nam: 15
    1.7. Sơ lược về khai mỏ văn bản (text mining): 16
    1.8. Sơ lược về phân loại văn bản (text classification): 18
    1.9. Nội dung đề tài: 18
    Chương 2: CƠ SỞ LÝ THUYẾT 19
    2.1. Khái niệm bộ lọc web: 19
    2.1.1. Bộ lọc web (Web filter): 19
    2.1.2. Tại sao cần thiết có một bộ lọc nội dung?. 19
    2.2. Lý thuyết dùng trong nghiên cứu. 20
    2.2.1. Khai mỏ dữ liệu: 20
    2.2.2. Khai mỏ văn bản: 20
    2.2.3. Phân loại văn bản. 22
    2.2.4. Một số phương pháp phân loại văn bản: 24
    2.2.5. Tiếp cận chuẩn trong phân loại văn bản: 26
    2.2.6. Quá trình phân loại văn bản. 26
    2.2.7. So sánh hai văn bản. 27
    2.2.8. Ứng dụng bộ phân loại văn bản vào việc lọc Web. 37
    Chương 3: NGHIÊN CỨU VẤN ĐỀ 39
    3.1. Một số tiếp cận vấn đề lọc web: 39
    3.1.1. Danh sách đen và danh sách trắng (Blacklist và Whitelist): 39
    3.1.2. Chặn từ khóa (keyword blocking): 39
    3.1.3. Hệ thống đánh giá (Rating systems): 40
    3.1.4. Lọc các yêu cầu Domain Name System (DNS). 41
    3.1.5. Bộ lọc qua URL: 43
    3.1.6. Lọc IP: 47
    3.2. Xây dựng giả thiết 48
    3.2.1. Đề xuất cho một phương pháp lọc Web: 48
    3.2.2. Thuật toán: 49
    3.2.3. Tóm lược các bước của thuật toán: 50
    3.2.4. Mô hình thuật toán: 52
    3.3. Lựa chọn phương pháp nghiên cứu: 52
    3.3.1. Máy học là gì?. 52
    3.3.2. Những thuận lợi của cách tiếp cận theo dạng máy học có giám sát: 53
    3.3.3. Đặc điểm bên trong cách tiếp cận theo dạng máy học có giám sát: 53
    3.3.4. Xây dựng bộ phân loại văn bản (Text Classifier). 54
    Chương 4: XÂY DỰNG ỨNG DỤNG, THỬ NGHIỆM, ĐÁNH GIÁ 57
    4.1. Tổ chức dữ liệu: 57
    4.1.1. Cấu trúc dữ liệu theo thuật toán chuẩn: 57
    4.1.2. Cấu trúc dữ liệu đề xuất cho lập trình: 60
    4.1.3. Chuẩn bị dữ liệu: 62
    4.2. Mô hình thử nghiệm: 67
    4.2.1. Thử nghiệm theo ứng dụng: (Kiểm tra hoạt động của thuật toán). 67
    4.2.2. Thử nghiệm trên mạng: 69
    4.3. Giải thuật cải tiến và lưu đồ: 71
    4.3.1. Lưu đồ từng bước: 71
    4.3.2. Các lưu đồ cho thuật toán: 77
    4.4. Cài đặt: 78
    4.4.1. Cài đặt Proxy: 78
    4.4.2. Mô tả chi tiết các bước thuật toán: 78
    4.4.3. Mã chương trình: 84
    4.4.4. Một số cải tiến trong chương trình: 84
    4.5. Thử nghiệm và đánh giá: 85
    4.5.1. Môi trường thử nghiệm – cấu hình các dịch vụ: 85
    4.5.2. Phương pháp thử nghiệm - Một số thử nghiệm: 87
    4.5.3. Đánh giá mức độ hiệu quả: 95
    Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 102
    5.1. Kết luận: 102
    5.1.1. Kết luận: 102
    5.1.2. Khả năng ứng dụng: 102
    5.1.3. Hạn chế: 103
    5.2. Hướng phát triển: 103
    5.2.1. Kiến nghị hướng phát triển: 103
    5.2.2. Thảo luận: 104
    TÀI LIỆU THAM KHẢO 105
    Lời nói đầu
    Xuất phát từ một hiện trạng sử dụng Internet ngày càng phổ biến, các dịch vụ truy cập internet phát triển mạnh mẽ. Cùng với yêu cầu quản lý chặt chẽ việc sử dụng dich vụ web của nhiều người và tránh sử dụng những trang web “đen” làm băng hoại đạo đức xã hội nhất là đối với giới trẻ.
    Với những yêu cầu bức thiết đó, người nghiên cứu tiến hành thực hiện đề tài này, trên cơ sở công nghệ phân loại văn bản, đề tài này muốn đạt tới một giải pháp lọc những trang web “đen” hay những trang web “cấm” một cách hiệu quả.
    Tuy nhiên, một vấn mà đề tài này chưa đạt tới là lọc những hình ảnh trong một trang web, đây là vấn đề cần được đầu tư thêm nhằm hoàn thiện mục tiêu chính đó là công việc lọc web.

    Chương 1: TỔNG QUAN
    1.1. Giới thiệu:
    Đề tài được chọn dựa trên hiện trạng sử dụng mạng Internet hiện nay, tại gia đình cũng như tại các dịch vụ. Môi trường Internet phát triển mạnh mẽ nhưng nó cũng tiềm ẩn những mối nguy hiểm trong đó, như những hình ảnh khiêu dâm, bạo lực và nhiều vấn đề không lành mạnh khác, sẽ có tác động xấu đến người dùng internet nhất là giới trẻ - những người chưa ý thức đầy đủ về những nguy hại đó. Vì thế, vấn đề lọc web được nhiều người đầu tư với nhiều cách làm khác nhau, nhưng cùng hướng đến một mục tiêu là ngăn chặn những trang web độc hại.
    1.2. Mục tiêu nghiên cứu:
    Vấn đề nghiên cứu chính trong đề tài này là ngăn chặn các trang web và kiến thức sử dụng để xây dựng một bộ lóc web là công nghệ tri thức, cụ thể là phân loại văn bản (Text Classification). Đề tài cần phải đạt được những nội dung sau:
     

    Các file đính kèm:

Đang tải...