Thạc Sĩ Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Nhu Ely, 21/12/13.

  1. Nhu Ely

    Nhu Ely New Member

    Bài viết:
    1,771
    Được thích:
    1
    Điểm thành tích:
    0
    Xu:
    0Xu
    LUẬN VĂN THẠC SĨ
    NĂM 2011


    MỤC LỤC
    Trang
    LỜI CAM ĐOAN i
    LỜI CẢM ƠN . ii
    MỤC LỤC iii
    DANH MỤC HÌNH VẼ . iv
    DANH MỤC BẢNG BIỂU .v
    MỞ ĐẦU 1
    1. Tóm lược đề tài 1
    2. Mục tiêu đề tài .1
    3. Nội dung thực hiện 1
    4. Phạm vi ứng dụng 2

    CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN .3
    1.1. Bộ lọc web 3
    1.1.1. Khái niệm 3
    1.1.2. Đặc điểm web có nội dung không lành mạnh .4
    1.1.3. Nguyên nhân cần xây dựng bộ lọc web 7
    1.2. Các phương pháp lọc web có nội dung không lành mạnh .7
    1.2.1. Bộ lọc web dựa vào địa chỉ mạng .7
    1.2.2. Bộ lọc web dựa vào URL (Universal Resource Locator) .9
    1.2.3. Bộ lọc web dựa vào DNS 12
    1.2.4. Bộ lọc web dựa vào từ khóa (key word) .13
    1.3. Những phần mềm lọc web hiện nay .14

    CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 16
    2.1. Tổng quan khai phá dữ liệu 16
    2.1.1. Khai phá Text 16
    2.1.1.1. Khái niệm .16
    2.1.1.2 Một số loại khai phá Text .16
    2.1.1.3. Quy trình khai phá Text .17
    2.1.2. Khai phá web .18
    2.1.2.1. Khái niệm .18
    2.1.2.2. Phân loại khai phá web 18
    2.1.2.3. Phương pháp biểu diễn trang web 19
    2.1.3 Xử lý văn bản tự động 21
    2.1.3.1. Rút trích đặc trưng văn bản 21
    2.1.3.2. Biểu diễn văn bản bằng vector đặc trưng 22
    2.2. Lọc nội dung trang web bằng thuật toán Naïve Bayes .25
    2.2.1. Giới thiệu .25
    2.2.2. Học Bayes (Bayes Learning) .25
    2.2.3. Công thức Bayes .28
    2.2.4. Các bước tiến hành lọc nội dung bằng mạng Bayes .30
    2.3. Phương pháp tách từ trong tiếng Việt .31
    2.3.1. Tình hình nghiên cứu 31
    2.3.2. Một số phương pháp tách từ 32
    2.3.2.1. Tách câu dựa trên Maximum Entropy .32
    2.3.2.2. Phương pháp khớp tối đa (Maximum Matching) 34
    2.3.2.3. Phương pháp WFST (Weighted Finite – State Transducer) 35
    2.3.2.4. Bài toán tách từ và công cụ vnTokenizer 37
    2.3.2.5. Phương pháp tách từ dựa trên sự xác suất tồn tại của từ không
    phụ thuộc vào ngữ nghĩa .38
    2.3.3. So sánh các phương pháp tách từ tiếng Việt .40
    2.4. Phân tích nội dung website .42
    2.4.1. Phân loại nội dung website 42
    2.4.2. Đặc trưng của ngôn ngữ tiếng Việt .43
    2.4.3. Phương pháp xử lý nội dung website 44
    2.4.4. Phân tích câu .45

    CHƯƠNG 3: ỨNG DỤNG 47
    3.1. Xây dựng bộ lọc nội dung web tiếng Việt không lành mạnh .47
    3.1.1. Ý tưởng đề xuất .47
    3.1.2. Hướng tiếp cận 47
    3.1.3. Tiến trình thu thập nội dung 48
    3.1.4. Quy trình thực hiện 49
    3.1.4.1. Tiến trình 1 .50
    3.1.4.2. Tiến trình 2 .53
    3.1.4.3. Tiến trình 3 .55
    3.2. Kiến trúc hệ thống chương trình .56
    3.2.1 Trình duyệt web với các chức năng cơ bản thông thường .56
    3.2.2. Các chức năng cơ bản của hệ thống 56
    3.3. Chức năng của chương trình .57
    3.3.1.Giao diện chính của chương trình 57
    3.3.2. Sơ đồ chức năng của chương trình 58
    3.3.2.1. Chức năng đăng nhập hệ thống 58
    3.3.2.2. Chức năng chương trình .59
    3.4. Chức năng học từ tiếng Việt .60
    3.5. Chức năng xử lý 61
    3.5.1. Lấy nội dung website cần phân tích 61
    3.5.2. Quản lý bộ từ điển tiếng Việt 61
    3.5.3. Phân tích câu đối với nội dung website tiếng Việt 62
    3.5.4. Phân tích nội dung website tiếng Việt .63
    3.6. Chức năng huấn luyện từ cho việc lọc nội dung 63
    3.6.1. Huấn luyện từ tiếng Anh .64
    3.6.2. Huấn luyện từ tiếng Việt .64
    3.7. Phân loại nội dung website .65
    3.7.1. Nội dung tiếng Anh .65
    3.7.2. Nội dung tiếng Việt .65
    3.8. Quản lý các thông số hệ thống 66
    3.9. Quản lý các danh sách 67
    3.9.1. Black List 67
    3.9.2. White List 68
    3.10. Kết quả thực nghiệm và đánh giá kết quả đạt được .68
    KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .70




    MỞ ĐẦU
    1. Tóm lược đề tài

    Trong thời kỳ hiện nay, Internet ngày càng phát triển mạnh mẽ và trở nên
    thông dụng đối với mọi lứa tuổi đặc biệt là thanh thiếu niên, học sinh, sinh viên.
    Lợi ích thiết thực nhất mà Internet mang lại đó là cung cấp nguồn tài nguyên thông
    tin vô tận cho người sử dụng, nó góp phần không nhỏ vào việc nâng cao kiến thức
    cho lứa tuổi thanh thiếu niên. Tuy nhiên, mặt mạnh của Internet cũng chính là yếu
    điểm của nó, ngoài những kiến thức hữu ích thì người dùng cũng dễ dàng tìm thấy
    những nội dung không lành mạnh trên Internet.
    Chính vì vậy, mục đích chính của đề tài là nghiên cứu các phương pháp và đề
    xuất kỹ thuật ngăn chặn tự động các trang web có nội dung bằng tiếng Việt không
    lành mạnh
    2. Mục tiêu đề tài
    Tìm hiểu đặc trưng cũng như sự phát triển của website có nội dung không lành
    mạnh, kết hợp phân tích các hệ thống lọc web hiện có. Từ đó đề xuất mô hình có
    thể tự động phát hiện những trang web có nội dung không lành mạnh sử dụng ngôn
    ngữ tiếng Việt bằng các kỹ thuật rút trích thông tin từ website cũng như ứng dụng
    khai phá dữ liệu văn bản, đặc biệt sử dụng thuật toán Naive Bayes nhằm xác định
    ngưỡng xác suất website không lành mạnh để có hướng xử lý phù hợp.
    Bênh cạnh đó, hiện thực hóa mô hình thành một trình duyệt web có khả năng
    tự động ngăn chặn những website tiếng Việt có nội dung không lành mạnh.
    3. Nội dung thực hiện
    Nội dung chính cần thực hiện trong đề tài gồm các phần sau:
    ư Nghiên cứu tổng quan các hệ thống lọc web “đen” thông dụng hiện nay, xác
    định những điểm bất cập từ những chương trình ứng dụng lọc web hiện có,
    những điểm mạnh, điểm yếu của những phương pháp xây dựng bộ lọc web.
    ư Nghiên cứu những điểm mạnh của các kỹ thuật phân loại văn bản nhằm áp dụng
    nó tốt nhất vào đề tài nghiên cứu.
    ư Tìm hiểu các phương pháp tách từ trong tiếng Việt, từ đó lựa chọn phương pháp
    tối ưu nhất để giải quyết bài toán lọc nội dung
    ư Nghiên cứu các thuận toán, đặc biệt là thuật toán Naïve Bayes.
    ư Đề xuất phương pháp lọc web phù hợp và xây dựng mô hình.
    ư Cài đặt bộ lọc web hiện thực hóa vấn đề nghiên cứu.
    4. Phạm vi ứng dụng
    Đề tài “Xây dựng bộ lọc phát hiện các website có nội dung không lành mạnh
    được ứng dụng bằng một trình duyệt giúp phụ huynh kiểm soát được quá trình truy
    cập vào các website của con em mình, hạn chế truy cập vào các website có nội
    dung không lành mạnh.




    TÀI LIỆU THAM KHẢO
    Tiếng Việt
    [1]. Đỗ Phúc (2005), Giáo trình khai thác dữ liệu, Đại học Công nghệ Thông tin
    Tp. HCM.
    [2]. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn (2009), Giáo trình Khai phá
    dữ liệu web, Nxb Giáo dục Việt Nam.
    [3]. Phan Hữu Tiếp (2011) , “Nghiên cứu xây dựng bộ lọc Spam thông minh tự
    động”, Tập san khoa học giáo viên, Trường Đại học Lạc Hồng.
    Tiếng Anh
    [4]. Chih-Hao Tsai (1996), A Word Identification System for Mandarin Chinese
    Text Based on Two Variants of the Maximum Matching Algorithm.
    [5]. Edel Garcia (2008), Term Vector Theory and Keyword Weights.
    [6]. Goldszmidt D., Friedman, N.Geiger (2006), Bayesian network
    classifiersMachine Learning.
    [7]. Lafferty J. (2001), Conditional ramdom fields: probabilistic models for
    segmenting and labeling sequence data. In International Conference
    on Machine Learning.
    [8]. Rongbo Du, Reihaneh Safavi-Naini and Willy Susilo (2006), Web Filtering
    Using Text Classification, Australia.
    [9]. Sebastiani Fabrizio (2004), Text Classification for Web Filtering.
    [10]. Stern Benjamin (2003), Web Filtering Technology Assessment.
    Website
    [11]. http://www.dict.vietfun.com
    [12]. www.google.com/trends
     

    Các file đính kèm:

Đang tải...