Luận Văn Mô hình maximum entropy và ứng dụng

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÓM TẮT NỘI DUNG

    Trong những năm gần đây, với sự phát triển mạnh mẽ của công nghệ thông tin và nhu cầu sử dụng Internet của tất cả mọi người trên thế giới đã làm tăng vọt lượng thông tin giao dịch trên Internet. Vì vậy mà số lượng văn bản xuất hiện trên Internet tăng nhanh chóng mặt cả về số lượng và chủ đề. Với khối lượng thông tin đồ sộ như vậy, để tìm được những thông tin cần thiết cho mục đích của chúng ta sẽ mất rất nhiều thời gian và công sức. Một câu hỏi được đặt ra, làm thế nào có thể tổ chức và tìm kiếm thông tin một cách nhanh chóng và hiệu quả nhất? Và câu trả lời hợp lý cho câu hỏi trên là phân loại thông tin tự động bằng máy tính.

    Trong luận văn này, em tập trung tìm hiểu về mô hình cực đại entropy và áp dụng mô hình để xây dựng chương trình phân loại văn bản Tiếng Việt tự động dựa trên tập dữ liệu huấn luyện. Từ đó hướng tới việc xây dựng chương trình chặn nội dung web bằng việc phân tích nội dung web.

    Hiện nay, việc kiểm soát truy cập Internet vẫn chưa đạt được hiệu quả tốt. Những trang web với nội dung xấu vẫn được truy cập rất dễ dàng mà không có bất kỳ sự kiểm soát nào. Với chương trình chặn nội dung web, em hy vọng có thể giúp ngăn chặn được những trang web có nội dung xấu. Bên cạnh đó, cũng giúp mọi người có thể lọc ra được những trang web có nội dung phù hợp với nhu cầu của từng người trong những lĩnh vực riêng biệt.



    LỜI CẢM ƠN

    Em xin gửi lời cảm ơn chân thành và sâu sắc nhất tới Thầy LÊ ANH CƯỜNG đã tận tụy hướng dẫn, động viên, giúp đỡ em trong suốt thời gian thực hiện đề tài.

    Em xin chân thành cảm ơn quý Thầy Cô trong khoa Công Nghệ Thông Tin đã truyền đạt những kiến thức quý báu cho chúng em trong những năm học vừa qua.

    Chúng con xin nói lên lòng biết ơn đối với Ông Bà, Cha Mẹ luôn là nguồn động viên, chăm sóc trên bước đường học vấn của chúng con.

    Xin chân thành cảm ơn các anh chị và bạn bè đã ủng hộ, giúp đỡ và động viên chúng em trong thời gian học tập và nghiên cứu.

    Mặc dù em đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót. Em kính mong nhận được sự cảm thông và tận tình chỉ bảo của quý Thầy Cô và các bạn.



    Hà nội, 06/2010

    Sinh viên thực hiện,

    Trần Quang Dũng







    Mục lục

    Chương 1: Tổng quát 1

    1.1 Đặt vấn đề 1

    1.2 Giới thiệu mô hình cực đại entropy 2

    1.3 Mục tiêu của luận văn 3

    Chương 2: Các phương pháp phân loại văn bản 5

    2.1 Cái nhìn tổng quát về các phương pháp phân loại văn bản 5

    2.2 Mô tả bài toán phân loại văn bản 5

    2.3 Biểu diễn văn bản 6

    2.4 Các phương pháp phân loại văn bản 7

    2.4.1 Naïve Bayes (NB) 7

    2.4.2 k-Nearest Neighbor (kNN) 8

    2.4.3 Linear Least Square Fit (LLSF) 9

    2.4.4 Support Vector Machine (SVM) 10

    Chương 3: Mô hình cực đại entropy 12

    3.1 Tổng quát mô hình cực đại entropy 12

    3.2 Mô hình cực đại entropy 15

    3.2.1 Dữ liệu huấn luyện 15

    3.2.2 Thống kê, đặc trưng và ràng buộc 16

    3.2.3 Nguyên lý cực đại entropy 17

    3.2.4 Tham số hình thức 18

    3.2.5 Mối quan hệ với cực đại Likelihood 20

    3.2.6 Tính các tham số 20

    3.3 Lựa chọn đặc trưng 22

    3.3.1 Ý nghĩa của việc lựa chọn đặc trưng 22

    3.3.2 Cơ sở lựa chọn đặc trưng 24

    3.3.3 Giá trị gần đúng 26

    Chương 4: Thực nghiệm phân loại văn bản 29

    4.1 Thống kê kết quả thực nghiệm 29

    4.2 Các thành phần và chức năng của chương trình 33

    4.2.1 Chức năng huấn luyện 34

    4.2.2 Chức năng kiểm thử 36

    4.2.3 Chức năng gán nhãn 37

    4.3 Ứng dụng chặn nội dung web 39

    4.3.1 Kỹ thuật lọc web Blue Coat 39

    4.3.2 Chức năng ứng dụng chặn nội dung web 40

    Chương 5: Kết luận 44

    5.1 Kết quả đạt được 44

    5.2 Những hạn chế và hướng giải quyết 45

    Tài liệu tham khảo 46

    Phụ lục 48
     

    Các file đính kèm:

Đang tải...