Thạc Sĩ Phân loại nội dung tài liệu Web

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Nhu Ely, 16/1/14.

  1. Nhu Ely

    Nhu Ely New Member

    Bài viết:
    1,771
    Được thích:
    1
    Điểm thành tích:
    0
    Xu:
    0Xu
    LUẬN VĂN THẠC SĨ
    NĂM 2012


    MỤC LỤC
    LỜI CAM ĐOAN i
    LỜI CẢM ƠN . ii
    MỤC LỤC iii
    DANH MỤC HÌNH vi
    DANH MỤC BẢNG . vii
    DANH MỤC CÁC TỪVIẾT TẮT viii
    MỞ ĐẦU 1
    CHƯƠNG 1: TỔNG QUAN VỀPHÂN LOẠI TÀI LIỆU . 4
    1.1 Tổng quan vềphân loại tài liệu . 4
    1.1.1 Giới thiệu vềbài toán phân loại 4
    1.1.2 Tổng quan . 5

    1.2 Quy trình phân loại văn bản 7
    CHƯƠNG 2: MỘT SỐKỸTHUẬT TRONG PHÂN LOẠI VĂN BẢN 9
    2.1 Xửlý văn bản 9
    2.1.1 Đặc điểm của từtrong tiếng việt 9
    2.1.2 Tách từ 9
    2.1.2.1 Phương pháp Maximum Matching: Forward / Backward . 10
    2.1.2.2 Phương pháp Transformation – based Learning (TBL) 11
    2.1.2.3 Mô hình tách từbằng WFST và mạng Neural . 11
    2.1.2.4 Phương pháp tách tách từtiếng Việt dựa trên thống kê từInternet
    và thuật giải di truyền . 13
    2.1.2.5 Loại bỏtừdừng 13
    2.1.3 Đặc trưng văn bản . 13
    2.2 Biểu diễn văn bản 15
    2.2.1 Mô hình logic 15
    2.2.2 Mô hình phân tích cú pháp . 17
    2.2.3 Mô hình không gian vector . 17
    2.2.3.1 Mô hình boolean . 19
    2.2.3.2 Mô hình tần suất . 20
    2.3 Độtương đồng 22
    2.3.1 Khái niệm độtương đồng . 22
    2.3.2 Độtương đồng 23
    2.3.3 Các phương pháp tính độtương đồng 23
    2.3.3.1 Phương pháp tính độtương đồng sửdụng độ đo Cosine . 24
    2.3.3.2 Phương pháp tính độtương đồng dựa vào độ đo khoảng cách Euclide 25
    2.3.3.3 Phương pháp tính độtương đồng dựa vào độ đo khoảng cách Manhattan . 25
    2.4 Các phương pháp phân loại văn bản . 26
    2.4.1 Phương pháp pháp Naïve Bayes (NB) 26
    2.4.2 Phương pháp Support Vector Machine (SVM) 28
    2.4.3 Phương pháp K-Nearest Neighbor (KNN) . 29
    2.4.4 Phương pháp Linear Least Square Fit (LLSF) . 30
    2.4.5 Phương pháp Centroid – based vector 31
    2.4.6 Kết luận . 32

    CHƯƠNG 3: CHƯƠNG TRÌNH THỬNGHIỆM 34
    3.1 Quy trình thực hiện . 34
    3.1.1 Xửlý dữliệu . 34
    3.1.1.1 Tách từtiếng Việt . 34
    3.1.1.2 Loại bỏtừdừng, từtầm thường . 36
    3.1.2 Xây dựng bộdữliệu tập đặc trưng phục vụcho phân loại . 41
    3.1.2.1 Giới thiệu mô hình phân tích chủ đề ẩn . 41
    3.1.2.2 Mô hình Latent Dirichlet Allocation 42
    3.1.3 Phân loại văn bản sửdụng tần suất chủ đề . 45
    3.1.4 Phân loại văn bản sửdụng hệsốCosine 45
    3.2 Kết quảthực nghiệm . 47
    3.2.1 Môi trường thực nghiệm . 47
    3.2.1.1 Môi trường 47
    3.2.1.2 Công cụ . 47
    3.2.1.3 Dữliệu 48
    3.2.2 Kết quảthực nghiệm . 48
    3.2.2.1 Tiền xửlý văn bản 49
    3.2.2.2 Tìm đặc trưng cho từng thểloại . 51
    3.2.2.3 Phân loại văn bản . 59
    PHẦN KẾT LUẬN 62


    MỞ ĐẦU
    Trong những năm gần đây, sựphát triển vượt bậc của Công nghệthông tin đã làm tăng sốlượng giao dịch thông tin trên mạng Internet một cách đáng kể đặc biệt là thưviện điện tử, tin tức điện tử, Do đó mà sốlượng văn bản xuất hiện trên mạng Internet cũng tăng với một tốc độchóng mặt, và tốc độthay đổi thông tin là cực kỳnhanh chóng. Với sốlượng thông tin đồsộnhưvậy, một yêu cầu lớn đặt ra là làm sao tổchức và tìm kiếm thông tin, dữliệu có hiệu quảnhất. Bài toán phân lớp là một trong những giải pháp hợp lý cho yêu cầu trên. Nhưng một thực tếlà khối lượng thông tin quá lớn, việc phân lớp dữliệu thủcông là điều không thể.
    Hướng giải quyết là một chương trình máy tính tự động phân lớp các thông tin dữ liệu trên. Trong các loại dữliệu thì văn bản là loại dữliệu phổbiến mà con người thường gặp phải nhất. Mô hình biểu diễn văn bản phổbiến hiện nay là mô hình không gian vector, trong đó mỗi văn bản được biểu diễn bằng một vector của các từkhóa. Tuy nhiên bài toán khai phá dữliệu văn bản thường gặp phải một sốkhó khăn nhưtính nhiều chiều của văn bản, tính nhặp nhằng của ngôn ngữ Đồng thời, khi xửlý các bài toán phân lớp tự động thì cũng gặp phải một sốkhó
    khăn là đểxây dựng được bộphân lớp có độtin cậy cao đòi hỏi phải có một lượng các mẫu dữliệu huấn luyện tức là các văn bản đã được gán nhãn chủ đề lớp tương ứng. Các dữliệu huấn luyện này thường rất hiếm và đắt vì đỏi hỏi thời gian và công sức của con người. Do vậy, cần phải có hệthống xửlý văn bản hiệu quảvà một phương pháp học không cần nhiều dữliệu được phân loại và có khả năng tận dụng được các nguồn dữliệu chưa phân loại rất phong phú nhưhiện nay. Nhận thấy đây là lĩnh vực mang tính khoa học cao, ứng dụng rất nhiều trong các bài toán thực tếví dụnhư: ứng dụng lọc nội dung văn bản, bài toán phân lớp sau tìm kiếm, Tác giảquyết định chọn đềtài “Phân loại nội dung tài liệu web” là một việc làm không chỉcó ý nghĩa khoa học, mà còn mang tính thực tiễn.
    Trong luận văn sẽtrình bày một sốthuật toán phân lớp tiêu biểu và đưa ra hướng thực nghiệm cho hệthống phân lớp.
    Luận văn áp dụng phân tích chủ đề ẩn cụthểlà thuật toán Latent Dirichlet Allocation đểxác định chủ đềphục vụcho việc tiến hành phân lớp. Thực nghiệm cho thấy độchính xác cao, phù hợp đểáp dụng vào hệthống phân lớp tự động.

    Mục tiêu của luận văn:
    - Nghiên cứu các kỹthuật xửlý ngôn ngữtiếng Việt
    - Phân loại nội dung tài liệu trên văn bản tiếng Việt.
    Đối tượng nghiên cứu
    Các tài liệu văn bản tin tức dạng text chuẩn tiếng Việt, không chứa hình ảnh, âm thanh,
    Phạm vi nghiên cứu
    Phân loại văn bản vào các thểloại phổbiến giống nhưtrên các trang báo điện tử hiện nay, như trang http://vnexpress.net, http://vietnamnet.vn, các thểloại được nghiên cứu xửlý trong luận văn: đời sống, kinh doanh, khoa học, ô tô – xe máy, pháp luật, thếgiới, thểthao, văn hóa, vi tính, xã hội.
    Những vẫn đềcần giải quyết trong phạm vi luận văn:
    - Tìm hiểu tổng quan vềvấn đềnghiên cứu.
    - Tìm hiểu cách thức tương tác với tài liệu, văn bản tiếng Việt.
    - Tìm hiểu các phương pháp học máy.
    - Xây dựng bộdữliệu chủquan dựa trên văn bản đã được phân loại sẵn.
    - Nghiên cứu các thuật toán xửlý và so khớp văn bản.
    - Xây dựng quy trình phân loại văn bản.
    - Hiện thực quy trình phân loại văn bản.

    Bốcục trình bày của luận văn
    Chương 1: Giới thiệu tổng quan vềbài toán phân lớp văn bản và đưa ra quy trình phân lớp văn bản.
    Chương 2: Trình bày cụthểhơn vềquy trình phân lớp văn bản và đềcập đến các vấn đềliên quan trong quá trình thực hiện bài toán.
    Chương 3: Trình bày các bước thực hiện quy trình và đưa ra kết quảchương trình thực nghiệm.
    Kết luận những điểm chính, chỉ ra những điểm cần khắc phục đồng thời đặt ra hướng phát triển.
     

    Các file đính kèm:

Đang tải...