Luận Văn Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm, phân loại tin tức báo đ

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Phí Lan Dương, 25/6/14.

  1. Phí Lan Dương

    Phí Lan Dương New Member
    Thành viên vàng

    Bài viết:
    18,524
    Được thích:
    18
    Điểm thành tích:
    0
    Xu:
    0Xu
    LỜI NÓI ĐẦU


    Trong những năm gần đây, sự phát triển vượt bậc của công nghệ thông tin đã
    làm tăng số lượng giao dịch thông tin trên mạng Internet một cách đáng kể đặc biệt
    là thư viện điện tử, tin tức điện tử Do đó mà số lượng văn bản xuất hiện trên
    mạng Internet cũng tăng theo với một tốc độ chóng mặt. Theo số lượng thống kê từ
    Broder et al (2003), lượng thông tin đó lại tăng gấp đôi sau từ 9 đến 12 tháng, và tốc
    độ thay đổi thông tin là cực kỳ nhanh chóng.
    Với lượng thông tin đồ sộ như vậy, một yêu cầu lớn đặt ra đối với chúng ta là
    làm sao tổ chức và tìm kiếm thông tin có hiệu quả nhất. Phân loại thông tin là một
    trong những giải pháp hợp lý cho yêu cầu trên. Nhưng một thực tế là khối lượng
    thông tin quá lớn, việc phân loại dữ liệu thủ công là điều không tưởng. Hướng giải
    quyết là một chương trình máy tính tự động phân loại các thông tin trên.
    Chúng em đã tập trung thực hiện đề tài “Tìm hiểu các hướng tiếp cận cho bài
    toán phân loại văn bản và xây dựng ứng dụng phân loại tin tức báo điện tử”
    nhằm tìm hiểu và thử nghiệm các phương pháp phân loại văn bản áp dụng trên tiếng
    Việt. Để thực hiện việc phân loại, điều bắt buộc đối với tiếng Việt đó là việc tách từ.
    Trong luận văn này, chúng em cũng tìm hiểu một số cách tách từ tiếng Việt và thử
    nghiệm một phương pháp tách từ mới thích hợp cho việc phân loại mà không dùng
    bất kỳ từ điển hoặc tập ngữ liệu nào. Cuối cùng, chúng em xây dựng phần mềm
    phân loại văn bản tích hợp vào trang web “Toà soạn báo điện tử” (Luận văn khoá
    2000 - Hoàng Minh Ngọc Hải (0012545), Nguyễn Duy Hiệp (0012038)) nhằm phục
    vụ cho việc phân loại tin tức báo điện tử.
    Hiện nay, trang web của khoa chúng ta vẫn chưa thực hiện được việc phân loại
    tự động các tin tức lấy về, do đó gây ra rất nhiều lãng phí về thời gian và công sức
    của nhà quản trị cũng như làm giới hạn việc thu thập tin tức từ nhiều nguồn khác
    nhau. Ứng dụng phân loại tin tức báo điện tử tích hợp với việc lấy tin tức tự động
    của chúng em hy vọng sẽ đem đến một cách quản trị mới, nhanh chóng và hiệu quả
    hơn cách lấy tin truyền thống. Ngoài ra, trong điều kiện cần cập nhật thông tin một

    iii
    cách nhanh chóng như hiện nay, phần mềm phân loại văn bản tự động của chúng
    em còn có khả năng ứng dụng cho nhiều loại trang báo điện tử tiếng Việt khác.
    Nội dung của luận văn được trình bày bao gồm 8 chương; trong đó, 3 chương
    đầu trình bày các hướng tiếp cận cho phân loại văn bản và tách từ tiếng Việt hiện
    nay; 2 chương tiếp theo trình bày hướng tiếp cận của luận văn đối với phân loại văn
    bản và tách từ tiếng Việt; 3 chương cuối trình bày hệ thống thử nghiệm văn bản,
    ứng dụng vào phân loại tin tức bán tự động, và cuối cùng là đánh giá, kết luận quá
    trình nghiên cứu của luận văn.
    Chương 1. Tổng quan: giới thiệu sơ lược về các phương pháp phân loại văn
    bản và các hướng tiếp cận cho việc tách từ tiếng Việt; đồng thời xác định
    mục tiêu của đề tài.
    Chương 2. Một số phương pháp phân loại văn bản: giới thiệu tóm tắt một
    số phương pháp phân loại văn bản dành cho tiếng Anh.
    Chương 3. Phương pháp tách từ tiếng Việt hiện nay: trình bày tóm tắt
    một số phương pháp tách từ tiếng Việt hiện nay, ưu điểm và hạn chế của các
    phương pháp đó.
    Chương 4. Phương Tách từ Tiếng Việt không dựa trên tập ngữ liệu
    đánh dấu (annotated corpus) hay từ điển (lexicon) – Một thách thức:
    trình bày phương pháp tách từ tiếng Việt mới chỉ dựa vào việc thống kê từ
    Internet thông qua Google mà không cần bất kỳ từ điển hay tập ngữ liệu nào.
    Chương 5. Bài toán phân loại tin tức báo điện tử: trình bày hướng tiếp cận
    cho bài toán phân loại tin tức báo điện tử.
    Chương 6. Hệ thống thử nghiệm phân loại văn bản: giới thiệu về hệ thống
    thử nghiệm các phương pháp tách từ và phân loại văn bản do chúng em xây
    dựng. Ngoài ra, trong chương 6, chúng em trình bày về dữ liệu dùng để thử
    nghiệm và các kết quả thử nghiệm thu được.
    Chương 7. Ứng dụng phân loại tin tức báo điện tử bán tự động: giới
    thiệu ứng dụng phân loại tin tức báo điện tử do chúng em xây dựng tích hợp
    trên trang web do luận văn “Tòa soạn báo điện tử” khóa 2000 xây dựng của
    sinh viên Hoàng Minh Ngọc Hải (0012545), Nguyễn Duy Hiệp (0012038)
    Chương 8. Tổng kết: là chương cuối cùng của đề tài, tóm lại các vấn đề đã
    giải quyết và nêu một số hướng phát triển trong tương lai.



    MỤC LỤC

    Chương 1. TỔNG QUAN 2
    1.1. Đặt vấn đề 2
    1.2. Các phương pháp phân loại văn bản .2
    1.3. Tách từ Tiếng Việt – Một thách thức thú vị 3
    1.4. Mục tiêu của luận văn 5
    1.4.1. Phần tìm hiểu các thuật toán phân loại văn bản .5
    1.4.2. Phần tách từ tiếng Việt .5
    1.4.3. Phần mềm phân loại tin tức báo điện tử bán tự động 5
    1.4.4. Đóng góp của luận văn 6

    Chương 2. CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN TIẾNG ANH 8
    2.1. Bối cảnh các phương pháp phân loại văn bản hiện nay .8
    2.2. Các phương pháp phân loại văn bản tiếng Anh hiện hành 8
    2.2.1. Biểu diễn văn bản 8
    2.2.2. Support vector Machine(SVM) .10
    2.2.3. K–Nearest Neighbor (kNN) .12
    2.2.4. Naïve Bayes (NB) 13
    2.2.5. Neural Network (NNet) .15
    2.2.6. Linear Least Square Fit (LLSF) .17
    2.2.7. Centroid- based vector .18
    2.3. Kết luận 19

    Chương 3. CÁC PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT HIỆN NAY 22
    3.1. Tại sao tách từ tiếng Việt là một thách thức? 22
    3.1.1. So sánh giữa tiếng Việt và tiếng Anh 22
    3.1.2. Nhận xét .23
    3.2. Bối cảnh các phương pháp tách từ hiện nay 23
    3.2.1. Bối cảnh chung 23
    3.2.2. Các hướng tiếp cận dựa trên từ (Word-based approaches) 24
    3.2.3. Các hướng tiếp cận dựa trên ký tự (Character-based approaches) 26
    3.3. Một số phương pháp tách từ tiếng Việt hiện nay .28
    3.3.1. Phương pháp Maximum Matching: forward/backward .28
    3.3.2. Phương pháp giải thuật học cải biến ( TBL) 30
    3.3.3. Mô hình tách từ bằng WFST và mạng Neural .31
    3.3.4. Phương pháp quy hoạch động (dynamic programming) .34
    3.3.5. Phương pháp tách từ tiếng Việt dựa trên thống kê từ Internet và thuật
    toán di truyền (Internet and Genetics Algorithm-based Text Categorization for
    Documents in Vietnamese - IGATEC) 34
    3.4. So sánh các phương pháp tách từ Tiếng Việt hiện nay 37
    3.5. Kết luận 37

    Chương 4. TÁCH TỪ TIẾNG VIỆT KHÔNG DỰA TRÊN TẬP NGỮ LIỆU ĐÁNHDẤU (ANNOTATED CORPUS) HAY TỪ ĐIỂN (LEXICON) – MỘT THÁCH THỨC 40
    4.1. Giới thiệu .40
    4.2. Các nghiên cứu về thống kê dựa trên Internet .40
    4.2.1. Giới thiệu .40
    4.2.2. Một số công trình nghiên cứu về thống kê dựa trên Internet .41
    4.2.3. Nhận xét .43
    4.3. Các phương pháp tính độ liên quan giữa các từ dựa trên thống kê .43
    4.3.1. Thông tin tương hỗ và t-score dùng trong tiếng Anh 44
    4.3.2. Một số cải tiến trong cách tính độ liên quan ứng dụng trong tách từ tiếng
    Hoa và tiếng Việt .46
    4.3.3. Nhận xét về các cách tính độ liên quan khi áp dụng cho tiếng Việt .48
    4.4. Tiền xử lý (Pre-processing) .49
    4.4.1. Xử lý văn bản đầu vào .49
    4.4.2. Tách ngữ & tách stopwords .50
    4.5. Hướng tiếp cận tách từ dựa trên thống kê từ Internet và thuật toán di truyền
    (Internet and Genetic Algorithm - based ) .51
    4.5.1. Công cụ trích xuất thông tin từ Google .51
    4.5.2. Công cụ tách từ dùng thuật toán di truyền (Genetic Algorithm – GA) .53
    4.6. Kết luận 61

    Chương 5. BÀI TOÁN PHÂN LOẠI TIN TỨC ĐIỆN TỬ 63
    5.1. Lý do chọn phương pháp Naïve Bayes 63
    5.2. Thuật toán Naïve Bayes .64
    5.2.1. Công thức xác suất đầy đủ Bayes 64
    5.2.2. Tính độc lập có điều kiện (Conditional Independence) .65
    5.2.3. Nguồn gốc thuật toán Naïve Bayes 65
    5.2.4. Phương pháp Naïve Bayes trong phân loại văn bản 66
    5.2.5. Hai mô hình sự kiện trong phân loại văn bản bằng phương pháp Naïve
    Bayes 68
    5.3. Bài toán phân loại tin tức điện tử tiếng Việt 70
    5.3.1. Quy ước .70
    5.3.2. Công thức phân loại văn bản trong IGATEC [H. Nguyen et al, 2005] .71
    5.3.3. Công thức Naïve Bayes trong bài toán phân loại tin tức điện tử tiếng Việt
    sử dụng thống kê từ Google .72
    5.4. Kết luận 74

    Chương 6. HỆ THỐNG THỬ NGHIỆM PHÂN LOẠI VĂN BẢN 76
    6.1. Giới thiệu hệ thống thử nghiệm Vikass .76
    6.1.1. Chức năng hệ thống Vikass .76
    6.1.2. Tổ chức và xử lý dữ liệu 76
    6.1.3. Một số màn hình của hệ thống Vikass .79
    6.2. Thử nghiệm các cách trích xuất thông tin 82
    6.2.1. Các phương pháp thử nghiệm 82
    6.2.2. Nhận xét .84
    6.3. Dữ liệu thử nghiệm 84
    6.3.1. Nguồn dữ liệu 84
    6.3.2. Số lượng dữ liệu thử nghiệm .84
    6.3.3. Nhận xét .86
    6.4. Thử nghiệm các công thức tính độ tương hỗ MI .87
    6.4.1. Các phương pháp thử nghiệm 87
    6.4.2. Kết quả .87
    6.4.3. Nhận xét .88
    6.5. Thử nghiệm phân loại tin tức điện tử .89
    6.5.1. Thước đo kết quả phân loại văn bản 89
    6.5.2. Các phương pháp thử nghiệm 91
    6.5.3. Kết quả .91
    6.5.4. Nhận xét .96

    Chương 7. ỨNG DỤNG PHÂN LOẠI TIN TỨC ĐIỆN TỬ TỰ ĐỘNG 99
    7.1. Giới thiệu tòa soạn báo điện tử 99
    7.2. Tính cần thiết của phân loại tin tức tự động 99
    7.3. Phân tích hiện trạng .100
    7.3.1. Mô hình DFD quan niệm cấp 2 hiện hành cho ô xử lý Nhận bài và Trả bài
    100
    7.3.2. Phê phán hiện trạng 103
    7.3.3. Mô hình DFD quan niệm cấp 2 mới cho ô xử lý Nhận bài và Trả bài 104
    7.4. Triển khai DLL 105
    7.5. Chương trình cài đặt “Tòa soạn báo điện tử” đã tích hợp module phân loại tin
    tức 106
    7.6. Kết quả .110

    Chương 8. TỔNG KẾT 112
    8.1. Kết quả đạt được 112
    8.1.1. Về mặt lý thuyết .112
    8.1.2. Về mặt thực nghiệm .113
    8.2. Hạn chế và hướng phát triển 113
     

    Các file đính kèm:

Đang tải...