Thạc Sĩ Nghiên cứu các phương pháp xử lý tiếng việt ứng dụng cho tóm tắt văn bản

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    167
    Điểm thành tích:
    0
    Xu:
    0Xu
    Định dạng file word


    MỤC LỤC



    LỜI CAM ĐOAN .i

    LỜI CẢM ƠN .ii

    MỤC LỤC .iii

    DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT . v

    DANH MỤC CÁC BẢNG . vi

    DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vii

    MỞ ĐẦU 1

    Chương 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 3

    1.1 Tổng quan 3

    1.1.1 Khái niệm 3

    1.1.2 Lịch sử phát triển của tóm tắt văn bản .3

    1.1.3 Phân loại các phương pháp tóm tắt văn bản .4

    1.2 Mô hình tóm tắt văn bản 6

    1.2.1 Các phương pháp áp dụng trong pha phân tích 7

    1.2.2 Các phương pháp áp dụng trong pha biến đổi 8

    1.2.3 Các phương pháp trong pha tổng hợp kết quả 9

    1.3 Các phương pháp đánh giá .9

    1.3.1 Các phương pháp đánh giá trong 10

    1.3.2 Các phương pháp đánh giá ngoài 11

    Chương 2 BÀI TOÁN TÓM TẮT VĂN BẢN TIẾNG VIỆT 12

    2.1 Một số hướng tiếp cận bài toán tóm tắt văn bản . 12

    2.2 Đặc điểm tiếng Việt . 13

    2.2.1 Đặc điểm chung 13

    2.2.2 Yếu tố ngoại lai trong từ tiếng Việt 14

    2.2.3 Từ đồng nghĩa . 14

    2.2.4 Đặc điểm chính tả . 15

    2.2.5 Bảng mã tiếng Việt trên máy tính 16

    2.3 Phương pháp cho bài toán tóm tắt văn bản tiếng Việt . 17

    Chương 3. ỨNG DỤNG PHƯƠNG PHÁP CẤU TRÚC ĐỂ TÓM TẮT VĂN BẢN
    TIẾNG VIỆT . 20

    3.1 Mô hình tóm tắt sử dụng phương pháp cấu trúc . 20

    3.2 Tiền xử lý văn bản . 21

    3.3 Xử lý từ . 22

    3.4 Xây dựng đồ thị liên kết . 24

    3.5 Sinh văn bản tóm tắt 28

    Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 33

    4.1 Môi trường thử nghiệm 33

    4.2 Dữ liệu thử nghiệm 33

    4.3 Phương pháp đánh giá 33

    4.4 Kết quả thực nghiệm 36

    4.4.1 Thử nghiệm xác định ngưỡng 36

    4.4.2 Kết quả thử nghiệm đối với từng phiên bản . 37

    KẾT LUẬN . 42

    TÀI LIỆU THAM KHẢO . 44

    PHỤ LỤC . 46



    MỞ ĐẦU


    Ngày nay, với sự phát triển như vũ bão của công nghệ thông tin, Internet cũng
    như các dịch vụ trực tuyến, ngày càng có nhiều thông tin được tạo ra. Ta có thể truy
    cập các thông tin đó qua sách, báo, Internet và các phương tiện truyền thông. Hơn
    nữa, nhu cầu đọc, tìm kiếm và lưu trữ thông tin của con người cũng ngày càng tăng
    lên. Tuy nhiên, với một lượng lớn thông tin như vậy thì người ta không thể nào có
    đủ thời gian và sức lực để đọc hết được chúng. Giải pháp là tóm tắt lại các văn bản
    đó, từ đó giúp tiết kiệm thời gian và công sức nhưng vẫn có thể đọc và xử lý được
    nhiều văn bản.

    Tóm tắt văn bản tự động đã bắt đầu được nghiên cứu từ những năm 50 của thế
    kỉ trước. Đã có nhiều công trình nghiên cứu về lĩnh vực này và có được những kết
    quả đáng kể. Tóm tắt văn bản đã được sử dụng trong các phần mềm xử lý văn bản
    (Microsoft Office Word ), trong khai phá cơ sở dữ liệu văn bản (Oracle ), trong
    các ứng dụng tìm kiếm thông tin trực tuyến (hệ thống tìm kiếm Google, Yahoo )
    và đều thu được những kết quả rất đáng khích lệ.

    Tuy nhiên, đối với Tiếng Việt, do sự phức tạp của ngôn ngữ nên hiện chưa có
    nhiều công trình nghiên cứu về tóm tắt văn bản và kết quả của các công trình nghiên
    cứu về tóm tắt văn bản tiếng Việt còn hạn chế so với các ngôn ngữ khác mà đặc biệt
    là so với tiếng Anh.

    Vì vậy, chúng tôi chọn đề tài: “Nghiên cứu các phương pháp xử lý tiếng Việt
    ứng dụng cho tóm tắt văn bản” nhằm nghiên cứu những vấn đề tổng quan về xử lý
    ngôn ngữ tự nhiên và một số phương pháp tóm tắt văn bản tiên tiến đã được ứng
    dụng và thu được kết quả khả quan đối với tiếng Anh; đồng thời nghiên cứu những
    đặc điểm của tiếng Việt nhằm cải tiến và ứng dụng những phương pháp đó để có thể
    xây dựng ứng dụng tóm tắt văn bản tiếng Việt.

    Nội dung của luận văn được chia làm 4 chương:

    Chương 1. Tổng quan về tóm tắt văn bản

    Chương này trình bày những vấn đề tổng quan về bài toán tóm tắt văn bản,
    một số hướng tiếp cận hiện đại và các phương pháp đánh giá kết quả của văn bản
    tóm tắt.

    Chương 2. Bài toán tóm tắt văn bản tiếng Việt

    Chương này trình bày về bài toán tóm tắt văn bản tiếng Việt và một số khó
    khăn gặp phải do các đặc điểm của tiếng Việt (ngữ âm, ngữ pháp, chính tả ), và
    một số vấn đề về tiếng Việt trên máy tính (bảng mã, font chữ ), từ đó lựa chọn
    phương pháp phù hợp cho bài toán tóm tắt văn bản.
    Chương 3. Ứng dụng phương pháp cấu trúc để tóm tắt văn bản tiếng Việt

    Chương này trình bày về việc sử dụng phương pháp sử dụng cấu trúc văn bản
    kết hợp với từ điển từ dừng và từ điển đồng nghĩa để xây dựng chương trình tóm tắt
    văn bản tiếng Việt.

    Chương 4. Thực nghiệm và đánh giá

    Chương này trình bày về phương pháp được sử dụng để đánh giá hệ thống tóm
    tắt và các kết quả thực nghiệm.

    Chương 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN

    1.1 Tổng quan

    1.1.1 Khái niệm

    Tóm tắt văn bản là một lĩnh vực của xử lý ngôn ngữ tự nhiên, đã được bắt đầu
    nghiên cứu từ những năm 50 của thế kỉ trước. Có nhiều định nghĩa về tóm tắt văn
    bản:

    [19] định nghĩa tóm tắt văn bản là quá trình rút trích ra các thông tin quan
    trọng từ một hoặc nhiều văn bản để tạo ra văn bản ngắn gọn cho mỗi hoặc nhóm
    người dùng, cho từng tác vụ hay nhiều tác vụ khác nhau.

    [21] định nghĩa hệ thống tóm tắt văn bản là hệ thống đưa ra dạng biểu diễn
    ngắn gọn của thông tin đầu vào căn cứ theo yêu cầu của người dùng.

    Radev (2002) [22] định nghĩa văn bản tóm tắt là văn bản được tạo từ một hoặc
    nhiều văn bản khác mà truyền tải được những thông tin quan trọng trong văn bản
    gốc nhưng có độ dài không quá ½ văn bản gốc (thường ngắn hơn đáng kể).

    Theo Partha Lal (2002) [16] thì tóm tắt văn bản là việc thể hiện nội dung văn
    bản dưới dạng giản lược một cách tự động nhằm đáp ứng yêu cầu nào đó từ phía
    người dùng.

    Đỗ Phúc, Hoàng Kiếm (2006) [5] định nghĩa tóm tắt văn bản tự động là việc
    tìm các ý chính của văn bản.

    Tựu chung lại, có ba đặc điểm quan trọng cần phải xem xét trong hệ thống
    tóm tắt văn bản:

    1) Bản tóm tắt có thể được tạo ra từ một hoặc nhiều văn bản.

    2) Bản tóm tắt cần truyền tải các thông tin quan trọng.

    3) Bản tóm tắt cần phải ngắn.

    1.1.2 Lịch sử phát triển của tóm tắt văn bản

    Tóm tắt văn bản bắt đầu từ những năm cuối thập kỉ 1950 với nghiên cứu của
    Luhn (1958) [17] dựa trên tần số từ. Ý tưởng cơ bản của phương pháp tần số từ dựa
    trên kiến thức cho rằng tần số của từng từ trong văn bản là một độ đo hữu dụng để
    đánh giá tầm quan trọng của chúng.

    Tiếp theo đó là phương pháp tóm tắt dựa trên vị trí của các câu trong văn bản
    của Baxendale (1958), và những nghiên cứu của Edmundson (1969) [14] về vị trí
    của các câu trong văn bản và các từ/cụm từ mang ý nghĩa tổng quát (từ/cụm từ dấu
    hiệu). Theo đó, những câu bắt đầu và kết thúc của đoạn văn/bài viết hay những câu

    TÀI LIỆU THAM KHẢO

    Tiếng Việt

    [1] Diệp Quang Ban (2008), Ngữ pháp tiếng Việt - tập 1, 2, NXB Giáo dục, Hà
    Nội.

    [2] Nguyễn Việt Cường (2007), “Xây dựng mục lục cho văn bản”, Luận văn
    thạc sĩ, Đại học Công nghệ - Đại học Quốc gia Hà Nội, Hà Nội.

    [3] Trần Trọng Dương, Nguyễn Quốc Khánh, Bùi Hồng Quế, Nguyễn Đình
    Phúc, Nguyễn Minh Châu (2008), Từ điển đồng nghĩa và trái nghĩa tiếng Việt dành
    cho học sinh, Nhà xuất bản từ điển bách khoa, Hà Nội, tr. 9-323.

    [4] Vũ Xuân Lương (2002), “Tiếng Việt giàu nhưng có còn đẹp trên mạng
    thông tin toàn cầu”, Tạp chí ngôn ngữ & đời sống, Hà Nội.

    [5] Đỗ Phúc, Hoàng Kiếm (2006), “Rút ý chính từ văn bản tiếng Việt hỗ trợ
    tạo tóm tắt nội dung”, Tạp chí công nghệ thông tin và truyền thông, Hà Nội.

    [6] Nguyễn Trọng Phúc, Lê Thanh Hương (2008), “Tóm tắt văn bản sử dụng
    cấu trúc diễn ngôn”, Đại học Bách Khoa Hà Nội, Hà Nội.

    [7] Nguyễn Hồng Thái (2008), “Tóm tắt văn bản tiếng Việt theo chủ đề”, Đồ
    án tốt nghiệp cao học, Đại học Bách khoa Hà Nội.

    [8] Vương Toàn (2007), “Thử đề xuất quy trình tự động tóm tắt văn bản khoa
    học”, Bản tin thư viện – Công nghệ thông tin, tr.14-17.

    [9] Trần Mai Vũ (2009), Tóm tắt đa văn bản dựa vào trích xuất câu, Luận
    văn thạc sĩ, Đại học Công nghệ - Đại học Quốc gia Hà Nội.

    [10] Website xulyngonngu.com

    Tiếng Anh

    [11] Dipanjan Das, Andre F.T. Martins (2007), “A Survey on Automatic Text
    Summarization”, Language Technologies Institute, Carnegie Mellon Univerisity.

    [12] Dang Duc Pham, Giang Chan Binh, Son Bao Pham (2009), “ ”,
    International Conference on Knowledge and Systems Engineering, pp.154-161.

    [13]Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001), “Vietnamese Word
    Segmentation”, National University of HCM City

    [14] Edmundson (1969), “New methods in automatic extracting”, Journal of
    the ACM, 16(2), pp.264-285.

    [15] Jezek, K. and Steinberger, J. (2008) "Automatic Text Summarization
    (The state of the art 2007 and new challenges)", Znalosti, FIIT STU Bratislava,
    Slovakia, pp.1-12.

    [16] Partha Lal (2002), Text Summarization, Doctor thesis, University of
    Sheffield.

    [17] H.P. Luhn (1958), “The Automatic Creation of Literature Abstracts”,
    IBM Journal of Research and Development, volume 2, pp. 159-165.

    [18] Inderjeet Mani (2001), “Summarization Evaluation: An Overview”, In:
    Proceedings of the North American chapter of the Association for Computational
    Linguistics (NAACL), Workshop on Automatic Summarization, USA.

    [19] Inderjeet Mani and Mark T. Maybury, (1999), Advances in Automatic
    Text Summarization, The MIT Press Cambridge, Massachusetts London, England,
    pp. ix-x.

    [20] Zdravko Markov and Daniel T.Larose (2007), Data mining the web –
    Uncovering patterns in Web content, structure, and usage, John Wiley & Sons Inc.
    Publication, New Jersey, USA.

    [21] Joel Larocca Neto, Alex A. Freitas, Celso A.A. Kaestner (2002),
    “Automatic Text Summarization using a Machine Learning Approach”, Springer
    Verlag Berlin Heidelberg , pp. 205-215

    [22] Dragomir R. Radev, Kathleen McKeown (2002), “Introduction to the
    Special Issue on Summarization”, Computational Linguistics, Volume 28 (4), pp.
    399-408.

    [23] Gerard Salton, Chris Buckley and Jame Allan (1992), “Automatic
    structuring of text files”, Electronic Publishing, Vol. 5(1), pp. 1-17.

    [24] Gerard Salton, Am1t Singha, Mandar Mitra And Chris Buckley (1997),
    “Automatic Text Structuring and Summarization”, Advances in Automatic Text
    Summarization, The MIT Press Cambridge, Massachusetts London, England, pp.
    341-355.

    [25] Chih-Hao Tsai (2000), “A Word Identification System for Mandarin
    Chinese Text Based on Two Variants of the Maximum Matching Algorithm”, Web
    publication at http://technology.chtsai.org/mmseg/
     

    Các file đính kèm:

Đang tải...