Tiến Sĩ Nghiên cứu phát triển các kỹ thuật tự động tóm tắt văn bản tiếng Việt

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Phí Lan Dương, 1/10/15.

  1. Phí Lan Dương

    Phí Lan Dương New Member
    Thành viên vàng

    Bài viết:
    18,524
    Được thích:
    18
    Điểm thành tích:
    0
    Xu:
    0Xu
    LUẬN ÁN TIẾN SĨ
    NĂM 2015


    CHƯƠNG 1. TỔNG QUAN VỀ TÓM TẮT VĂN BẢN VÀ TÓM TẮT
    VĂN BẢN TIẾNG VIỆT 8
    1.1 Giới thiệu về tóm tắt văn bản 8
    1.1.1 Các giai đoạn và các tham số của hệ thống tóm tắt văn bản 10
    1.1.2 Phân loại các hệ thống tóm tắt văn bản 12
    1.2 Các phương pháp đánh giá tóm tắt văn bản 14
    1.2.1 Đánh giá thủ công 15
    1.2.2 Đánh giá đồng chọn .15
    1.2.3 Đánh giá dựa trên nộ i dung 17
    1.2.4 Đánh giá dựa trên tác vụ .19
    1.3 Các hướng tiếp cận tóm tắt văn bản ngoài nước . 20
    1.3.1 Các phương pháp tóm tắt trí ch rút .20
    1.3.2 Các phương pháp tóm tắt theo hướng tóm lược .23
    1.4 Kho ngữ liệu tiêu chuẩn cho bài toán tóm tắt văn bản tiếng Anh 23
    1.5 Hiện trạng nghiên cứu tóm tắt văn bản tiếng Việt 24
    1.5.1 Đặc điểm t iếng Việt .24
    1.5.2 Hiện trạng nghiên cứu xử lý ngôn ngữ tự nhiên t iếng Việt .27
    1.5.3 Một số hướng tiếp cận tóm tắt văn bản t iếng Việt 28
    1.5.4 Hiện trạng kho ngữ liệu huấn luyện và đánh giá cho bài toán tóm
    tắt văn bản t iếng Việt 31
    1.5.5 Đặc điểm của các phương pháp tóm tắt văn bản t iếng Việt .32
    1.6 Các kiến thức cơ sở liên quan 32
    1.6.1 Giải thuật di truyền 32
    1.6.2 Giải thuật tố i ưu đàn kiến .34
    1.6.3 Phương pháp Voting Schulze .36
    1.7 Kết luận Chương 1 39
    CHƯƠNG 2. TÓM TẮT VĂN BẢN TIẾNG VIỆT DỰA TRÊN BỘ HỆ
    SỐ ĐẶC TRƯNG . 40
    2.1 Mô hình tóm tắt văn bản tiếng Việt dựa trên bộ hệ số đặc trưng 40
    2.1.1 Quy trì nh tóm tắt văn bản theo hướng trí ch rút 40
    2.1.2 Mô hì nh tóm tắt văn bản dựa trên bộ hệ số đặc trưng .42
    2.2 Lựa chọn tập đặc trưng cho văn bản tiếng Việt 43
    2.2.1 Ví trí câu .44
    2.2.2 Trọng số TF.ISF 45
    2.2.3 Độ dài câu .46
    2.2.4 Xác suất thực từ .47
    2.2.5 Thực thể tên .48
    2.2.6 Dữ liệu số 49
    2.2.7 Tương tự với t iêu đề .51
    2.2.8 Câu trung tâm 51
    2.3 Xác định hệ số đặc trưng bằng phương pháp học máy 52
    2.3.1 Đặt bài toán .52
    2.3.2 Xác định hệ số bằng giải thuật di truyền 54
    2.3.3 Xác định hệ số bằng giải thuật tố i ưu đàn kiến .61
    2.4 Các kết quả thử nghiệm . 68
    2.4.1 Kho ngữ liệu t hử nghiệm 68
    2.4.2 Phương pháp đánh giá kết quả tóm tắt .68
    2.4.3 Các kết quả thử nghiệm 69
    2.4.4 Nhận xét các kết quả thử nghiệm 78
    2.5 Kết luận Chương 2 79
    CHƯƠNG 3. TÓM TẮT VĂN BẢN TIẾNG VIỆT SỬ DỤNG KỸ THUẬT
    VOTING . 81
    3.1 Mô hình tóm tắt văn bản sử dụng kỹ thuật Voting 81 3.1.1 Xác định hệ số phương pháp bằng phương pháp học máy 85
    3.1.2 Mô hì nh tóm tắt văn bản tiếng Việt sử dụng kỹ thuật Vo ting 89
    3.2 Các kết quả thử nghiệm . 91
    3.2.1 Kho ngữ liệu t hử nghiệm 91
    3.2.2 Phương pháp đánh giá kết quả tóm tắt .92
    3.2.3 Lựa chọn các phương pháp tóm tắt văn bản đầu vào 92
    3.2.4 Các kết quả thử nghiệm 94
    3.2.5 Nhận xét các kết quả thử nghiệm 97
    3.3 Kết luận Chương 3 99
    CHƯƠNG 4. QUY TRÌNH XÂY DỰNG KHO NGỮ LIỆU CÓ CHÚ GIẢI
    CHO BÀI TOÁN TÓM TẮT VĂN BẢN TIẾNG VIỆT . 101
    4.1 Đặt vấn đề 101
    4.2 Quy trình xây dựng kho ngữ liệu có chú giải . 102
    4.2.1 Mô hì nh đề xuất . 102
    4.2.2 Thu thập 102
    4.2.3 Xây dựng bản tóm tắt con người . 104
    4.2.4 Chú giải, cấu trúc hoá và lưu trữ. 105
    4.2.5 Tổ chức quản lý, lưu trữ . 108
    4.3 Phương pháp đánh giá kho ngữ liệu 108
    4.3.1 Đánh giá dựa vào độ đo đồng xuất hiện t hực từ . 109
    4.3.2 Đánh giá thủ công 109
    4.4 Kết luận Chương 4 110
    KẾT LUẬN . 111
    DANH MỤC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ . 113
    TÀI LIỆU THAM KHẢO . 115
    PHỤ LỤC 01: KHO NGỮ LIỆU VIEVTEXTSUM 1
    PHỤ LỤC 02: KHO NGỮ LIỆU CORPUS_LTH 4
    PHỤ LỤC 03: THỬ NGHIỆM . 5

    MỞ ĐẦU
    1. Tình hình nghiên cứu trong nước và ngoài nước
    Trong thời gian gần đây, với sự phát triển nhanh chóng của các dịch vụ
    trực tuyến và công nghệ lưu trữ hiện đại, thông tin văn bản được lưu trữ trên
    mạng Internet trở nên vô cùng lớn. Hằng ngày, số lư ợng thông tin văn bản tăng
    lên không ngừng. Lượng thông tin văn bản khổng lồ đó đã và đang mang lại lợi
    í ch không nhỏ cho con người. Tuy nhiên, nó gây ra s ự quá tải thông tin khiến
    chúng ta gặp nhiều khó khăn trong việc tì m kiếm và tổng hợp thông tin. Để cải
    thiện tì m kiếm cũng như tăng hiệu quả cho việc xử lý thông tin, tóm tắt văn bản
    tự động là giải pháp không thể thiếu để giải quyết vấn đề này.
    Trên thế giới, bài toán tóm tắt văn bản xuất hiện từ rất lâu. Những kỹ thuật
    đầu tiên áp dụng để tóm tắt văn bản đã được đề xuất từ những năm 50 của thế
    kỷ trước [47],[17]. Sau đó, chúng tiếp tục được nghiên cứu và đạt nhiều kết quả
    ngày càng tốt hơn cho nhiều loại ngôn ngữ như tiếng Anh, tiếng Pháp, tiếng
    Nhật, tiếng Trung Các nghiên cứu tập trung vào hai hướng chí nh: tóm tắt
    trí ch rút ES (Extraction Summarization) và tóm tắt tóm lược AS (Abstraction
    Summarization) [37] cho bài toán tóm tắt đơn văn bản (bản tóm tắt được tạo
    thành từ một văn bản) và đa văn bản (văn bản tóm tắt được tạo thành từ nhiều
    văn bản cùng chủ đề). Hầu hết các nghiên cứu về tóm tắt văn bản là ES vì nó
    dễ thực hiện và có tốc độ nhanh hơn so với AS. Hướng tiếp cận ES chủ yếu là
    dựa vào các đặc trưng quan trọng của văn bản để tí nh trọng số câu để trí ch rút.
    Trong khi đó, AS là dựa vào các kỹ thuật xử lý ngôn ngữ tự nhiên kết hợp với
    thông tin về ngôn ngữ để tạo ra các tóm tắt cuối cùng.



    Đối với tiếng Việt, do tí nh phức tạp và đặc thù riêng của nó, số lượng
    những nghiên cứu về tóm tắt văn bản tiếng Việt so với tiếng Anh vẫn còn í t.
    Phần lớn các nghiên cứu mới chỉ là các nghiên cứu ở mức đề tài tốt nghiệp đại
    học, luận văn thạc sĩ , tiến sĩ và đề tài KHCN cấp bộ [5],[9],[13],[55],[57],[76].

    Các bài báo công bố kết quả nghiên cứu về tóm tắt văn bản phần lớn dựa trên
    hướng trí ch rút cho bài toán tóm tắt đơn văn bản. Tuy nhiên vẫn có hai hướng
    là tóm tắt trí ch rút và tóm tắt theo tóm lư ợc. Mặt khác, do chưa có kho ngữ liệu
    chuẩn phục vụ cho tóm tắt văn bản tiếng Việt nên hầu hết thử nghiệm của các
    nghiên cứu đều dựa trên các kho ngữ liệu tự xây dựng. Do vậy, việc đánh giá
    hiệu quả của từng phương pháp chưa được khách quan và cần phải xem xét một
    cách kỹ lư ỡng.
    2. Tính cấp thiết
    Với sự bùng nổ thông tin lưu trữ trên các hệ thống máy tí nh và trên
    Internet, một lượng thông tin khổng lồ được lưu trữ trên đó. Để khai thác hiệu
    quả lư ợng thông tin khổng lồ này cần phải có các hệ thống xử lý ngôn ngữ tự
    nhiên đủ mạnh. Tóm tắt văn bản là một trong những bài toán quan trọng đó.
    Bài toán tóm tắt văn bản tiếng Việt đóng một vai trò quan trọng trong việc
    khai thác hiệu quả thông tin trong kho ngữ liệu văn bản tiếng Việt lớn. Nó có
    ứng dụng rất lớn trong các hệ thống như: tì m kiếm thông minh, đa ngôn ngữ,
    tổng hợp thông tin . Đối với lĩ nh vực an ninh quốc phòng, tóm tắt tin tức có
    thể giúp cho cán bộ nghiệp vụ thu thập đủ các thông tin cần thiết và kịp thời
    theo dõi, đánh giá, xử lý nguồn thông tin một cách nhanh chóng [CT1].
    Do tí nh chất quan trọng như vậy, hiện nay bài toán tóm tắt văn bản tiếng
    Việt đã được các nhà nghiên cứu xử lý ngôn ngữ trong nước quan tâm. Tuy
    nhiên, số lư ợng cũng như chất lượng các nghiên cứu còn khá khiêm tốn.
    Nguyên nhân của những vấn đề này có thể xuất phát từ những lý do sau:
     Nghiên cứu xử lý ngôn ngữ tự nhiên tiếng Việt đang tập trung vào những
    vấn đề cơ bản của tiếng Việt như:
    o Giải quyết bài toán tách từ, gán nhãn từ loại, cây cú pháp.
    o Xây dựng kho ngữ liệu: tách từ, gán nhãn từ loại.
    o Xây dựng wordnet tiếng Việt
    đây là những bước tiền xử lý cho bài toán Tóm tắt văn bản tiếng Việt.
     Chưa xác định được đầy đủ các đặc trưng quan trọng của văn bản tiếng
    Việt và xác định ảnh hưởng của từng đặc trưng trong bài toán tóm tắt văn
    bản tiếng Việt.
     Chưa xây dựng được kho ngữ liệu tiếng Việt chuẩn và lớn dùng cho huấn
    luyện và đánh giá trong bài toán tóm tắt văn bản tiếng Việt.
     Chưa có một hệ thống tóm tắt văn bản tiếng Việt hoàn chỉ nh nào được
    công bố rộng rãi cho cộng đồng sử dụng, nghiên cứu.
    Vì thế, đề tài luận án “Nghiên cứu, phát triển các kỹ thuật tự động tóm
    tắt văn bản tiếng Việt” có tí nh cấp thiết và tí nh ứng dụng thực tiễn cao, nhất
    là trong lĩ nh vực an ninh quốc phòng.
     
Đang tải...