Đồ Án Xây dựng hệ thống Tóm tắt văn bản tiếng Việt sử dụng các kỹ thuật lượng giá, thống kê

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    Tên đề tài:
    Xây dựng hệ thống Tóm tắt văn bản tiếng Việt sử dụng các kỹ thuật lượng giá, thống kê
    LỜI CẢM ƠN


    Đầu tiên, em xin chân thành cảm ơn thầy giáo ThS. Lương Mạnh Bá - Bộ môn CNPM, Khoa CNTT - đã gợi ý hướng dẫn và tận tình giúp đỡ em hoàn thành đồ án này.


    Em xin chân thành cảm ơn các thầy cô giáo trong khoa Công nghệ thông tin cũng như các thầy cô giảng dạy tại trường Đại học Bách khoa Hà Nội đã truyền đạt cho em những kiến thức bổ ích trong suốt thời gian em học tập và nghiên cứu tại trường.


    Cuối cùng, em xin nói lời cảm ơn đến gia đình và bạn bè, những ngường đã giúp đỡ, động viên em rất nhiều trong suốt quá trình học tập và làm đồ án tốt nghiệp.


    Trong quá trình thực hiện đồ án, do thời gian và kiến thức có hạn nên em không thể tránh khỏi những thiếu sót nhất định. Vì vậy em mong nhận được sự giúp đỡ và góp ý kiến từ phía thầy cô giáo và các bạn.
    Một lần nữa em xin chân thành cảm ơn !
    Hà nội ngày 15 tháng 05 năm 2005


    MỤC LỤC 2


    DANH MỤC CÁC HÌNH VẼ 6
    DANH MỤC CÁC BẢNG 8
    DANH MỤC CÁC TỪ VIẾT TẮT 9
    CHƯƠNG I - MỞ ĐẦU 10
    1.1 Khai thác văn bản. 11
    1.1.1 Khai thác văn bản là gì? 11
    1.1.2 Một số bài toán tiêu biểu trong Khai thác văn bản 11
    1.2 Bài toán TTVB - Automatic Text Summarization (ATS) 13
    1.2.1 Tóm tắt văn bản (TTVB) 13
    1.2.2 Ứng dụng của TTVB 13
    1.2.3 Giải quyết bài toán TTVB 14
    1.3 Mục đích lựa chọn đề tài 15
    1.4 Các mục tiêu cụ thể trong đồ án 15


    CHƯƠNG II - CÁC PHƯƠNG ÁN GIẢI QUYẾT BÀI TOÁN TÓM TẮT VĂN BẢN 16
    2.1 Một số khái niệm cơ bản về TTVB 17
    2.1.1 Mô hình một hệ thống TTVB. 17
    2.1.1.1 Các loại TTVB 17
    2.1.1.2 Các tiêu chí khi thực hiện tóm tắt 18
    2.1.1.3 Mô hình bên ngoài của một hệ thống Tóm tắt 18
    2.1.2 Qui trình thực hiện TTVB 19
    2.1.2.1 Quá trình tiền xử lý 20
    2.1.2.2 Quá trình xử lý 21
    2.1.2.3 Quá trình sinh kết quả 21
    2.2 Các giải thuật TTVB. 23
    2.2.1 Giải thuật dựa trên giá trị trọng số của thuật ngữ (Determining Term Weights) . 23
    2.2.1.1 Một số định nghĩa. 23
    2.2.1.2 Giải thuật lựa chọn câu có trị trung bình tần số cao nhất 24
    2.2.2 Giải thuật dựa trên phân nhóm các đoạn văn trong văn bản (Paragraphs Clustering for Summarization) 25
    2.2.2.1 Định nghĩa phân nhóm. 25
    2.2.2.2 Giải thuật cho bài toán phân nhóm 26
    2.2.2.3 Áp dụng phân nhóm văn bản cho bài toán TTVB 27
    2.2.2.4 Đánh giá 27
    2.2.3 Giải thuật sử dụng các đặc trưng tóm tắt kết hợp thuật toán học máy (Summarization using Machine Learning Algorithm) 28
    2.2.3.1 Các đặc trưng của tóm tắt (Summaried Features) 28
    2.2.3.2 Kết hợp các đặc trưng (Features Combination) để tạo tóm tắt 29
    2.2.3.3 Áp dụng giải thuật học máy (Machine Learning Algorithm) 30
    2.2.3.4 Đánh giá 31
    2.2.4 Giải thuật áp dụng các đặc trưng liên kết ngữ nghĩa trong văn bản (Summarization using Cohesion Features) 32
    2.2.4.1 Các định nghĩa cơ bản 32
    2.2.4.2 Liên kết ngữ nghĩa ứng dụng trong TTVB 33
    2.4.2.3 Giải thuật áp dụng chuỗi từ vựng để TTVB (Summarization using Lexical Chains) 34
    2.4.2.3 Đánh giá 35
    2.2.5 Giải thuật áp dụng các đặc trưng liên kết cấu trúc trong văn bản (Summarization using Coherence Features) 35
    2.2.5.1 Khái niệm về liên kết cấu trúc (Coherence). 35
    2.2.5.2 Áp dụng liên kết cấu trúc cho TTVB. 35
    2.2.6 Kết luận 36


    CHƯƠNG III - TIỀN XỬ LÝ VĂN BẢN TIẾNG VIỆT 37
    3.1 Phương pháp tách thuật ngữ tiếng Việt 38
    3.2 Xây dựng từ điển 41
    3.2.1 Tổ chức cấu trúc bản ghi trong từ điển 41
    3.2.2 Tổ chức kết cấu 45
    3.2.2.1 Lưu trữ theo danh sách sắp xếp 45
    3.2.2.2 Lưu trữ sử dụng bảng băm 46
    3.3 Loại bỏ từ dừng (stop world) 48
    3.4 Biểu diễn văn bản theo mô hình không gian véc tơ 49
    3.1.1 Mô hình Boolean 49
    3.1.2 Mô hình tần suất TF 49
    3.1.3 Mô hình nghịch đảo tần số văn bản – IDF 49
    3.1.4 Mô hình kết hợp TF-IDF 50
    3.1.5 Mô hình véc tơ thưa 50
    3.1.6 Các công thức tính toán trên mô hình không gian véc tơ 50


    CHƯƠNG IV - THIẾT KẾ VÀ XÂY DỰNG HỆ THỐNG 52
    4.1 Mô hình hệ thống 53
    4.2 Module xử lý văn bản 55
    4.2.1 Nhiệm vụ 55
    4.2.2 Mô hình chức năng 55
    4.3.2 Thực hiện 55
    4.3.2.1 Chuẩn hoá văn bản 55
    4.3.2.2 Tách thuật ngữ 56
    4.3.2.3 Loại bỏ từ dừng 59
    4.3.2.4 Thống kê từ khoá, tạo kết quả 59
    4.3 Module thực hiện giải thuật 1 61
    4.3.1 Một số nhận định quan trọng. 61
    4.3.2 Mô hình chức năng 62
    4.3.3 Thực hiện 62
    4.3.3.1 Hệ số ghi điểm 62
    4.3.3.2 Tính trọng số các câu 63
    4.3.3.3 Sắp xếp, tính ngưỡng và đưa ra kết quả 63
    4.4 Module thực hiện giải thuật 2 65
    4.4.1 Mô hình của giải thuật 65
    4.4.2 Tách thuật ngữ đại diện 65
    4.4.3 Véc tơ hoá đoạn văn. 66
    4.4.4 Phân nhóm đoạn văn 67
    4.4.5 Trích rút Tóm tắt. 67
    4.5 Module thực hiện giải thuật 3 71
    4.5.1 Mô hình giải thuật. 72
    4.5.2 Trích rút theo đặc trưng 72
    4.5.3 Giải thuật học máy 76
    4.5.4 Áp dụng kết hợp 77
    4.6 Module tạo kết quả. 78
    4.7 Cài đặt hệ thống. 79
    4.7.1 Môi trường và công cụ cài đặt. 79
    4.7.2 Mô tả chương trình. 79
    4.7.2.1 Các lớp chính được thiết cho chương trình: 79
    4.7.2.2 Giao diện chính chương trình 80
    4.7.2.3 Giao diện giải thuật 1 81
    4.7.2.4 Giao diện giải thuật 2 82
    4.7.2.5 Giao diện giải thuật 3 83
    4.8 Minh hoạ một số thực nghiệm và đánh giá 84
    4.8.1 Đại lượng đánh giá độ chính xác. 84
    4.8.2 Cơ sở dữ liệu thực nghiệm 85
    4.8.3 Thực nghiệm trên modul Tiền xử lý văn bản. 87
    4.8.4 Thực nghiệm trên các module Tóm tắt. 87
    TỔNG KẾT 89


    TÀI LIỆU THAM KHẢO 90
     

    Các file đính kèm:

Đang tải...