Luận Văn Tóm tắt văn bản tiếng Việt dựa phương pháp không giám sát

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Mở đầu
    Sự phát triển nhanh chóng của mạng Internet cùng với những bước tiến mạnh mẽ của công nghệ lưu trữ, lượng thông tin lưu trữ hiện nay đang trở nên vô cùng lớn. Thông tin được sinh ra liên tục mỗi ngày trên mạng Internet, lượng thông tin văn bản khổng lồ trong đó đó đã và đang mang lại lợi ích không nhỏ cho con người, tuy nhiên, nó cũng khiến chúng ta khó khăn trong việc tìm kiếm và tổng hợp thông tin. Giải pháp cho vấn đề này là tóm tắt văn bản tự động. Tóm tắt văn bản tự động được xác định là một bài toán thuộc lĩnh vực khái phá dữ liệu văn bản; việc áp dụng tóm tắt văn bản sẽ giúp người dùng tiết kiệm thời gian đọc, cải thiện tìm kiếm cũng như tăng hiệu quả đánh chỉ mục cho máy tìm kiếm.
    Từ nhu cầu thực tế như thế, bài toán tóm tắt văn bản tự động nhận được sự quan tâm nghiên cứu của nhiều nhà khoa học, nhóm nghiên cứu cũng như các công ty lớn trên thế giới. Các bài báo liên quan đến tóm tắt văn bản xuất hiện nhiều trong các hội nghị nổi tiếng như : DUC1 2001-2007, TAC2 2008, ACL3 2001-2007 bên cạnh đó cũng là sự phát triển của các hệ thống tóm tắt văn bản như : MEAD, LexRank, Microsoft Word (Chức năng AutoSummarize)
    Một trong những vấn đề thách thức và được sự quan tâm trong những năm gần đây đối với bài toán tóm tắt văn bản tự động đó là đưa ra kết quả tóm tắt cho một tập văn bản liên quan với nhau về mặt nội dung hay còn gọi là tóm tắt văn bản tiếng Việt.
    Bài toán tóm tắt văn bản tiếng Việt được xác định là một bài toán có độ phức tạp cao. Đa số mọi người nghĩ rằng, tóm tắt văn bản chỉ là việc áp dụng tóm tắt đơn văn bản cho một văn bản được ghép từ các văn bản trong một tập văn bản cho trước. Tuy nhiên điều đó là hoàn toàn không chính xác, thách thức lớn nhất của vấn đề tóm tắt văn là do dữ liệu đầu vào có thể có sự nhập nhằng ngữ nghĩa giữa nội dung của văn bản này với văn bản khác trong cùng tập văn bản hay trình tự thời gian được trình bày trong mỗi một văn bản là khác nhau, vì vậy để đưa ra một kết quả tóm tắt tốt sẽ vô cùng khó khăn [EWK].
    Rất nhiều ứng dụng cần đến quá trình tóm tắt văn bản như: hệ thống hỏi đáp tự động (Q&A System), tóm tắt các báo cáo liên quan đến một sự kiện, tóm tắt các cụm dữ liệu được trả về từ quá trình phân cụm trên máy tìm kiếm Hướng nghiên cứu ứng dụng bài toán tóm tắt văn bản vào việc xây dựng hệ thống hỏi đáp tự động đang là hướng nghiên cứu chính của cộng đồng nghiên cứu tóm tắt văn bản nhưng năm gần đây. Rất nhiều nghiên cứu cho thấy rằng, việc sử dụng phương pháp tóm tắt văn bản dựa vào câu truy vấn (Query-based multi-document summarization) đối với kho dữ liệu tri thức để đưa ra một văn bản tóm tắt trả lời cho câu hỏi của người sử dụng đạt được nhiều kết quả khả quan cũng như thể hiện đây là một hướng tiếp cận đúng đắn trong việc xây dựng các mô hình hỏi đáp tự động [Ba07,YYL07].
    Với việc lựa chọn đề tài “Tóm tắt văn bản tiếng Việt dựa phương pháp không giám sát”, chúng tôi tập trung vào việc nghiên cứu, khảo sát, đánh giá và đề xuất ra một phương pháp tóm tắt văn bản phù hợp với ngôn ngữ tiếng Việt, bên cạnh đó áp dụng phương pháp này vào việc xây dựng một mô hình hệ thống hỏi đáp tiếng Việt.
    Ngoài phần mở đầu và kết luận, báo cáo được tổ chức thành 5 chương như sau:
    ã Chương 1: Khái quát bài toán tóm tắt giới thiệu khái quát bài toán tóm tắt văn bản tự động nói chung và bài toán tóm tắt đa văn bản nói riêng, trình bày một số khái niệm và cách phân loại đối với bài toán tóm tắt.
    ã Chương 2: Tóm tắt đa văn bản dựa vào trích xuất câu giới thiệu chi tiết về hướng tiếp cận, thách thức và các vấn đề trong giải quyết bài toán tóm tắt đa văn bản dựa vào trích xuất câu.
    ã Chương 3: Độ tương đồng câu và các phương pháp tăng cường tính ngữ nghĩa cho độ tương đồng câu trình bày các nghiên cứu về các phương pháp tính độ tương đồng ngữ nghĩa câu tiêu biểu áp dụng vào quá trình trích xuất câu quan trọng của văn bản.
    ã Chương 4: Một số đề xuất tăng cường tính ngữ nghĩa cho độ tương đồng câu và áp dụng vào mô hình tóm tắt đa văn tiếng Việt phân tích, đề xuất một phương pháp tích hợp các thuật toán để giải quyết bài toán tóm tắt đa văn bản tiếng Việt và trình bày việc áp dụng phương pháp được đề xuất để xây dựng mô hình hệ thống hỏi đáp tiếng Việt đơn giản.
    ã Chương 5: Thực nghiệm và đánh giá trình bày quá trình thử nghiệm của luận văn và đưa ra một số đánh giá, nhận xét các kết quả đạt được.
     

    Các file đính kèm:

Đang tải...