Báo Cáo Tóm tắt trích xuất đơn văn bản theo phương pháp đồ thị

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Mai Kul, 15/12/13.

  1. Mai Kul

    Mai Kul New Member

    Bài viết:
    1,299
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    Mục lục
    I. Giới thiệu bài toán. 3
    II. Đối tượng ứng dụng. 3
    III. Nguồn dữ liệu khai thác. 3
    IV. Tổng kết các hướng nghiên cứu. 3
    1. Phương pháp thống kê. 4
    2. Phương pháp thống kê trên TF.IDF. 5
    3. Phương pháp học máy. 5
    3.1. Phương pháp Navie-Bayes. 6
    3.2. Phương pháp Decision Tree. 7
    3.3. Phương pháp Hidden Makov Model 7
    3.4. Phương pháp Log – Linear 8
    3.5. Phương pháp mạng Neural và đặc trưng của hãng thứ ba. 8
    4. Phương pháp phân tích ngôn ngữ tự nhiên. 9
    V. Đề xuất hướng tiếp cận. 10



    I. Giới thiệu bài toánHiện nay, cùng với sự phát triển mạnh mẽ của công nghệ thông tin và truyền thông và đặc biệt là internet- Mạng thông tin toàn cầu thì một lượng thông tin khổng lồ đang bùng nổ trên toàn thế giới. Thông qua mạng thông tin này những thông tin quý giá đang đợi chúng ta khám phá. Nhưng vấn đề được đặt ra là trong kho thông tin khổng lồ đó chúng ta tìm kiếm như thế nào để có được những thông tin cần thiết một cách nhanh chóng và dễ dàng. Chính bởi vậy lĩnh vực khai phá dữ liệu đã ra đời nhắm đáp ứng nhu cầu đó của con người.
    Trong khai phá dữ liệu thì lĩnh vực khai phá văn bản được quan tâm hơn cả bởi hầu hết dữ liệu đều tồn tại ở dạng văn bản.Trong khai phá văn bản thì còn có một lĩnh vự nhỏ hơn cũng đang được quan tâm trong thời gian gần đây đó là tóm tắt văn bản.
    Chính bởi lý do trên mà em quyết định chọn đề tài tìm hiểu về lĩnh vực tóm tắt văn bản cụ thể là tóm tắt đơn văn bản trong đợt thực tập tốt nghiệp này.
    Tóm tắt đơn văn bản là một quá trình tóm tắt với đầu vào là một văn bản đơn, đầu ra là một đoạn tóm tắt ngắn gòn nội dung chính của văn bản đầu vào đó. Tóm tắt văn bản đơn là bước đệm cho việc xử lý tóm tắt đa văn bản và các bài toán phức tạp hơn.
    II. Đối tượng ứng dụngBài toán ứng dụng cho đối tượng đơn văn bản. Văn bản đơn ở đây có thể là một trang Web, một bài báo hoặc một tài liệu với định dạng xác định ví dụ: .doc, .txt
    III. Nguồn dữ liệu khai thácIV. Tổng kết các hướng nghiên cứu
    Mặc dù có 2 loại tóm tắt là tóm tắt trích xuất và tóm tắt tóm lược, tuy nhiên để thực hiện tóm tắt tóm lược cần có một lượng tri thức đầy đủ về lĩnh vực cần tóm tắt.ĐIều này hiện nay còn hạn chế nhiều, do đó các hướng tiếp cận đa số tập trung vào dạng tóm tứt trích rút câu.
    Sau đây là một số hướng tiếp cận cho bài toán tóm tắt đơn văn bản:
    1. Phương pháp thống kêHầu hết các nghiên cứu đầu tiên cho tóm tắt đơn văn bản đều tập trung trên những văn bản kỹ thuật ( các bài báo khoa học). Các phương pháp cổ điển thường tập trung vào các đặc trưng hình thái để tính điểm cho các câu và trích xuất các câu quan trọng để đưa vào tóm tắt.
    Ý tưởng của hướng tiếp cận này:
    Ø Thu thập dữ liệu
    Ø Tạo các bản tóm tắt thủ công
    Ø Thiết kế các công thức toán hay logic để tính điểm cho các câu.
    Ø Lặp cho đến khi tóm tắt tự động đạt được tính tương đương với tóm tắt thủ công:
    o Tính điểm cho từng câu để tạo ra bản tóm tắt cho từng văn bản trong ngữ liệu dựa vào các đặc trưng về hình thái.
    o So sánh tóm tắt được tạo tự động với tóm tắt được tạo thủ công.
    o Cải thiện lại phương thức tính điểm cho câu.
    Các nghiên cứu đại diện cho phương pháp này:
    Ø Luhn(1958)
    o Sử dụng các đặc trưng như: word frequency, stop words, word distance.
    o Dùng phương pháp so khớp từng kí tự để giải quyết stemming.
    Ø Baxendale(1958)
    o Sử dụng các đặc trưng như: sentence position.
    o Thử nghiệm 200 đoạn câu, 85% các câu đầu là câu chính và 7% các câu cuối và câu chính.
    o Phương pháp khá chính xác nhưng quá chủ quan và ngay ngô. Phương pháp này được sử dụng khá nhiều vào các hệ thống học máy sau này.
    Ø Edmundson(2969)
    o Điển hình nhất trong phương pháp cổ điển.
    o Sử dụng các đặc trưng như: word frequency, stop words, position, cue words, title.
    o Sử dụng phương pháp kết nối tuyến tính để kết hợp các điểm đặc trưng lại với nhau: Si = w1*Ci + w2*Ki + w3*Ti + w4*Li
    o Thử nghiệm với 400 văn bản kỹ thuật và kết quả đạt 44%.
    2. Phương pháp thống kê trên TF.IDFPhương pháp này còn gọi là m
     

    Các file đính kèm:

Đang tải...