Thạc Sĩ Xây dựng mục lục cho văn bản

Thảo luận trong 'Khoa Học Xã Hội' bắt đầu bởi Bống Hà, 1/5/13.

  1. Bống Hà

    Bống Hà New Member

    Bài viết:
    5,424
    Được thích:
    2
    Điểm thành tích:
    0
    Xu:
    0Xu

    MỞ ĐẦU

    Trong vài thập kỉ qua, lượng thông tin được số hoá ngày càng nhiều. Ban
    đầu là các thư viện với các cuốn sách được lưu trữ số hoá, tiếp đến là các nội
    dung thông tin được đưa lên Internet dưới nhiều hình thức khác nhau. Hơn thế
    nữa, với sự ra đời của World Wide Web thì thông tin đã thực sự bùng nổ, con
    người ngày càng muốn có nhiều thông tin hơn và muốn tìm cách để có thể nắm
    bắt được thông tin nhanh, chính xác và cô đọng.
    Rất nhiều bài toán trong xử lí ngôn ngữ tự nhiên đã được đặt ra và giải
    quyết nhằm giúp máy tính có thể hiểu được phần nào các văn bản số hoá rồi từ
    đó trình bày lại theo một hình thức nào đó để giúp con người tìm kiếm và thu
    thập thông tin nhanh hơn. Các bài toán có thể kể đến như: thu nhận thông tin,
    phân cụm văn bản, phân lớp văn bản, rút trích thông tin, hệ thống hỏi đáp, tóm
    tắt văn bản, Những bài toán này đã phần nào được giải quyết và đã thể hiện
    phần nào ý nghĩa đối với người sử dụng. Ví dụ như các hệ thống máy tìm kiếm
    Yahoo!, Google, đã có thể giúp người dùng thu thập thông tin theo truy vấn,
    trả lại trang thông tin và tóm tắt nội dung của trang thông tin để giúp con người
    có thể nhanh chóng tìm ra được thông tin mình cần.
    Bài toán tóm tắt văn bản ra đời với vai trò giúp người truy cập thông tin
    có thể dễ dàng nắm bắt được những nội dung chính của văn bản ở một dạng cô
    đọng hơn. Một ví dụ điển hình là tủ chứa các thẻ trình bày tóm tắt thông tin về
    cuốn sách ở các thư viện, nó giúp người đọc có thể tìm kiếm nhanh tới cuốn
    sách mình cần. Hay trong thời đại thông tin được số hoá hiện nay, ở đầu mỗi bài
    báo hay một bài trình bày hoặc một bài viết dài về một vấn đề nào đó, người ta
    thường đưa thêm vào một đoạn tóm tắt ngắn của toàn bộ nội dung. Tuy nhiên,
    không phải lúc nào thông tin tóm tắt đó cũng có sẵn, một phần vì các tóm tắt đó
    được thực hiện theo phương pháp thủ công và đôi khi không phải do chính tác
    giả viết ra. Từ đó đặt ra vấn đề là làm sao để có thể tự động hoá quá trình tóm tắt
    văn bản dựa trên nội dung sẵn có.
    Trên thế giới đã có rất nhiều công trình nghiên cứu về vấn đề này và cũng
    nghiên cứu cách thức tóm tắt theo nhiều hướng khác nhau, từ rút trích một đoạn
    văn, rút trích một vài câu quan trọng cho tới rút trích các cụm từ có ý nghĩa; rồi
    từ tóm tắt trên một văn bản tới tóm tắt trên phạm vi nhiều văn bản; Tuy nhiên
    hầu hết các phương pháp hiện tại đều áp dụng cho các văn bản tương đối ngắn
    như tin tức, bài hướng dẫn, bài trình bày, và không có tính chất định vị thông
    tin. Đối với các văn bản cỡ lớn hơn như tài liệu nghiên cứu, sách, thì có rất ít

    các công trình nghiên cứu. Trong số đó có một bài toán được quan tâm đặc biệt
    trong thời gian gần đây, đó là bài toán xây dựng mục lục cho văn bản. Cơ sở của
    bài toán này là bản thân mục lục của một tài liệu dài không những chứa một
    lượng lớn thông tin về nội dung của văn bản mà còn có khả năng định vị thông
    tin bên trong văn bản. Ngoài ra các tiêu đề nằm ở mục lục còn manh tính súc
    tích cao.
    Với thực tế như đã trình bày ở trên, luận văn tiến hành nghiên cứu và đề
    xuất phương pháp xây dựng mục lục cho văn bản thông qua đề tài “Xây dựng
    mục lục cho văn bản”. Mục tiêu của luận văn là nghiên cứu, giải quyết và đề
    xuất phương pháp giải quyết bài toán xây dựng mục lục cho văn bản cỡ trung
    bình và lớn thông qua các công trình nghiên cứu hiện tại trên thế giới. Cơ sở của
    đề tài là các kết quả nghiên cứu đã được công bố trên thế giới về bài toán phân
    đoạn văn bản và bài toán sinh tiêu đề cho văn bản. Luận văn cũng tiến hành thử
    nghiệm trên một vài văn bản với sự đánh giá của các chuyên gia là các nhà ngôn
    ngữ học để đánh giá về tính chính xác của kết quả đạt được. Các kết quả bước
    đầu đạt được cho thấy hướng nghiên cứu của luận văn là có triển vọng và có khả
    năng phát triển tiếp thành một bài toán tổng thể cỡ lớn hơn.
    Ngoài phần mở đầu và kết luận, kết cấu của luận văn bao gồm 4 chương:
    - Chương 1 “Giới thiệu bài toán” tóm tắt một số bài toán trong lĩnh vực
    tóm tắt văn bản, phát biểu bài toán xây dựng mục cho văn bản, đồng
    thời phần tích các công trình có liên quan và đưa ra phương hướng giải
    quyết.
    - Chương 2 “Các phương pháp giải quyết bài toán” trình bày các
    phương pháp dùng trong quá trình xây dựng mục lục, phân tích điểm
    mạnh và yếu của mỗi phương pháp.
    - Chương 3 “Xây dựng mục lục cho văn bản” sẽ đi sâu vào việc tích
    hợp các thuật toán để giải quyết bài toán chính của luận văn, đồng thời
    đề xuất một số hướng cải tiến và cơ sở lí luận của các cải tiến đó.
    - Chương 4 “Thử nghiệm và đánh giá” sẽ trình bày quá trình thử
    nghiệm của luận văn và các kết quả đạt được trong quá trình thử
    nghiệm. Đồng thời cũng đưa ra các phân tích và đánh giá về kết quả
    đạt được.
     

    Các file đính kèm:

Đang tải...