Luận Văn Mô hình biểu diễn văn bản thành đồ thị

Thảo luận trong 'Chưa Phân Loại' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÓM TẮT: Biểu diễn văn bản là một bước tiền xử lý rất quan trọng trong nhiều lĩnh
    vực như khai thác dữ liệu văn bản, truy vấn thông tin, xử lý ngôn ngữ tự nhiên. Bài báo này
    trình bày tổng quan mô hình biểu diễn văn bản thành đồ thị. Mô hình đồ thị có thể giữ lại các
    thông tin cấu trúc như vị trí, thứ tự xuất hiện và sự gần nhau của từ, trong khi chúng bị loại bỏ
    trong mô hình không gian vectơ truyền thống. Chúng tôi xây dựng thử nghiệm hệ thống phân
    lớp văn bản tiếng Việt dựa trên mô hình biểu diễn văn bản thành đồ thị.
    Từ khoá: Mô hình đồ thị, biễu diễn văn bản, phân lớp văn bản.
    1. GIỚI THIỆU
    Hiện nay, chúng ta dùng các mô hình biểu diễn để giải quyết hầu hết những vấn đề liên
    quan đến văn bản. Chúng đóng vai trò trung gian giữa ngôn ngữ tự nhiên dạng văn bản và
    chương trình xử lý trong các lĩnh vực khai thác dữ liệu văn bản, truy vấn thông tin, xử lý ngôn
    ngữ tự nhiên. Sau khi được tái thể hiện, văn bản trở thành những cấu trúc dữ liệu trực quan,
    đơn giản và có thể xử lý được. Vì vậy, các mô hình biểu diễn không ngừng phát triển, hàm
    chứa được nhiều hơn những suy nghĩ mà con người muốn diễn đạt, đồng thời nâng cao hiệu
    quả sử dụng. Mô hình biểu diễn văn bản truyền thống như: mô hình túi từ và không gian vectơ
    là các mô hình đựơc sử dụng phổ biến nhất. Mô hình không gian vectơ [7] biểu diễn văn bản
    như một vectơ đặc trưng của các thuật ngữ (từ) xuất hiện trong toàn bộ tập văn bản. Trọng số
    các đặc trưng thường được tính qua độ đo TF*IDF. Tuy nhiên, mô hình này không nắm bắt
    được các thông tin cấu trúc quan trọng như trật tự xuất hiện của các từ, vùng lân cận của từ, vị
    trí xuất hiện của từ trong văn bản. Để giải quyết các hạn chế trên, mô hình đồ thị được đề xuất
    và được đánh giá có nhiều tiềm năng vì tận dụng được các thông tin quan trọng về cấu trúc mà
    mô hình túi từ và không gian vectơ đã bỏ qua.
    Mô hình đồ thị biểu diễn văn bản, cụ thể là mô hình đồ thị khái niệm (Conceptual Graphs_
    CGs), được John F. Sowa trình bày lần đầu tiên vào năm 1976 [9]. Hiện nay, mô hình đồ thị
    không ngừng phát triển dựa trên ý tưởng của mô hình CGs, được ứng dụng vào dãy rộng các
    bài toán liên quan đến xử lý văn bản và trở nên khá phong phú. Khi ứng dụng vào từng loại bài
    toán khác nhau, các thành phần thích hợp nhất trong văn bản trở thành đỉnh của đồ thị và mối
    quan hệ hiệu quả nhất giữa các đỉnh được chọn để xây dựng cạnh của đồ thị. Đỉnh của đồ thị
    có thể biểu diễn câu, từ, hay câu kết hợp từ. Cạnh có thể dùng để thể hiện những mối quan hệ
    khác nhau giữa các đỉnh như: trật tự xuất hiện, tần số đồng hiện, vị trí xuất hiện, độ tương
    đồng.
    Mục đích của bài báo này là nghiên cứu, hệ thống các biến thể của mô hình biểu diễn văn
    bản bằng đồ thị nhằm cung cấp cho người đọc cái nhìn tổng quan về mô hình này. Bên cạnh
    đó, chúng tôi cũng áp dụng thử nghiệm mô hình biểu diễn văn bản bằng đồ thị vào bài toán
    phân lớp văn bản tiếng Việt .
    Các phần tiếp theo của bài báo được tổ chức như sau. Phần 2 giới thiệu tổng quan mô hình
    biểu diễn văn bản bằng đồ thị. Phần 3 giới thiệu hệ thống phân lớp văn bản sử dụng mô hình
    đồ thị kết hợp thuật toán khai thác đồ thị con phổ biến. Phần 4 trình bày kết quả thực nghiệm
    của hệ thống và cuối cùng là phần kết luận.
     

    Các file đính kèm:

Đang tải...