Đồ Án xây dựng từ điển danh từ Tiếng Việt dựa theo từ điển WordNet

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC
    LỜI CẢM ƠN . 3
    MỞ ĐẦU . . 4
    CHƯƠNG 1: GIỚI THIỆU . . 5
    1.1 Đặt vấn đề . 5
    1.1.1 Tổ chức cơ sở ngữ nghĩa từ vựng . 5
    1.1.2 Mô hình gán nhãn ngữ nghĩa . . 6
    1.2 Các hướng tiếp cận truyền thống . 6
    1.2.1 Xây dựng từ điển phân loại dựa trên từ điển MRD . . 7
    1.2.2 Sử dụng các liên kết trong các từ điển đã có . 7
    1.2.3 Sử dụng ánh xạ từ điển MRD song ngữ . . 7
    CHƯƠNG 2: CƠ SỞ LÝ THUYẾT . . 8
    2.1 Các vấn đề về Ngôn Ngữ học . . 8
    2.1.1 Từ trong Tiếng Việt . . 8
    2.1.2 Từ trong Tiếng Anh . 10
    2.1.3 Nghĩa của từ: . . 10
    2.1.4 Quan hệ đồng âm, đồng nghĩa . . 17
    2.1.5 So sánh từ tiếng Việt và từ tiếng Anh về hình thái . 19
    2.1.6 So sánh từ tiếng Việt và từ tiếng Anh về mặt ngữ pháp . . 20
    2.1.7 So sánh từ tiếng Việt và tiếng Anh về mặt nhãn ngữ nghĩa . . 23
    2.2 WordNet . 25
    2.2.1 Mô hình WordNet . 26
    2.2.2 Danh từ trong WordNet . . 33
    2.2.3 Định dạng file cơ sở dữ liệu trong WordNet . . 42
    2.2.4 Số lượng từ, synset trong WordNet . 44
    Chương 3: XÂY DỰNG MÔ HÌNH VÀ THỰC NGHIỆM . 45
    3.1 Phương pháp dịch ttự động WordNet qua tiếng Việt . 45
    3.1.1 Dịch từ WordNet . . 45
    3.1.2 Dịch từ từ điển tiếng Việt . . 48
    3.1.3 Tổ chức dữ liệu . . 52








    Đồ án tốt nghiệp - CNTT
    MỞ ĐẦU
    Trong những năm gần đây, trong lĩnh vực xử lý ngôn ngữ tự nhiên thì xử
    lý ngữ nghĩa chiếm vai trò quyết định tính chính xác của các mô hình xử lý ngôn
    ngữ tự nhiên. Để xử lý ngữ nghĩa chúng ta phải có cơ sở tri thức ngữ nghĩa từ
    vựng của ngôn ngữ cần xử lý, hiện nay tiếng Anh đã có cơ sở tri thức ngữ nghĩa
    hoàn chỉnh. Trong đó hệ thống cơ sở tri thức ngữ nghĩa từ vựng WordNet là phổ
    biến nhất hiện nay. Đây là mạng ngữ nghĩa đồ sộ hơn 110.000 synset tiếng Anh.
    Các nhà ngôn ngữ học, tâm lý học và tin học đã bỏ ra gần 20 năm để xây dựng hệ
    thống này và ngày nay chúng vẫn còn được nâng cấp về số lượng và chất lượng.
    Tuy nhiên với các ngôn ngữ khác, hệ thống như vậy vẫn chưa có nhiều. Điển
    hình là tiếng Việt, hiện nay chúng ta vẫn chưa có hệ thống cơ sở tri thức ngữ
    nghĩa từ vựng như vậy. Do đó vấn đề cấp bách hiện nay là phải xây dựng một hệ
    thống ngữ nghĩa của tiếng Việt cho máy tính nếu chúng ta muốn phát triển các
    ứng dụng về xử lý ngôn ngữ tự nhiên.
    WordNet phân biệt giữa danh từ, động từ, tính từ và trạng từ, vì họ làm
    theo quy tắc ngữ pháp khác nhau. Danh từ là một loại từ phổ biến và phổ dụng
    trong mọi ngôn ngữ. Ðến nay, đã có nhiều cách phân lớp danh từ tiếng Việt theo
    các tiêu chí khác nhau, nhưng ít nhiều các cách này đều mang tính chủ quan và
    chỉ được thực hiện trên một số ít các ví dụ cụ thể. Tuy nhiên, trong thực tế, khi
    phân giải ngữ nghĩa của một danh từ tiếng Việt trong một ngữ cảnh bất kì, chúng
    ta lại cần đến một hệ thống phân lớp hoàn chỉnh cho tất cả các danh từ tiếng Việt
    theo những ý niệm chung nhất trong tư duy của con người. Việc xây dựng một hệ
    thống phân lớp như thế đã được thực hiện thành công lần đầu tiên đối với tiếng
    Anh qua mạng WordNet, và cũng chính từ đây, các mạng tương tự cho tiếng
    Pháp, Tây Ban Nha, Ðức, Hoa, Nhật, . đã được hình thành trên cơ sở mạng này.
    Việc xây dựng một mạng từ vựng tương tự WordNet có nhiều ý nghĩa. Nó cho
    việc phát triển các ứng dụng xử lý ngôn ngữ tiếng Việt, cho các nghiên cứu về
    ngôn ngữ học tiếng Việt. Do vậy, trong bài báo cáo này, em trình bày về phương
    pháp xây dựng từ điển danh từ Tiếng Việt dựa theo từ điển WordNet.
    Đồ án được chia thành các phần như sau:
    Chương 1: Tìm hiểu đề tài và phương pháp tiếp cận.
    Chương 2: Tìm hiểu về tiếng Việt và WordNet áp dụng trong việc xây
    dựng từ điển danh từ tiếng Việt
    Chương 3: Xây dựng mô hình tổ chức dữ liệu cho WordNet tiếng Việt và
    thực nghiệm.
     

    Các file đính kèm:

Đang tải...