Đồ Án Các kỹ thuật xác định Collocation và ứng dụng cho Tiếng Việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    GIỚI THIỆU


    Trong tiếng Anh, người ta chỉ dùng “strong tea”, chứ không dùng “powerful tea”, mặc dù “strong” và “powerful” tương đương với nhau về nghĩa, và “powerful tea” không sai cả về cấu trúc ngữ pháp và về nghĩa. Nhưng nó không được dùng đơn giản chỉ là bởi vì người bản xứ không quen dùng như vậy. Những sự kết hợp từ không tuân theo một quy tắc ngữ pháp hay ngữ nghĩa nào như vậy được giới hạn trong một định nghĩa collocations. Như vậy, một collocation có thể được hiểu là một sự kết hợp các từ không tuân theo một quy tắc ngữ pháp hay ngữ nghĩa nào cả. Xét về một số khía cạnh nào đó, collocations mang tính thành ngữ, cứng nhắc. Nghĩa của một collocation thường không được suy ra từ nghĩa của các từ thành phần, và sự thay thế một từ thành phần bằng một từ đồng nghĩa có thể làm thay đổi hoàn toàn nghĩa của collocation đó.
    Có rất nhiều định nghĩa về collocation đã được đưa ra, tuy nhiên, không một định nghĩa nào được coi là chính thống, hay chuẩn. Định nghĩa và phương pháp trích chọn collocation phụ thuộc vào mục đích sử dụng của người làm nghiên cứu. Trong luận văn này, chúng tôi chấp nhận định nghĩa collocation là một sự kết hợp các từ thường xuất hiện cùng nhau trên mức bình thường trong văn bản, với vị trí và quan hệ ngữ pháp tương đối cố định.
    Collocations có ứng dụng rộng rãi trong các lĩnh vực ngôn ngữ học [2, 21, 23], biên soạn từ điển[1] cũng như các bài toán xử lý ngôn ngữ tự nhiên[4, 14, 16, 18, 25, 27, 29]. Chính vì vậy, việc trích chọn các collocations trong mỗi ngôn ngữ là thực sự cần thiết, nhằm nâng cao độ chính xác và tính tự nhiên của các ứng dụng xử lý ngôn ngữ tự nhiên, cũng như giúp việc học một ngôn ngữ mới dễ dàng hơn.
    Có khá nhiều nghiên cứu về việc trích chọn collocations cho tiếng Anh đã được tiến hành, tuy nhiên, nghiên cứu về collocations cho tiếng Việt vẫn còn là một lĩnh vực khá mới mẻ. Chưa có nhiều nghiên cứu được tiến hành và kết quả thu được vẫn còn ở mức độ rất hạn chế. Luận văn này tập trung vào việc áp dụng một số phương pháp thống kê vào trích chọn collocation trong tiếng Việt, nghiên cứu tác động của việc tiền xử lý văn bản lên quá trình trích chọn, so sánh độ chính xác các mô hình thử nghiệm; từ đó, đề xuất một số phương pháp kết hợp nhằm cải thiện độ chính xác của chương trình.



    Mục tiêu của luận văn:


    ã Khái quát về collocations trong tiếng Việt: trình bày chi tiết về định nghĩa, đặc trưng, phân loại, và một số ứng dụng của collocations trong dịch máy và các bài toán xử lý ngôn ngữ tự nhiên.
    ã Trình bày một số phương pháp trích chọn collocation dựa trên thống kê. Cụ thể hơn, trong giới hạn luận văn này, chúng tôi sẽ đi sâu vào bốn phương pháp: phương pháp dựa trên tần số, hai phương pháp kiểm định giả thuyết và phương pháp dựa trên thông tin tương hỗ. Với mỗi phương pháp, từ việc trình bày cơ sở lý thuyết liên quan, chúng tôi đi đến cách áp dụng chúng vào bài toán trích chọn collocations trong tiếng Việt, một số mô hình thực nghiệm, kết quả và đánh giá về việc áp dụng bốn phương pháp đó vào trích chọn collocations trong tiếng Việt.
    ã Đề xuất một số phương pháp thống kê là kết hợp của ba hoặc bốn phương pháp đã được trình bày ở trên, xây dựng mô hình thực nghiệm, đánh giá kết quả và độ chính xác của chương trình.
    ã Đề xuất một phương pháp kết hợp thống kê và thông tin cú pháp áp dụng cho trích chọn collocation có dạng cụm danh từ. Từ việc trình bày cơ sở lý thuyết, chúng tôi xây dựng mô hình thực nghiệm, đánh giá kết quả thu được và độ chính xác của chương trình dựa trên phương pháp này.



    MỤC LỤC GIỚI THIỆU
    Chương 1. KHÁI QUÁT VỀ COLLOCATIONS TRONG TIẾNG
    VIỆT 1
    1.1. ĐỊNH NGHĨA 1
    1.2. ĐẶC TRƯNG . 1
    1.2.1. Được sử dụng lặp đi lặp lại trong văn bản . 1
    1.2.2. Có tính cứng nhắc: 2
    1.2.3. Phụ thuộc vào lĩnh vực của văn bản 2
    1.2.4. Có liên kết kết chặt chẽ về mặt từ vựng: . 3
    1.3. PHÂN LOẠI . 3
    1.4. ỨNG DỤNG . 5
    Chương 2. MỘT SỐ PHƯƠNG PHÁP CỔ ĐIỂN DỰA TRÊN THỐNG KÊ 7
    2.1. PHƯƠNG PHÁP DỰA TRÊN TẦN SỐ . 8
    2.2. PHƯƠNG PHÁP KIỂM ĐỊNH GIẢ THUYẾT 9
    2.2.1. Phương pháp kiểm tra t . 9
    2.2.2. Phương pháp kiểm tra Pearson Chi bình phương. . 12
    2.3. PHƯƠNG PHÁP SỬ DỤNG THÔNG TIN TƯƠNG HỖ (POINTWISE MUTUAL INFORMATION (PMI)) 13
    2.4. KẾT QUẢ THỰC NGHIỆM 15
    2.4.1. Khái quát về dữ liệu sử dụng 15
    2.4.2. Trích chọn bigrams . 16
    2.4.3. Các mô hình thử nghiệm . 18
    2.4.4. Kết quả thực nghiệm . 19
    Chương 3. MỘT PHƯƠNG PHÁP KẾT HỢP ÁP DỤNG CHO TRÍCH CHỌN COLLOCATIONS CÓ DẠNG CỤM DANH TỪ 25
    3.1. GIAI ĐOẠN 1: TRÍCH CHỌN CÁC COLLCOATIONS CÓ DẠNG BIGRAM. . 26
    3.1.1. Bước 1: Trích chọn bigram . 26
    3.1.2. Bước 2: Lọc các bigram không hợp lệ 27
    3.2. GIAI ĐOẠN 2: TRÍCH CHỌN CÁC COLLOCATIONS LÀ CỤM DANH TỪ CÓ DẠNG N-GRAM. 28
    3.2.1. Bước 1: . 29
    3.2.2. Bước 2: . 29



    3.2.3. Bước 3: . 29
    3.3. KẾT QUẢ THỰC NGHIỆM 30
    Chương 4. KẾT LUẬN . 33
    TÀI LIỆU THAM KHẢO PHỤ LỤC A
    PHỤ LỤC B
     

    Các file đính kèm:

Đang tải...