Luận Văn Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Mai Kul, 25/11/13.

  1. Mai Kul

    Mai Kul New Member

    Bài viết:
    1,299
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    LUẬN ÁN TIẾN SĨ
    NĂM 2013


    MỤC LỤC
    MỤC LỤC iii
    DANH MỤC HÌNH VẼ .vi
    DANH MỤC BẢNG .vii
    DANH MỤC CỤM TỪ VIẾT TẮT .viii
    MỞ ĐẦU . x
    Đặt vấn đề x
    Mục tiêu và phạm vi nghiên cứu của luận án .xiii
    Kết quả đạt được .xiv
    Bố cục của luận án .xv
    CHƯƠNG 1. TỔNG QUAN VỀ KHO NGỮ LIỆU. 1
    1.1 Kho ngữ liệu văn bản .1
    1.2 Xây dựng, chuẩn hóa và khai thác kho ngữ liệu 5
    1.2.1 Thu thập kho ngữ liệu văn bản 5
    1.2.2 Chú giải ngôn ngữ và vấn đề chuẩn hóa 7
    1.2.3 Khai thác kho ngữ liệu .9
    1.3 Kho ngữ liệu tiếng Việt .13
    1.3.1 Hiện trạng 13
    1.3.2 Các vấn đề được nghiên cứu trong luận án 13
    1.4 Kết chương .17


    CHƯƠNG 2. XÂY DỰNG KHO NGỮ LIỆU THÔ TỪ INTERNET .18
    2.1 Giới thiệu .18
    2.2 Xây dựng kho ngữ liệu thô tiếng Việt .18
    2.2.1 Lựa chọn danh sách từ hạt giống .19
    2.2.2 Thu thập địa chỉ URL 21
    2.2.3 Lọc nội dung chính của các trang web (URLs) .23
    2.2.4 Phát hiện sự trùng lặp gần nhau .28
    2.2.5 Xây dựng công cụ và kết quả thu thập kho ngữ liệu .32
    2.3 Kết chương .32


    CHƯƠNG 3. CHUẨN HÓA MÔ HÌNH CHÚ GIẢI TIẾNG VIỆT 34
    3.1 Giới thiệu .34
    3.2 Mô hình MAF của ISO/TC 37/SC 4 34
    3.3 Mô hình SynAF của ISO/TC 37/SC 4 .36
    3.4 Chuẩn hóa theo mô hình MAF cho tiếng Việt .38
    3.4.1 Xác định đơn vị cơ sở (segment) .41
    3.4.2 Hình thái từ (Wordform) 41
    3.4.3 Nội dung hình thái cú pháp 42
    3.5 Chuẩn hóa theo mô hình SynAF cho tiếng Việt 42
    3.6 Kết chương .50
    CHƯƠNG 4. KHAI THÁC KHO NGỮ LIỆU THÔ CHO NGHIÊN CỨU TỪ
    VỰNG TIẾNG VIỆT 51
    4.1 Giới thiệu .51
    4.1.1 Nghiên cứu từ vựng .51
    4.1.2 Sketch Engine 52
    4.1.3 Ngữ liệu trong Sketch Engine 53
    4.2 Xây dựng ngữ liệu tiếng Việt cho Sketch Engine 56
    4.2.1 Tách từ và gán nhãn từ loại 56
    4.2.2 Xây dựng bộ quan hệ ngữ pháp tiếng Việt 57
    4.2.3 Triển khai hệ thống Sketch Engine cho tiếng Việt 64
    4.2.4 Đánh giá bộ quan hệ ngữ pháp tiếng Việt .67
    4.3 Kết chương .67


    CHƯƠNG 5. KHAI THÁC KHO NGỮ LIỆU CÓ CHÚ GIẢI CHO PHÂN
    TÍCH CÚ PHÁP TIẾNG VIỆT 69
    5.1 Giới thiệu .69
    5.2 Văn phạm hình thức .70
    5.2.1 Khái niệm chung về văn phạm 70
    5.2.2 Văn phạm phi ngữ cảnh (Context Free Grammar - CFG) .72
    5.2.3 Văn phạm kết nối cây (Tree Adjoining Grammar – TAG) 74
    5.3 Trích rút tự động văn phạm CFG cho tiếng Việt .77
    5.3.1 Thuật toán trích rút từ VietTreebank .77
    5.3.2 Phân tích cú pháp tiếng Việt với văn phạm PCFG 86
    5.3.3 Thử nghiệm và đánh giá 89
    5.3.4 Nhược điểm của văn phạm PCFG trong phân tích ngữ pháp 90
    5.4 Trích rút tự động văn phạm LTAG cho tiếng Việt 90
    5.4.1 Thuật toán trích rút từ VietTreebank .90
    5.4.2 Xây dựng thuật toán trích rút từ từ điển tiếng Việt 100
    5.4.3 So sánh, đánh giá tập cây khởi tạo trích rút từ VietTreebank và từ điển .105
    5.5 Kết chương .107
    KẾT LUẬN .109
    DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH LIÊN
    QUAN ĐẾN LUẬN ÁN 112
    TÀI LIỆU THAM KHẢO .113
    PHỤ LỤC 125

    MỞ ĐẦU
    Đặt vấn đề
    Những năm gần đây, xử lý ngôn ngữ tự nhiên (XLNNTN) đã trở thành một
    lĩnh vực khoa học công nghệ được coi là mũi nhọn, với một loạt ứng dụng liên
    quan đến Internet và Web, như tìm kiếm và trích chọn thông tin trên Web, khai phá
    văn bản, Web ngữ nghĩa, tóm tắt văn bản v.v.
    Các nghiên cứu và ứng dụng về xử lý ngôn ngữ trên thế giới đã có một lịch
    sử lâu dài và được chia thành các giai đoạn chính như sau [41]: Thời kỳ đầu tiên,
    bắt đầu từ những năm 1940-1950 mô hình ôtomat và các mô hình xác suất có ảnh
    hưởng sâu sắc đến xử lý ngôn ngữ. Giai đoạn tiếp theo (1957-1970) xử lý ngôn ngữ
    được chia thành hai nhánh tách biệt, nhánh hình thức tập trung vào các vấn đề
    thuộc lĩnh vực lý thuyết ngôn ngữ hình thức và trí tuệ nhân tạo; kiểu ngẫu nhiên sử
    dụng trong nhận dạng như các phương pháp Bayes. Giai đoạn 1970-1983 xuất hiện
    bốn trường phái xử lý ngôn ngữ chính, đó là sử dụng phương pháp ngẫu nhiên; dựa
    vào logic; hiểu ngôn ngữ tự nhiên; mô hình hóa diễn ngôn. Giai đoạn 1983-1993
    việc huấn luyện các mô hình trạng thái hữu hạn, các mô hình xác suất dựa vào dữ
    liệu đã xuất hiện hầu hết trong các nhiệm vụ của xử lý ngôn ngữ.
    Từ những năm 1990 trở lại đây, mô hình thống kê dựa vào dữ liệu đã chứng
    tỏ tính vượt trội của mình trong các công việc của xử lý ngôn ngữ [98, 99]. Công
    nghệ xử lý văn bản và xử lý tiếng nói không còn cách biệt, công nghệ xử lý tiếng
    nói không chỉ dựa vào các kỹ thuật xử lý tín hiệu mà còn dựa vào cả việc hiểu ngôn
    ngữ. Tham số của mô hình thống kê hoặc mô hình trạng thái có thể huấn luyện từ
    các kho ngữ liệu lớn, nhiều mô hình gần đây được chứng tỏ có hiệu quả cao như
    Maximum Entropy Markov Model (MEMM), Conditional Random Fields (CRF)
    [70, 71] v.v.
    Vấn đề phân tích và hiểu tự động văn bản là một vấn đề lớn và phức tạp
    trong việc hiểu ngôn ngữ tự nhiên, được tích hợp trong hầu hết các ứng dụng xử lý
    văn bản tự động. Quá trình này thường được chia thành các mức cơ bản [41]: Mức
    ngữ âm; mức hình thái; mức cú pháp; mức ngữ nghĩa và mức ngữ dụng.
    Mức ngữ âm (phonetics and phonology). Nghiên cứu về cách phát âm, bản
    chất thanh điệu, ngôn điệu, ngữ điệu, trường độ âm tiết, độ nhấn, biến thanh của
    các từ;
    Mức hình thái từ (morphology). Nhằm phân tích hình thái các từ vựng tạo
    nên văn bản, từ đó kiểm tra được tính đúng đắn của âm tiết và từ;
    Mức cú pháp (syntax). Mô tả quan hệ vai trò ngữ pháp của các từ, các cụm
    từ (hoặc ngữ) trong câu, từ đó xây dựng cấu trúc câu;
    Mức ngữ nghĩa (semantics). Mục đích của mức này là kiểm tra ý nghĩa của
    câu có mâu thuẫn với ý nghĩa cả đoạn hay không. Dựa trên mối liên hệ logic về
    nghĩa giữa các cụm từ trong câu và mối liên hệ giữa các câu trong đoạn, hệ thống sẽ
    xác định được một phần ý nghĩa của câu trong ngữ cảnh của cả đoạn;
    Mức ngữ dụng (pragmatics). Mục đích là phân tích để xác định ý nghĩa của
    câu dựa trên mối liên hệ của câu với hiện thực. Ý nghĩa thực tế của câu phụ thuộc
    rất nhiều vào ngữ cảnh diễn ra lời nói. Do vậy, quá trình phân tích này rất khó thực
    hiện được bằng máy tính. Thường thì việc phân tích câu chỉ dừng ở phân tích ngữ
    nghĩa, còn việc phân tích ngữ dụng do người dùng tự quyết định;
    Mức diễn ngôn (discourse). Phân tích về mặt diễn đạt và ngữ cảnh tình
    huống trong một đoạn phát ngôn.
    Để giải quyết các vấn đề trên, nhiều kho ngữ liệu lớn (corpora) đã được ra
    đời phục vụ cho việc huấn luyện các mô hình xử lý ngôn ngữ. Tuy nhiên, mỗi mức
    xử lý cần các kho ngữ liệu với những yêu cầu đặc trưng riêng, ví dụ, với mức hình
    thái từ thì cần có kho ngữ liệu huấn luyện (đã được chú giải hình thái) càng lớn
    càng tốt, kho ngữ liệu lớn sẽ cải thiện được độ chính xác mô tả thông tin ngôn ngữ,
    với mức cú pháp, đòi hỏi phải xây dựng được kho ngữ liệu đã được chú giải từ loại
    hoặc cú pháp.
    Hiện nay trên thế giới đã tồn tại nhiều kho ngữ liệu chuẩn. Nhiều kho ngữ
    liệu được xây dựng cho tiếng Anh tiêu biểu là BNC [37], ANC [58], Penn Treebank
    [79], WordNet [53] v.v. Các thứ tiếng Ấn-Âu khác cũng được nghiên cứu từ nhiều
    thập kỉ và nhiều kho ngữ liệu lớn đã được xây dựng làm cơ sở dữ liệu huấn luyện
    cho các mô hình học máy. Nhiều quốc gia ở châu Á hay trong khu vực đã đầu tư
    lớn cho nghiên cứu xử lý tiếng nói và ngôn ngữ của họ như là dự án từ điển điện tử
    của Nhật Bản EDR (1982-1992) [55]. Dự án dịch Anh-Hoa, Nhật-Hoa, vv. của
    Trung Quốc, dự án xây dựng Chinese Treebank [18], Wordnet đã hoàn thành cho
    tiếng Hoa với các chú giải ngữ pháp đầy đủ. Với tiếng Thái cũng có nhiều kho ngữ
    liệu mở đã được xây dựng [90]. Đây là những ngôn ngữ có những tương đồng với
    tiếng Việt và ta có thể học được nhiều từ thành bại của các kỹ thuật xử lý tiếng nói
    và ngôn ngữ cho hai thứ t
     

    Các file đính kèm:

Đang tải...