Tiến Sĩ Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Phí Lan Dương, 16/11/13.

  1. Phí Lan Dương

    Phí Lan Dương New Member
    Thành viên vàng

    Bài viết:
    18,524
    Được thích:
    18
    Điểm thành tích:
    0
    Xu:
    0Xu
    Luận án tiến sĩ năm 2013
    Đề tài: Nghiên cứu việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt


    MỤC LỤC
    MỤC LỤC iii
    DANH MỤC HÌNH VẼ .vi
    DANH MỤC BẢNG .vii
    DANH MỤC CỤM TỪVIẾT TẮT .viii
    MỞ ĐẦU .x
    Đặt vấn đề x
    Mục tiêu và phạm vi nghiên cứu của luận án .xiii
    Kết quả đạt được .xiv
    Bốcục của luận án .xv
    CHƯƠNG 1. TỔNG QUAN VỀKHO NGỮLIỆU .1
    1.1 Kho ngữliệu văn bản .1
    1.2 Xây dựng, chuẩn hóa và khai thác kho ngữliệu 5
    1.2.1 Thu thập kho ngữliệu văn bản 5
    1.2.2 Chú giải ngôn ngữvà vấn đềchuẩn hóa 7
    1.2.3 Khai thác kho ngữliệu .9
    1.3 Kho ngữliệu tiếng Việt .13
    1.3.1 Hiện trạng 13
    1.3.2 Các vấn đề được nghiên cứu trong luận án 13
    1.4 Kết chương .17
    CHƯƠNG 2. XÂY DỰNG KHO NGỮLIỆU THÔ TỪINTERNET .18
    2.1 Giới thiệu .18
    2.2 Xây dựng kho ngữliệu thô tiếng Việt .18
    2.2.1 Lựa chọn danh sách từhạt giống .19
    2.2.2 Thu thập địa chỉURL 21
    2.2.3 Lọc nội dung chính của các trang web (URLs) .23
    2.2.4 Phát hiện sựtrùng lặp gần nhau .28
    2.2.5 Xây dựng công cụvà kết quảthu thập kho ngữliệu .32
    2.3 Kết chương .32
    iv
    CHƯƠNG 3. CHUẨN HÓA MÔ HÌNH CHÚ GIẢI TIẾNG VIỆT 34
    3.1 Giới thiệu .34
    3.2 Mô hình MAF của ISO/TC 37/SC 4 34
    3.3 Mô hình SynAF của ISO/TC 37/SC 4 .36
    3.4 Chuẩn hóa theo mô hình MAF cho tiếng Việt .38
    3.4.1 Xác định đơn vịcơsở(segment) .41
    3.4.2 Hình thái từ(Wordform) 41
    3.4.3 Nội dung hình thái cú pháp 42
    3.5 Chuẩn hóa theo mô hình SynAF cho tiếng Việt 42
    3.6 Kết chương .50
    CHƯƠNG 4. KHAI THÁC KHO NGỮLIỆU THÔ CHO NGHIÊN CỨU TỪ
    VỰNG TIẾNG VIỆT 51
    4.1 Giới thiệu .51
    4.1.1 Nghiên cứu từvựng .51
    4.1.2 Sketch Engine 52
    4.1.3 Ngữliệu trong Sketch Engine 53
    4.2 Xây dựng ngữliệu tiếng Việt cho Sketch Engine 56
    4.2.1 Tách từvà gán nhãn từloại 56
    4.2.2 Xây dựng bộquan hệngữpháp tiếng Việt 57
    4.2.3 Triển khai hệthống Sketch Engine cho tiếng Việt 64
    4.2.4 Đánh giá bộquan hệngữpháp tiếng Việt .67
    4.3 Kết chương .67
    CHƯƠNG 5. KHAI THÁC KHO NGỮLIỆU CÓ CHÚ GIẢI CHO PHÂN
    TÍCH CÚ PHÁP TIẾNG VIỆT 69
    5.1 Giới thiệu .69
    5.2 Văn phạm hình thức .70
    5.2.1 Khái niệm chung vềvăn phạm 70
    5.2.2 Văn phạm phi ngữcảnh (Context Free Grammar - CFG) .72
    5.2.3 Văn phạm kết nối cây (Tree Adjoining Grammar – TAG) 74
    5.3 Trích rút tự động văn phạm CFG cho tiếng Việt .77
    v
    5.3.1 Thuật toán trích rút từVietTreebank .77
    5.3.2 Phân tích cú pháp tiếng Việt với văn phạm PCFG 86
    5.3.3 Thửnghiệm và đánh giá 89
    5.3.4 Nhược điểm của văn phạm PCFG trong phân tích ngữpháp 90
    5.4 Trích rút tự động văn phạm LTAG cho tiếng Việt 90
    5.4.1 Thuật toán trích rút từVietTreebank .90
    5.4.2 Xây dựng thuật toán trích rút từtừ điển tiếng Việt 100
    5.4.3 So sánh, đánh giá tập cây khởi tạo trích rút từVietTreebank và từ điển .105
    5.5 Kết chương .107
    KẾT LUẬN .109
    DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH LIÊN
    QUAN ĐẾN LUẬN ÁN 112
    TÀI LIỆU THAM KHẢO .113
    PHỤLỤC 125
     

    Các file đính kèm:

Đang tải...