Tiểu Luận Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Mai Kul, 5/12/13.

  1. Mai Kul

    Mai Kul New Member

    Bài viết:
    1,299
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC
    1 GIỚI THIỆU . 1
    2 MỘT SỐ VẤN ĐỀ CHUNG VỀ CÂU . 1
    2.1 Tình hình nghiên cứu câu trên thế giới . 1
    2.1.1 Thời cổ đại . 1
    2.1.2 Từ cuối thế kỷ XIX đến đầu thế kỷ XX 1
    2.1.3 Từ đầu thế kỷ XX đến nay . 2
    2.2 Tình hình nghiên cứu câu ở Việt Nam . 6
    2.2.1 Từ năm 1930 đến trước Cách mạng tháng Tám 6
    2.2.2 Từ sau Cách mạng tháng Tám đến 1960 6
    2.2.3 Từ 1960 đến 1990 7
    2.2.4 Từ 1990 đến nay . 7
    3 CÂU TIẾNG VIỆT . 7
    3.1 Câu là gì . 7
    3.2 Các đặc trưng cơ bản của câu . 8
    3.2.1 Chức năng của câu . 8
    3.2.2 Nội dung của câu 8
    3.2.3 Hình thức của câu 8
    4 TÌM HIỀU DỰ ÁN GATE . 9
    4.1 Tổng quan về GATE . 9
    4.2 GATE Developer . 11
    4.2.1 Cửa sổ chính của GATE Developer 12
    4.2.2 Nạp và xem tài liệu . 13
    4.2.3 Tạo và xem tập tài liệu 16
    4.2.4 Làm việc với chú thích 18
    4.2.5 Sử dụng các Plugin CREOLE 19
    4.2.6 Nạp và sử dụng các tài nguyên xử lý 20
    4.2.7 Tạo và vận hành một ứng dụng . 20




    4.2.8 Lưu trữ các ứng dụng và tài nguyên ngôn ngữ 20
    4.3 GATE Embedded 21
    5 CÁC CÔNG CỤ XỬ LÝ NGÔN NGỮ CỦA GATE 22
    5.1 Hệ thống chiết xuất thông tin ANNIE . 22
    5.2 Biểu thức chính quy JAPE 23
    5.2.1 Mô tả hình thức của JAPE 24
    5.3 Chú thích phụ thuộc ngữ cảnh ANNIC . 27
    5.3.1 Khởi tạo SDD 29
    5.3.2 Tìm kiếm trong kho dữ liệu . 29
    5.4 Các bộ phân tích 30
    5.4.1 Bộ phân tích MiniPar . 30
    5.4.2 Bộ phân tích RASP . 31
    5.4.3 Bộ phân tích SUPPLE 32
    5.4.4 Bộ phân tích Standford . 33
    6 PHÂN TÍCH CÚ PHÁP CÂU TIẾNG VIỆT . 33
    6.1 Xây dựng bộ phân tích cú pháp tiếng Việt 33
    6.1.1 Tuỳ biến plugin SUPPLE parser 34
    6.1.2 Xây dựng quy tắc ngữ pháp tiếng Việt cho JAPE . 34
    6.2 Xây dựng cơ sở dữ liệu từ vựng tiếng Việt 34
    7 TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN . 34

     Dương Hoàng Thanh
    1 GIỚI THIỆU
    Chế tạo ra được hệ thống máy tính có khả năng giao tiếp với con người bằng
    ngôn ngữ tự nhiên vốn là mục tiêu theo đuổi của nhiều nhà khoa học trong suốt
    một thời gian dài cho tới tận bây giờ. Tuy chưa có hệ thống máy tính nào có thể
    thực hiện được điều này, nhưng việc nghiên cứu và khám phá xử lý ngôn ngữ tự
    nhiên trên máy tính đã đem lại rất nhiều kinh nghiệm hữu ích cho con người để
    có thể biến ước mơ trên thành hiện thực.
    GATE là một dự án khá tham vọng khi muốn tạo ra một công cụ xử lý ngôn
    ngữ đa năng, giúp các nhà nghiên cứu ngôn ngữ có thể tập trung vào nghiên cứu
    chuyên sâu hơn là loay hoay giải quyết những bài toán kỹ thuật. Tuy rất được ưa
    chuộng trên khắp thế giới, GATE lại hầu như chưa hỗ trợ việc phân tích tiếng
    Việt. Do đó, đề tài này nhằm tìm hiểu về dự án GATE cũng như phương hướng
    áp dụng công cụ này vào việc phân tích cú pháp câu tiếng Việt.
    2 MỘT SỐ VẤN ĐỀ CHUNG VỀ CÂU
    2.1 Tình hình nghiên cứu câu trên thế giới
    2.1.1 Thời cổ đại
    Các nhà ngữ pháp Ấn Độ giải thích: “Câu là đơn vị cơ bản của ngôn ngữ,
    bởi vì chỉ có câu mới có thể diễn đạt được tư tưởng”.
    Thế kỉ III - II TCN, Alêchxanđria định nghĩa: “Câu là sự tổng hợp của
    các từ, biểu thị một tư tưởng tương đối trọn vẹn”.
    2.1.2 Từ cuối thế kỷ XIX đến đầu thế kỷ XX
    Ngôn ngữ nói chung và câu nói riêng được nghiên cứu theo quan điểm
    của các khuynh hướng, các trường phái. Đáng chú ý có các khuynh hướng
    sau:
    a. Khuynh hướng logic - ngữ pháp (ở Nga)
    Khuynh hướng nyaf với quan điểm câu trùng với phán đoán logic, nên
    đã định nghĩa “Câu là một phán đoán được biểu thị bằng từ”.
    b. Khuynh hướng lịch sử - tâm lí
    Khuynh hướng lịch sử - tâm lý phản đối quan niệm trên, cho rằng “Câu
    (ngữ pháp) tuyệt nhiên không trùng và không song song với phán đoán
    logic”.
    c. Khuynh hướng hình thức ngữ pháp
     

    Các file đính kèm:

Đang tải...