Thạc Sĩ Phương pháp xử lý một số dạng câu hỏi tiếng Việt cho công cụ tìm kiếm thư viện điện tử

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Nhu Ely, 21/12/13.

  1. Nhu Ely

    Nhu Ely New Member

    Bài viết:
    1,771
    Được thích:
    1
    Điểm thành tích:
    0
    Xu:
    0Xu
    LUẬN VĂN THẠC SĨ
    NĂM 2011



    MỤC LỤC
    CHƯƠNG 1: TỔNG QUAN 1
    1.1 ĐẶT VẤN ĐỀ 1
    1.2 MỤC TIÊU ĐỀ TÀI . 1
    1.3 PHẠM VI NGHIÊN CỨU . 2
    1.4 NỘI DUNG NGHIÊN CỨU 3
    1.5 ĐÓNG GÓP MỚI CỦA ĐỀ TÀI . 3
    1.6 BỐ CỤC LUẬN VĂN . 4

    CHƯƠNG 2: MÔ HÌNH VÀ KIẾN TRÚC HỆ THỐNG .5
    2.1 VẤN ĐỀ XÂY DỰNG CÔNG CỤ TÌM KIẾM THƯ VIỆN
    ĐIỆN T 5
    2.2 CHỨC NĂNG HỆ THỐNG . 6
    2.3 KIẾN TRÚC HỆ THỐNG . 7
    2.3.1 Tiền xử lý câu hỏi 9
    2.3.2 Phân tích cú pháp câu hỏi b ng UBG . 9
    2.3.3 Phát sinh câu truy vấn SQL . 10
    2.3.4 Xử lý kết quả truy vấn cơ sở dữ liệu . 11
    2.4 CÁC QUI TẮC CÚ PHÁP . 12
    2.5 PHÁT SINH TRUY VẤN TỪ CẤU TRÚC CÚ PHÁP 13

    CHƯƠNG 3: PHÂN TÍCH CÚ PHÁP CÂU HỎI TIẾNG VIỆT
    BẰNG UNIFICATION-BASED GRAMMAR
    15
    3.1 LÝ THUYẾT UNIFICATION-BASED GRAMMAR 15
    3.1.1 Giới thiệu Unification-Based Grammar 15
    3.1.2 Cấu trúc đặc tính (Feature Structures) 17
    3.1.3 Các phép toán trên cấu trúc đặc tính . 19
    A. Phép So sánh (Subsumption) 19
    B. Phép hợp nhất (Unification) . 21
    C. Phép tổng quát (generalization) 22
    3.1.4 Biểu diễn các cấu trúc đặc tính trong Prolog 23
    3.2 PHÂN TÍCH CÚ PHÁP CÂU HỎI TIẾNG VIỆT BẰNG
    UNIFICATION-BASED GRAMMAR 24
    3.2.1 Xây dựng tập các luật sinh cơ bản . 24
    3.2.2 Tập các câu hỏi được mô tả b ng UBG 28
    A. Các câu hỏi về tác giả . 28
    B. Các câu hỏi về sách và tác giả 30
    C. Các câu hỏi về tác giả và nhà xuất bản . 32
    D. Các câu hỏi về sách . 34
    E. Các câu hỏi về nhà xuất bản . 37
    F. Các câu hỏi về sách và nhà xuất bản 40
    G. Các câu hỏi về năm xuất bản 41
    H. Các câu hỏi về sách và năm xuất bản . 42

    CHƯƠNG 4: XÂY DỰNG CHƯƠNG TRÌNH 45
    4.1. XÂY DỰNG CÁC THÀNH PHẦN HỆ THỐNG . 45
    4.2. THÀNH PHẦN TIỀN X LÝ CÂU HỎI . 45
    4.2.1 Bước tách tham số trong câu . 46
    4.2.2 Bước loại bỏ ký tự thừa . 46
    4.2.3 Bước chuyển mã tiếng Việt . 47
    4.3. THÀNH PHẦN PHÂN TÍCH CÂU HỎI BẰNG UBG 50
    4.3.1 Tách từ và nhân diện từ loại 50
    4.3.2 Chuyển câu hỏi về cú pháp UBG 54
    4.3.3 Phát sinh cây cú pháp 55
    4.4. THÀNH PHẦN PHÁT SINH CÂU TRUY VẤN SQL 56
    4.4.1 Tìm cấu trúc phù hợp . 56
    4.4.2 Phát sinh và thực thi câu lệnh SQL . 57
    4.5. THÀNH PHẦN X LÝ KẾT QUẢ TRUY VẤN 58
    4.5.1 Câu lệnh SQL trả về giá trị 59
    4.5.2 Lệnh SQL không trả về giá trị . 59
    4.5.3 Tìm được cấu trúc gần đúng 59
    4.5.4 Không tìm được cấu trúc gần đúng . 60
    4.6. CÀI ĐẶT CHƯƠNG TRÌNH 60
    4.6.1 Công nghệ sử dụng 60
    4.6.2 Cài đặt và sử dụng hệ thống 61
    CHƯƠNG 5: KẾT LUẬN 65
    5.1 ĐÁNH GIÁ HỆ THỐNG . 65
    5.2 ĐỊNH HƯỚNG PHÁT TRIỂN 65




    CHƯƠNG 1

    1.1 ĐẶT VẤN ĐỀ

    Trong những năm gần đây, vấn đề nghiên cứu xây dựng các công cụ
    tìm kiếm b ng truy vấn tiếng Việt cho thư viện đã được triển khai và đã đạt
    được một số kết quả ban đầu, qua các công trình nghiên cứu: [1], [2], [3], [4],
    [5], [6], [7], [8], [9], [10], [11], [12]. Một số nhận định tổng quan về tình
    hình nghiên cứu của lĩnh vực này đã được trình bày trong [10]. Một đặc điểm
    chung của các công trình nghiên cứu nói trên là đều sử dụng văn phạm phi
    ngữ cảnh (CFG: Context-Free Grammar) để xử lý cú pháp cho các câu hỏi
    tiếng Việt. Mặc dù đơn giản nhưng mô hình văn phạm CFG cũng có nhiều
    hạn chế, đặc biệt là trong vấn đề xử lý các ràng buộc ngữ pháp.
    Trong cùng hướng nghiên cứu với các công trình nói trên ([1], [2], [3],
    [4], [5], [6], [7], [8], [9], [10], [11], [12]) nhưng với cách tiếp cận ho àn toàn
    khác, trong đề tài này chúng tôi sử dụng mô hình văn phạm UBG
    (Unification-Based Grammar) để phân tích cú pháp cho các câu hỏi tiếng
    Việt. Trên nguyên tắc, mô hình văn phạm UBG có thể cho phép khắc phục
    nhiều nhược điểm của CFG, mặc dù vấn đề triển khai và cài đặt UBG cũng có
    những khó khăn, phức tạp riêng.
    1.2 MỤC TIÊU ĐỀ TÀI
    Đề tài tập trung nghiên cứu vấn đề sử dụng mô hình văn phạm UBG để
    xây dựng phương pháp xử lý các dạng câu hỏi tiếng Việt được dùng trong
    công cụ tìm kiếm thư viện điện tử b ng truy vấn tiếng Việt. Trên cơ sở đó, đề
    tài phát triển một công cụ tìm kiếm b ng truy vấn tiếng Việt cho thư viện
    điện tử của một trường đại học, áp dụng cho trường Đại học Lạc Hồng. Công
    cụ này cho phép xử lý những câu hỏi tiếng Việt có n ội dung liên quan đến
    các thông tin mô tả về tài liệu như: tên tài liệu , tác giả, nhà xuất bản, năm
    xuất bản.
    1.3 PHẠM VI NGHIÊN CỨU
    Như mục tiêu của đề tài đã xác định, trong phạm vi tương tự với các
    công trình khác ([1], [2], [3], [4], [5], [6], [7], [8], [9], [10], [11], [12]) đã
    được giới thiệu trong cùng lĩnh vực nghiên cứu, chúng tôi chỉ giới hạn việc
    xử lý các câu hỏi tiếng Việt có nội dung xoay quanh các thông tin mô tả về
    tài liệu trong thư viện: tên tài liệu, tác giả, nhà xuất bản, năm xuất bản. Kết
    quả tìm kiếm vì vậy sẽ là một câu trả lời tương ứng với nội dung truy vấn
    được và các dữ liệu có liên quan (nếu có) chứ không phải là tài liệu chứa từ
    khóa như trong tìm kiếm so khớp dựa trên từ khóa.
    Nội dung của các câu truy vấn b ng tiếng Việt phải đáp ứng được các
    yêu cầu sau:
    - Mỗi câu truy vấn chỉ có một đối tượng thông tin được hỏi (tên tài
    liệu, tác giả, nhà xuất bản, năm xuất bản) hoặc câu hỏi dạng khẳng
    định (đúng/sai).
    - Chỉ xử lý các dạng câu hỏi được đề cập trực tiếp, không xử lý các
    câu hỏi có tính gián tiếp hoặc có chứa ẩn ý.
    - Chỉ xử lý các câu truy vấn có cấu trúc đơn, câu không chứa nhiều
    thành phần ghép với nhau bởi các liên từ như và, hoặc, hay,
    - Chỉ xử lý các câu truy vấn có cấu trúc rõ ràng, không nhập nh ng,
    mơ hồ.
    - Trong giai đoạn nghiên cứu này chỉ xử lý các câu truy vấn có từ một
    đến hai tham số tìm kiếm.
    1.4 NỘI DUNG NGHIÊN CỨU
    Những vấn đề nghiên cứu trọng tâm của đề tài bao gồm:
    - Nội dung 1: Khảo sát cơ sở dữ liệu của thư viện điện tử nh m xác
    định các thông tin lưu trữ, từ đó sẽ xây dựng tập các câu hỏi tiếng
    Việt dùng để tìm kiếm các thông tin được chọn lọc trong số những
    thông tin được lưu trữ.
    - Nội dung 2: Định nghĩa một văn phạm UBG hạn chế có khả năng
    phân tích các dạng câu hỏi đã được xác định.
    - Nội dung 3: Từ cấu trúc cú pháp câu hỏi trong văn phạm UBG, xác
    định nội dung câu hỏi và phát sinh các truy vấn phù hợp trên ngôn
    ngữ truy vấn cơ sở dữ liệu.
    - Nội dung 4: Xử lý các kết quả truy vấn cơ sở dữ liệu.

    1.5 ĐÓNG GÓP MỚI CỦA ĐỀ TÀI

    Đề tài xây dựng phương pháp xử lý các câu hỏi tiếng Việt cho công cụ
    tìm kiếm thư viện điện tử của trường Đại học Lạc Hồng với một số đặc thù
    riêng:
    - Xây dựng mới hoàn toàn một văn phạm hạn chế dựa trên UBG thay
    vì sử dụng CFG như các công trình trước đây đã triển khai ([1], [2],
    [3], [4], [5], [6], [7], [8], [9], [10], [11], [12]).
    - Sử dụng ngôn ngữ Prolog để cài đặt văn phạm UBG hạn chế đã
    được xây dựng.

    1.6 BỐ CỤC LUẬN VĂN
    Luận văn được cấu trúc thành 5 chương, bố cục như sau:
    - Chương 1: Tổng quan.
    Chương này giới thiệu tổng quan về đề tài như mục tiêu đạt được,
    bối cảnh nghiên cứu, phạm vi nghiên cứu, và phương pháp nghiên
    cứu.
    - Chương 2. Mô hình và kiến trúc hệ thống.
    Chương này sẽ trình bày tổng quát về hệ thống : các chức năng, kiến
    trúc, các thành phần hệ thống.
    - Chương 3. Phân tích cú pháp câu hỏi tiếng Việt b ng UnificationBased Grammar (UBG).
    Chương này tập trung vào vấn đề xây dựng các qui tắc cú pháp dựa
    trên mô hình UBG để phân tích các câu hỏi tiếng Việt .
    - Chương 4. Xây dựng chương trình.
    Nội dung chương này trình bày các vấn đề kỹ thuật trong việc xây
    dựng hệ thống. Ngoài ra, chương này cũng giới thiệu hệ thống tìm
    kiếm đã được xây dựng.
    - Chương 5. Kết luận và hướng phát triển.
    Nhận định và đánh giá về hệ thống được xây dựng, đề xuất một số
    hướng nghiên cứu tiếp theo trong tương lai.




    TÀI LIỆU THAM KHẢO

    [1] Báo cáo khoa học nghiệm thu đề tài NCKH cấp Đại học Quốc gia TP.
    HCM, Xây dựng công cụ tra cứu kho học liệu mở Việt nam với chức
    năng hỏi-đáp bằng tiếng Việt, mã số: B2009-26-01. Hội đồng nghiệm
    thu đề tài ngày 16/08/2010, tại Trường Đại học Công nghệ thông tin.
    Chủ nhiệm đề tài: TS. Nguyễn Tuấn Đăng.
    [2] Lương Quý Tịnh Hà, Xây dựng công cụ tìm kiếm tài liệu học tập bằng
    các truy vấn ngôn ngữ tự nhiên trên kho học liệu mở Tiếng Việt , Luận
    văn Thạc sỹ ngành Công nghệ thông tin, Trường Đại học Công nghệ
    thông tin, Đại học Quốc gia TP. HCM, 2009.
    [3] Nguyễn Vũ Huy, Một số phương pháp và kỹ thuật nâng cao hiệu quả
    xử lý các dạng câu hỏi tiếng Việt đơn giản cho công cụ tìm kiếm thư
    viện học liệu mở, Khóa luận tốt nghiệp đại học, hệ Cử nhân Tài năng,
    ngành Khoa học máy tính, Trường Đại học Công nghệ thông tin, Đại
    học Quốc gia TP. Hồ Chí Minh, 2010.
    [4] Lý Thiên Trang, Mô hình công cụ tìm kiếm bằng truy vấn tiếng Việt
    ứng dụng cho thư viện trường đại học, Luận văn Thạc sỹ ngành Công
    nghệ thông tin, Trường Đại học Công nghệ thông tin, Đại học Quốc gia
    TP. HCM, 2009.
    68
    Ti ng Anh
    [5] Dang Tuan Nguyen, Ha Quy-Tinh Luong, "A framework for building
    Vietnamese language query processing components in e-library
    searching systems", International Conference on Information
    Technology (ICIT 2009), October 28-30, 2009, Venice, Italy.
    Proceedings of World Academy of Science, Engineering and
    Technology, pp. 1354-1358, vol. 58, October 2009. ISBN: 2070-3724.
    [6] Dang Tuan Nguyen, Ha Quy-Tinh Luong, Tuyen Thi-Thanh Do,
    "Building a Vietnamese language query processing framework for elibrary searching systems", International Journal of Computer Science
    and Information Security (IJCSIS), pp. 092-096, vol. 6, no. 1, October
    2009. ISSN: 1947-5500.
    [7] Dang Tuan Nguyen, Ha Quy-Tinh Luong, "Document searching system
    based on natural language query processing for Vietnam Open
    Courseware library", International Journal of Computer Science Issues
    (IJCSI), pp. 7-13, vol. 6, no. 2, November 2009. ISSN (online): 1694-0784, ISSN (print): 1694-0814.
    [8] Dang Tuan Nguyen, Tuan Ngoc Pham, Quoc Tan Phan, "A Semantic
    Model for Building the Vietnamese Language Query Processing
    Framework in e-Library Searching Application", Proceedings of the
    2nd International Conference on Machine Learning and Computing
    (ICMLC 2010), pp. 179-183, February 9-11, 2010, Bangalore, India.
    ISBN: 978-0-7695-3977-5. Editions IEEE.
     

    Các file đính kèm:

Đang tải...