Thạc Sĩ Xây dựng hệ thống hỏi đáp tự động cho câu hỏi định nghĩa trong y khoa

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    167
    Điểm thành tích:
    0
    Xu:
    0Xu
    1
    TÓM LƯỢC ĐỀ TÀI
    Khi sử dụng các hệ thống search engine để tìm kiếm thông tin trả lời cho câu hỏi, người dùng phải tự tìm lấy các thông tin cần thiết trong nhiều tài liệu có liên quan đến câu hỏi. Điều này làm cho họ mất nhiều thời gian và công sức. Do đó, mong muốn của họ là có một hệ thống tự động trả lời câu hỏi nhanh chóng, rõ ràng, cô đọng và hiệu quả. Hệ thống hỏi đáp tự động đáp ứng được các yêu cầu đó.
    Hệ thống hỏi đáp tự động là một hệ thống tự động trả lời câu hỏi của người dùng dựa trên quá trình tự động nhận diện, phân tích câu hỏi; tìm kiếm các tài liệu có liên quan đến câu hỏi và cuối cùng, hệ thống xử lý các tài liệu này để trích chọn câu trả lời.
    Hiện nay, hệ thống hỏi đáp tự động là một lĩnh vực được nhiều nghiên cứu quan tâm vì nhu cầu thông tin ngày càng cao của người dùng. Việc xây dựng một hệ thống hỏi đáp tự động trả lời tất cả các câu hỏi về tất cả các lĩnh vực (open-domain) rất khó thực hiện vì hệ thống cần tri thức quá rộng [8]. Do vậy, nhiều nghiên cứu tập trung xây dựng hệ thống hỏi đáp tự động cho một lĩnh vực cụ thể nào đó [28]: y khoa, địa lý
    Trong thực tế, có thể có nhiều loại câu hỏi được người dùng đặt ra: câu hỏi yes/no, câu hỏi về nơi chốn (where), câu hỏi định nghĩa (what) Hệ thống hỏi đáp cần phải xử lý và cho câu trả lời tương ứng.
    Trong bối cảnh trên, chúng tôi xác định công việc của đề tài là nghiên cứu và xây dựng hệ thống hỏi đáp tự động cho loại câu hỏi định nghĩa trong y khoa; góp phần hoàn thiện hệ thống hỏi đáp tự động trong lĩnh vực này.
    Một hệ thống hỏi đáp tự động cho câu hỏi định nghĩa có 03 thành phần xử lý [8]: thành phần phân tích câu hỏi, thành phần tìm kiếm tài liệu và thành phần trích chọn câu trả lời.


    2
    - Thành phần phân tích câu hỏi là quá trình xử lý, phân tích để hệ thống có thể “hiểu” được câu hỏi. Đề tài dựa vào cú pháp ngữ pháp của câu hỏi định nghĩa trong ngôn ngữ tiếng Anh [1], [12] để phân tích và trích ra các thuật ngữ trong câu hỏi cần được định nghĩa.
    - Thành phần tìm kiếm tài liệu là quá trình tìm kiếm các tài liệu có liên quan đến thuật ngữ cần định nghĩa và trả về một tập các tài liệu có độ liên quan được sắp xếp giảm dần.
    Đề tài sử dụng kho dữ liệu MEDLINE (xem mục 1.3) để tìm kiếm tri thức và trả lời câu hỏi. MEDLINE chứa các tóm tắt (abstract) của các bài báo khoa học về y khoa. Hong Yu [28] nhận định: các thuật ngữ thường được định nghĩa trong phần Introduction và background của abstract. Do đó, đề tài trích chọn ra các câu định nghĩa trong hai thành phần này để xây dựng cơ sở dữ liệu (CSDL) phục vụ cho công tác tìm kiếm câu trả lời (xem chương 4).
    - Thành phần trích chọn câu trả lời là quá trình xử lý dựa trên kết quả tìm kiếm để trích ra câu trả lời phù hợp. Đề tài trích lọc thuật ngữ có độ liên quan cao nhất với câu hỏi trong tập kết quả tìm kiếm để trả lời câu hỏi người dùng.
    Câu trả lời của hệ thống được trích ra từ các bài báo khoa học nên độ tin cậy của chúng đã được các nhà khoa học khẳng định. Trên thực tế, một thuật ngữ có thể có rất nhiều câu định nghĩa ở những góc độ khác nhau. Do đó, đề tài hiển thị tất cả các câu này, cho phép người sử dụng chọn cho mình câu trả lời tốt nhất.
    Các hệ thống hỏi đáp tự động cho một lĩnh vực cụ thể thường sử dụng ontology1 trong quá trình xử lý để cải thiện hiệu quả câu trả lời [13], [28]. Trong lĩnh vực y khoa, ontology UMLS (Unified Medical Language System) và MeSH (Medical Subject Headings) cung cấp từ vựng về những khái niệm và quan hệ giữa chúng (xem mục 1.2). Đề tài khai thác quan hệ đồng nghĩa giữa các thuật ngữ trong UMLS và MeSH nhằm đáp ứng tốt hơn yêu cầu truy nhập thông tin của người dùng.
    1 Ontology là hình thức biễu diễn các khái niệm trong một lĩnh vực và quan hệ giữa chúng.


    3
    MỤC LỤC
    TÓM LƯỢC ĐỀ TÀI 1
    MỤC LỤC .3
    DANH SÁCH CÁC HÌNH ẢNH 8
    DANH MỤC CÁC BẢNG BIỂU .10
    DANH MỤC CÁC TỪ VIẾT TẮT .11
    GIỚI THIỆU ĐỀ TÀI .12
    1. Mở đầu 12
    2. Tình hình nghiên cứu trong và ngoài nước .15
    3. Một số vấn đề còn tồn tại 16
    4. Mục tiêu của đề tài 17
    5. Phương pháp và quy trình thực hiện mục tiêu 18
    6. Nội dung luận văn .20
    CHƯƠNG 1 CÁC KIẾN THỨC CƠ SỞ 21
    1.1 Sơ lược về hệ thống hỏi đáp tự động .21
    1.1.1 Định nghĩa .21
    1.1.2 Phân tích câu hỏi .22
    1.1.3 Tìm kiếm tài liệu liên quan .22
    1.1.4 Lựa chọn câu trả lời .23
    1.2 UMLS 24
    1.2.1 Khái niệm 24
    1.2.2 Metathesaurus 25
    1.2.3 Semantic Network .26


    4
    1.2.4 SPECIALIST Lexicon & Lexical Tools .26
    1.3 Kho dữ liệu MEDLINE .26
    1.4 Kiến thức về các thuật giải xử lý của máy tính mà nghiên cứu sử dụng .27
    1.4.1 Huấn luyện và phân lớp tài liệu sử dụng SVM .27
    1.4.1.1 Thuật giải SVM .27
    1.4.1.2 Sơ lược về phần mềm SVM 29
    1.4.1.3.1 LIBSVM .29
    1.4.1.3.2 LIBLINEAR .29
    1.4.2 Trọng số của các đặc trưng 29
    1.4.2.1 Khái niệm và biểu diễn tài liệu .29
    1.4.2.2 Một số mô hình trọng số 30
    1.4.2.3 Nhận xét .33
    1.4.3 AutoSlog 33
    1.4.3.1 Mô hình .33
    1.4.3.2 Kho dữ liệu 34
    1.4.3.3 Bộ phân tích câu 34
    1.4.3.4. Tập mẫu cú pháp 36
    1.4.3.5 Danh sách các cụm danh từ 37
    1.4.3.6 Nhận xét 37
    1.4.4 AutoSlog-TS 38
    1.4.4.1 Mô hình 38
    1.4.4.2 Nguyên tắc hoạt động .38
    1.4.4.3 Nhận xét 39
    1.5 Các phần mềm hỗ trợ .40


    5
    1.5.1 Sơ lược về hệ thống Sundance 40
    1.5.1.1 Giới thiệu 40
    1.5.1.2 Cấu trúc của một case frame .40
    1.5.1.3 Giải thích các thành phần 40
    1.5.1.4 Ví dụ về một case frame .42
    1.5.1.5 Nhận xét 45
    1.5.2 Sơ lược về Lucene .45
    1.5.3 Sơ lược về SharpNLP 46
    1.6 Kết luận 46
    CHƯƠNG 2 HỆ THỐNG HỎI ĐÁP CHO LOẠI CÂU HỎI ĐỊNH NGHĨA 47
    2.1 Định nghĩa 47
    2.2 Phân tích câu hỏi định nghĩa 48
    2.2.1 Cú pháp của câu hỏi có từ “What” 49
    2.2.2 Cú pháp của câu hỏi không có từ “What” .50
    2.2.3 Xác định các thuật ngữ cần định nghĩa .51
    2.2.4 Các bước thực hiện 52
    2.2.5 Ví dụ phân tích câu hỏi .52
    2.3 Tìm kiếm tài liệu liên quan 53
    2.3.1 Quy trình xử lý 53
    2.3.2 Các bước thực hiện 54
    2.3.3 Ví dụ về tìm kiếm tài liệu liên quan 55
    2.4 Lựa chọn câu trả lời .56
    2.4.1 Trích lọc câu trả lời .56
    2.4.2 Tìm kiếm các thuật ngữ liên quan .57


    6
    2.4.3 Tìm kiếm và hiển thị các thuật ngữ đồng nghĩa 58
    2.4.3.1 Thuật ngữ đồng nghĩa trong UMLS 58
    2.4.3.2 Thuật ngữ đồng nghĩa trong WordNet 59
    2.4.4 Xây dựng cây phân cấp MeSH của thuật ngữ .60
    2.5 Kết luận 61
    CHƯƠNG 3 XÂY DỰNG CASE FRAME TỰ ĐỘNG .62
    3.1 Mục tiêu .62
    3.2 Mô hình xử lý 62
    3.3 Dữ liệu huấn luyện .63
    3.3.1 Relevant text 63
    3.3.2 Irrelevant text 64
    3.4 Xây dựng cấu trúc case frame định nghĩa .64
    3.5 Trích lọc case frame định nghĩa .65
    3.5.1 Đặc tả Slot .65
    3.5.2 Các thông số chọn lọc .66
    3.6 Thực nghiệm xây dựng case frame định nghĩa 66
    3.7 Kết luận 68
    CHƯƠNG 4 XÂY DỰNG CƠ SỞ DỮ LIỆU TRẢ LỜI .69
    4.1 Mục tiêu .69
    4.2 Quy trình xử lý tổng quan 69
    4.3 Dữ liệu thô .70
    4.3.1 Định nghĩa dữ liệu thô .70
    4.3.2 Nhận xét 72
    4.4 Tiền xử lý các tài liệu được phân tách .72


    7
    4.4.1 Mô hình xử lý .72
    4.4.2 Xử lý phân đoạn 73
    4.4.3 Xử lý tách câu .75
    4.4.4 Tạo và huấn luyện dữ liệu sử dụng LIBLINEAR .76
    4.5 Tiền xử lý các tài liệu chưa được phân tách 76
    4.6 Xây dựng chỉ mục kho dữ liệu .77
    4.6.1 Tiến trình xây dựng .77
    4.6.2 Cấu trúc chỉ mục của CSDL tìm kiếm câu trả lời .78
    4.7 Kết quả thực nghiệm 78
    4.7.1 Huấn luyện dữ liệu và phân lớp câu .78
    4.7.2 Xây dựng tập câu định nghĩa 81
    4.7.3 Xây dựng chỉ mục CSDL 82
    4.8 Kết luận 82
    CHƯƠNG 5 XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG 83
    5.1 Mô hình xử lý tổng quan 83
    5.2 Thiết kế giao diện 83
    5.3 Nhận câu hỏi và tìm kiếm thông tin .85
    5.4 Hiển thị câu trả lời .85
    5.5 Danh mục các từ đồng nghĩa .86
    5.6 Danh mục các thuật ngữ khác có liên quan .87
    5.7 Cây phân cấp các thuật ngữ .87
    KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 88
    TÀI LIỆU THAM KHẢO .89
    PHỤ LỤC 93
     

    Các file đính kèm:

Đang tải...