Luận Văn Vn-kim search tiếng anh với truy vấn có liên từ luận lý, tính từ và lượng từ

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC
    LỜI CAM ĐOAN ii
    LỜI CẢM ƠN iii
    TÓM TẮT iv
    MỤC LỤC v
    DANH MỤC HÌNH viii
    DANH MỤC BẢNG ix
    CHƯƠNG 1 TỔNG QUAN 1
    1.1 Giới thiệu. 1
    1.2 Mục tiêu phạm vi 3
    1.3 Kết quả đạt được. 5
    1.4 Cấu trúc luận văn. 6
    CHƯƠNG 2 KIẾN THỨC NỀN TẢNG 7
    2.1 Chú thích ngữ nghĩa và tìm kiếm ngữ nghĩa. 7
    2.1.1 Các khái niệm 7
    2.1.2 Các phần mềm, công cụ sử dụng. 8
    2.2 Đồ thị ý niệm 10
    2.2.1 Sơ lược về đồ thị ý niệm 10
    2.2.2 Đồ thị ý niệm mở rộng. 12
    2.3 Tìm kiếm thực thể và tài liệu. 13
    2.3.1 Câu truy vấn SeRQL [8] 13
    2.3.2 Semantic Lucene. 14
    CHƯƠNG 3 PHÂN TÍCH VẤN ĐỀ VÀ PHƯƠNG PHÁP GIẢI QUYẾT 16
    3.1 Phương pháp chuyển đổi câu truy vấn sang đồ thị ý niệm 16
    3.2 Xử lý câu truy vấn thông thường. 17
    3.3 Xử lý câu truy vấn có từ để hỏi là “How many”. 19
    3.4 Xử lý câu truy vấn có liên từ luận lý. 21
    3.5 Xử lý câu truy vấn có tính từ. 22
    3.6 Xử lý câu truy vấn có tính từ so sánh nhất 24
    3.7 Xử lý câu truy vấn có tính từ định lượng so sánh hơn. 25
    CHƯƠNG 4 THIẾT KẾ 27
    4.1 Kiến trúc toàn bộ hệ thống. 27
    4.2 Chi tiết các bước của giải thuật 29
    4.2.1 Nhận biết các thành phần của câu truy vấn. 29
    4.2.2 Phân tách câu truy vấn. 30
    4.2.3 Xác định lớp của thực thể. 30
    4.2.4 Gom các thực thể. 31
    4.2.5 Xác định quan hệ ẩn. 31
    4.2.6 Xác định loại quan hệ giữa các thực thể. 32
    4.2.7 Xoá bỏ quan hệ không phù hợp. 35
    4.2.8 Xác định quan hệ giữa tính từ và thực thể. 36
    4.2.9 Xây dựng đồ thị ý niệm 39
    4.2.10 Xây dựng câu truy vấn SeRQL 39
    CHƯƠNG 5 HIỆN THỰC 40
    5.1 Các khối xử lý và giao diện các lớp quan trọng. 40
    5.1.1 Ứng dụng web phía Client 40
    5.1.2 Hệ thống xử lý trên server 40
    5.2 Hệ thống luật 44
    5.2.1 Cấu trúc của hệ thống luật 45
    5.2.2 Cấu trúc thành phần điều kiện của luật 45
    5.2.3 Cấu trúc thành phần hành động của luật 46
    5.2.4 Xây dựng một số luật đặc biệt 47
    5.3 Lưu trữ và hiển thị đồ thị 47
    5.4 Xây dựng câu truy vấn SeRQL 49
    CHƯƠNG 6 THỬ NGHIỆM . 53
    6.1 Môi trường thử nghiệm 53
    6.2 Kết quả thực nghiệm 54
    CHƯƠNG 7 KẾT LUẬN 57
    7.1 Kết quả đạt được. 57
    7.2 Các vấn đề còn tồn tại 58
    7.3 Hướng phát triển. 58
    TÀI LIỆU THAM KHẢO 59
    PHỤ LỤC A: TẬP CÂU MẪU TREC 2002. 60

    CHƯƠNG 1
    TỔNG QUAN 1.1Giới thiệu Kể từ khi ra đời đến nay, World Wide Web (WWW) đã làm thay đổi rất nhiều cách con người trao đổi và tiếp cận với thông tin, tri thức. Và đối với nền kinh tế tri thức hiện nay, tầm quan trọng của WWW càng lớn hơn. Điều đó đặt ra yêu cầu là: phải làm sao để quá trình khai thác tri thức từ WWW đạt được hiệu suất tối ưu. Muốn vậy, một giải pháp là phải tự động hóa được quá trình đó; nói cách khác, máy móc phải có khả năng khai thác thông tin trên WWW với một độ chính xác cao.
    Hiện nay, đã có những công cụ phần mềm nhắm đến mục tiêu đó. Nổi bật nhất có lẽ là các động cơ tìm kiếm dựa trên từ khóa (keyword – based search engine), như động cơ tìm kiếm của Google, Yahoo, . Tuy đã đạt được những thành công nhất định, nhưng các hệ thống này còn có những khuyết điểm làm cho người sử dụng chưa được hài lòng. Có thể nêu ra như:


    Kết quả trả về cho một truy vấn là nhiều, nhưng độ chính xác lại thấp. Người dùng phải tốn nhiều thời gian với những kết quả không thích hợp.
    Kết quả trả về hoàn toàn phụ thuộc vào từ khóa được cung cấp. Trong khi, theo mong muốn của con người, thì các truy vấn tương tự nhau về mặt ngữ nghĩa phải dẫn đến những kết quả như nhau.
    Do công cụ tìm kiếm chủ yếu chỉ so trùng, mà chưa “hiểu” được nội dung của thông tin chứa trên WWW và nội dung của câu truy vấn, nên dẫn đến những hạn chế trên.
    Như vậy, để làm tăng hiệu quả của quá trình tìm kiếm tự động, một hướng tiếp cận là làm cho máy tính “hiểu” được nội dung của thông tin: thông tin được lưu trữ trên WWW và thông tin trong câu truy vấn của người dùng.
    Đề tài này quan tâm đến khía cạnh giúp cho máy tính hiểu được nội dung của câu truy vấn dùng ngôn ngữ tự nhiên là tiếng Anh. Nhìn chung, việc hướng dẫn cho máy tính xử lý 1 câu truy vấn bằng ngôn ngữ tự nhiên (bất kỳ) nhằm hiểu được ý nghĩa là khá phức tạp, có thể liệt kê ra một số khó khăn:


    Ngữ pháp của ngôn ngữ tự nhiên rất đa dạng, cách sử dụng rất linh hoạt. Và một câu có thể có nhiều ngữ pháp phù hợp (mặc dù đối với con người sẽ không có nghĩa). Dẫn đến không thể chỉ dựa vào cấu trúc của câu để xác định ngữ nghĩa.
    Cùng một từ nhưng có thể ứng với nhiều từ loại (danh từ, động từ, .). Muốn hiểu đúng phải xác định đúng loại từ. Lấy ví dụ: “Time flies like an arrow”. “Time” và “flies” có ít nhất 2 cách hiểu có ý nghĩa: “Time” làm danh từ và “flies” làm động từ, hay “Time” làm động từ và “flies” làm danh từ.
    Phải giải quyết sự đa hình của từ (morphology) nếu muốn nhận biết đầy đủ các thành phần của câu. Ví dụ như động từ “fly” có thể có dạng “flies”, “flying”, “flew”.
    Việc xác định quan hệ ngữ nghĩa giữa các đối tượng trong câu đòi hỏi phải có tri thức về các mối quan hệ phù hợp giữa các đối tượng. Và phải xem xét ngữ cảnh của câu để chọn ra quan hệ phù hợp nhất.
    Câu có thể hàm chứa những mối quan hệ ngầm giữa các đối tượng, mà không được biểu hiện ra bằng các từ ngữ biểu diễn quan hệ, vì các mối liên hệ này được con người ngầm thỏa thuận trên một nền tảng kiến thức chung.
    Một cách thường xuyên, câu truy vấn bằng ngôn ngữ tự nhiên không chặt về ngữ pháp, mà thường được dùng ở dạng thông dụng không “chuẩn” ngữ pháp.
    Tuy có nhiều khó khăn như đã kể trên, nhưng hiện nay các nhóm nghiên cứu về lĩnh vực web ngữ nghĩa đã đạt được những tiến bộ đáng kể. Và việc xây dựng một động cơ tìm kiếm theo ngữ nghĩa là khả thi, có thể thành công với những câu truy vấn không quá phức tạp. Vì vậy, đề tài này sẽ ứng dụng các thành tựu đó để xây dựng một động cơ tìm kiếm cho phép người dùng truy vấn bằng ngôn ngữ tự nhiên, và trả về tài liệu chứa nội dung cần tìm.
    1.2Mục tiêu phạm vi Liên quan đến mục tiêu tạo ra một công cụ tìm kiếm dựa trên nền tảng Web ngữ nghĩa, đã có nhiều nghiên cứu được biết đến. Các nghiên cứu này sử dụng nhiều hình thức khác nhau cho câu truy vấn đầu vào [2], như:


    Hình thức đồ thị: người sử dụng thao tác trực tiếp trên đồ thị để thực hiện truy vấn.
    Hình thức mẫu câu được dựng sẵn: người sử dụng sẽ lựa chọn trong số những mẫu câu truy vấn được xây dựng sẵn, lưu trong hệ thống, để thực hiện truy vấn.
    Từ khóa bằng ngôn ngữ tự nhiên.
    Hình thức câu đầy đủ: người sử dụng đưa và một câu ngôn ngữ tự nhiên bất kỳ để thực hiện truy vấn.
    Các hình thức biểu diễn này, nếu càng gần với ngôn ngữ tự nhiên thì lại càng khó xử lý đối với máy tính. Tuy nhiên, nếu càng gần với ngôn ngữ tự nhiên thì càng dễ tiếp cận đối với người sử dụng. Hiển nhiên, người sử dụng mong muốn nhất là cho phép nhập vào một câu truy vấn dùng ngôn ngữ tự nhiên.
    Về phương pháp biên dịch câu truy vấn ngôn ngữ tự nhiên, toát lên từ các nghiên cứu là 2 hướng tiếp cận:


    Phân tích cú pháp: cách này dựa vào việc phân tích cú pháp của câu truy vấn để dịch ra ngôn ngữ khác mà máy tính hiểu được. Vì vậy phụ thuộc rất chặt vào cú pháp, bất kỳ lỗi cú pháp nào cũng dẫn đến biên dịch thất bại. Ngoài ra, sẽ khó khăn khi chuyển đổi, sử dụng ngôn ngữ đầu vào khác [2].
    Dịch theo cách ít phụ thuộc vào cú pháp: linh động hơn khi có lỗi cú pháp hoặc khi phải chuyển đổi ngôn ngữ đầu vào. Ngoài ra, rút ngắn được thời gian xử lý [2].

    Từ cái nhìn trên, hệ thống tìm kiếm mà đề tài này xây dựng sẽ nhận dữ liệu đầu vào là một câu truy vấn bằng tiếng Anh, là ngôn ngữ sử dụng bởi quốc tế. Hệ thống, sau khi xử lý bằng phương pháp ít phụ thuộc vào cú pháp, sẽ trả về tài liệu chứa thông tin được tìm kiếm hoặc trả về số liệu được yêu cầu (lúc này không sử dụng chức năng tìm kiếm mà chỉ đưa ra số liệu trả lời). Đồng thời, để giúp người dùng kiểm tra liệu cách “hiểu” câu truy vấn của hệ thống có đúng hay không, hệ thống cũng vẽ ra đồ thị ý niệm tương ứng với câu truy vấn đã nhận vào.
    Một hệ thống như vậy nếu xây dựng mới hoàn toàn sẽ đòi hỏi rất nhiều thời gian và công sức. Vì vậy, đề tài sẽ dựa trên hệ thống tìm kiếm ngữ nghĩa cho tiếng Việt (VN-KIM Search) có sẵn [1], tái sử dụng nhiều mô-đun không phụ thuộc vào ngôn ngữ, như mô-đun chú giải, đánh chỉ mục, gom cụm, truy xuất tài liệu, chỉ tập trung làm mới mô-đun xử lý câu truy vấn.
    Hệ thống sẽ bảo đảm được khả năng xử lý những câu truy vấn tiếng Anh đơn giản, chỉ bao gồm danh từ, động từ, từ để hỏi và giới từ. Ví dụ như câu truy vấn: “What actress starred in ‘The Lion in Winter’ ?”. Đây là khả năng mà hiện nay VN-KIM Search đã làm được cho tiếng Việt.
    Luận văn không chỉ dừng lại ở những câu truy vấn đơn giản như ví dụ trên, mà còn nhắm đến mục tiêu trả lời được những câu truy vấn phức tạp hơn. Đó là câu truy vấn có liên từ luận lý, tính từ định tính, tính từ định lượng, tính từ so sánh nhất, và lượng từ. Lấy ví dụ như các câu truy vấn sau:


    “Who was biographer and Samuel Johnsons's friend?” chứa liên từ luận lý.
    “What famous model was married to Billy Joel?” chứa tính từ định tính.
    “What are the old university in the US?” chứa tính từ định lượng.
    “What is the highest dam in the U.S.?” chứa tính từ so sánh nhất.
    “How many films did Ingmar Bergman make?” chứa lượng từ.
    Hiện đã có nghiên cứu của nhóm VN-KIM để biên dịch những câu truy vấn dạng này từ ngôn ngữ tự nhiên sang đồ thị ý niệm. Luận văn này sẽ ứng dụng thành quả nghiên cứu đó.
    Hiện nay, mô-đun nhận biết thực thể của VN-KIM Search không thể dùng cho tiếng Anh. Nên, ở bước nhận biết thực thể, đề tài sẽ sử dụng công cụ sẵn có, và giả sử là quá trình này hoàn toàn chính xác. Đề tài cũng không giải quyết vấn đề về quan hệ 3 ngôi trong [3], vì việc đó liên quan tới việc mở rộng, “làm mịn” Ontology, là một bài toán khác.

    1.3Kết quả đạt được Đề tài đã xây dựng được 1 hệ thống tìm kiếm dựa trên ngữ nghĩa cho tiếng Anh, với các dạng câu truy vấn như đã trình bày ở trên.
    Đồng thời, mở rộng thêm một số khả năng khi xử lý những câu truy vấn dạng phức tạp. Đầu tiên là khả năng đề xuất đồ thị ý niệm khả áp dụng ngay cả khi quan hệ với tính từ trong câu truy vấn không có trong cơ sơ tri thức. Mục đích là làm ta có thể đánh giá tính chính xác của quá trình “hiểu” câu truy vấn của hệ thống mà không bị quá lệ thuộc vào cơ sơ tri thức. Ví dụ như sau:
     

    Các file đính kèm:

Đang tải...