Thạc Sĩ Nghiên cứu mô hình tổ chức và kỹ thuật tìm kiếm có ngữ nghĩa trên kho tài nguyên học tập lĩnh vực cô

Thảo luận trong 'Khoa Học Tự Nhiên' bắt đầu bởi Bích Tuyền Dương, 28/11/12.

  1. Bích Tuyền Dương

    Bài viết:
    2,590
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỞ ĐẦU

    Hiện nay, việc tổ chức một kho tài liệu học tập về một chuyên ngành, một lĩnh vực đặc biệt như CNTT với chức năng tìm kiếm liên quan đến thông tin tri thức hay nội dung tài liệu là một nhu cầu cấp thiết trong thực tiễn của việc giảng dạy, học tập và nghiên cứu. Đã có một số công trình liên quan đến vấn đề tổ chức quản lý và xử lý tìm kiếm theo nội dung. Tuy nhiên những kết quả đạt được vẫn còn hạn chế và chưa đủ để đáp ứng cho nhu cầu khai thác thông tin của người sử dụng. Các giải pháp cũng như công nghệ phổ biến hiện này cũng đã có nhiều hỗ trợ cho các giải pháp và ứng dụng quản lý tài nguyên học tập, nhưng còn chủ yếu ở mức xử lý dữ liệu. Do đó vẫn chưa đủ khả năng diễn giải, kết hợp tài nguyên theo ngữ nghĩa nội dung hay tri thức liên quan. Vì thế các tính năng của hệ thống chưa đủ đáp ứng các yêu cầu sử dụng ngày càng cao, đặc biệt là việc tổ chức và xử lý tích hợp dữ liệu, thông tin và tri thức. Các hệ thống tìm kiếm thông tin hiện nay phần lớn vẫn dựa trên từ khóa và mức độ phổ biến của tài liệu. Một danh sách các từ khóa là dạng biểu diễn sơ lược nhất của nội dung và cách biểu diễn này mang mức độ thông tin thấp nhất. Vấn đề khó khăn đối với người sử dụng là ở khả năng mô tả nhu cầu thông tin bằng một số từ khóa biểu diễn và chuyển nhu cầu này thành dạng thức truy vấn phù hợp với hệ thống. Đặc biệt đối với người sử dụng ít kinh nghiệm không thể đặc tả đúng từ khóa cho vấn đề cần tìm kiếm. Đó chính là những lý do cơ bản khiến cho các hệ thống tìm kiếm hiện nay có kết quả trả về không phải lúc nào cũng thỏa mãn yêu cầu của người sử dụng, như là độ chính xác không cao hay không tìm thấy được những tài liệu liên quan khi chúng được mô tả với những từ khóa khác đồng nghĩa hoặc gần nghĩa với từ khóa mà người dùng cung cấp. Từ những mô hình tìm kiếm đơn giản ban đầu như Boolean, nhiều tác giả đã nỗ lực cải thiện hiệu quả của việc tìm kiếm thông qua các mô hình phức tạp hơn như mô hình không gian vector (Vector Space Model), các mô hình xác suất (Probabilitic Models), mô hình ngôn ngữ (Language Model). Nhiều nghiên cứu khác nhằm nỗ lực thay đổi cách đánh trọng số, đưa vào xử lý ngôn ngữ tự nhiên, khử nhập nhằng, mở rộng tài liệu, mở rộng câu truy vấn cũng góp phần làm tăng hiệu quả tìm kiếm. Mặc dù có nhiều cải tiến để cải thiện kết quả, những hạn chế của việc sử dụng từ khóa vẫn chưa được khắc phục.
    Hiện nay, trong lĩnh vực của khoa học máy tính có một sự chuyển hướng dần đến hướng tri thức hoặc xử lý ngữ nghĩa. Theo đó, những hệ thống tìm kiếm dựa trên khái niệm được nghiên cứu phát triển nhằm thay thế cho những hệ thống truyền thống vốn đã bộc lộ nhiều khuyết điểm lớn. Việc tìm kiếm sẽ dựa trên không gian các khái niệm và các mối quan hệ ngữ nghĩa giữa chúng. Những cách tiếp cận theo hướng ngữ nghĩa hay theo cấu trúc khái niệm này hướng tới việc mô phỏng một cách tự nhiên cách con người giao tiếp, nghĩa là mô phỏng cấp độ hiểu về ý nghĩa của từ, cụm từ hay văn bản mà người dùng cung cấp tương ứng với những gì người dùng nghĩ. Trong đó, cách tiếp cận dựa trên các ontology được xem là cách tiếp cận hiện đại và phù hợp nhất cho việc thiết kế biểu diễn, xử lý nội dung và ý nghĩa của các tài liệu của con người. Bên cạnh đó, nhiều mô hình biểu diễn cho tài liệu giàu ngữ nghĩa hơn cũng được đề xuất như mạng ngữ nghĩa, đồ thị khái niệm CGs, đồ thị hình sao, đồ thị tần số, đồ thị khoảng cách, đồ thị song phương, được đánh giá có nhiều tiềm năng vì tận dụng được các thông tin quan trọng về cấu trúc và các mối quan hệ ngữ nghĩa vốn không được xét đến trong các mô hình biểu diễn truyền thống.
    Xuất phát từ nhu cầu thực tế và khả năng nghiên cứu phát triển giải pháp cũng như ứng dụng, chúng tôi đã nghiên cứu xây dựng một giải pháp tổng thể, mang tính hệ thống cho việc quản lý kho tài nguyên học tập về một chuyên ngành, một lĩnh vực đặc biệt như CNTT theo ngữ nghĩa, bao gồm các mô hình, vấn đề, thuật giải, kỹ thuật, qui trình để tổ chức một kho tài liệu văn bản trong đó cố gắng quản lý được các thông tin ngữ nghĩa liên quan đến nội dung của tài liệu cũng như hỗ trợ biểu diễn và xử lý ngữ nghĩa trong tìm kiếm. Ứng dụng các giải pháp được nghiên cứu để xây dựng một hệ thống quản lý kho tài nguyên học tập về lĩnh vực CNTT trong phạm vi của một trường đại học với khả năng tìm kiếm dựa trên tri thức của lĩnh vực hay theo ngữ nghĩa phục vụ cho các đối tượng là người học, người dạy và kể cả những người quản lý. Ứng dụng đã được cài đặt, thử nghiệm tại trường đại học Công nghệ thông tin Thành phố Hồ Chí Minh. Kết quả thực nghiệm bước đầu cho thấy giải pháp đã đề xuất là khả quan và có khả năng ứng dụng tốt.
    Nội dung của luận văn được trình bày trong 6 chương, bao gồm:
    Chương 1 giới thiệu tổng quan về đề tài bao gồm các khảo sát về thực trạng ứng dụng CNTT trong tổ chức lưu trữ và khai thác tài nguyên học tập điện tử của các hệ thống giáo dục trong và ngoài nước; giới thiệu và khảo sát các hệ thống tìm kiếm thông tin; phân tích đánh giá thực trạng, nhu cầu và khả năng nghiên cứu phát triển giải pháp cũng như ứng dụng; trình bày mục tiêu, giới hạn của đề tài, ý nghĩa lý luận và thực tiễn, phương pháp nghiên cứu, hướng tiếp cận giải quyết vấn đề và nội dung thực hiện của đề tài.
    Chương 2 trình bày cơ sở l ý thuyết của đề tài liên quan đến vấn đề truy hồi thông tin (bao gồm định nghĩa, mô tả cấu trúc và phân loại các hệ thống tìm kiếm thông tin, các phương pháp và mô hình tìm kiếm), vấn đề biểu diễn ngữ nghĩa của tài liệu, các lý thuyết nền tảng về Ontology cùng với các phương pháp và kỹ thuật tính khoảng cách ngữ nghĩa giữa các khái niệm.
    Chương 3 – Mô hình và giải pháp: Chương này đề xuất các mô hình gồm một mô hình ontology mô tả tri thức về một lĩnh vực đặc biệt trong đó sử dụng keyphrase là thành phần chính để hình thành các khái niệm của ontology; một mô hình đồ thị keyphrase biểu diễn ngữ nghĩa cho các tài liệu văn bản hay câu truy vấn người dùng; một mô hình tổ chức lưu trữ kho tài liệu gọi là mô hình Semantic Document Base (SDB). Ngoài ra trong chương này cũng giới thiệu qui trình xây dựng ontology cho lĩnh vực CNTT và cách thức tổ chức lưu trữ cơ sở về các tài liệu theo mô hình SDB trên máy tính.
    Chương 4 – Các vấn đề và thuật toán: Trong chương này sẽ thiết kế các xử lý cơ bản trên các đối tượng như ontology, đồ thị keyphrase và kho tài liệu, đề xuất một số phương pháp và kỹ thuật điều khiển giúp so khớp các đồ thị keyphrase, tính toán độ tương quan ngữ nghĩa giữa tài liệu và câu truy vấn, phân loại tài liệu theo hệ thống thư mục qui chuẩn, xây dựng tự động đồ thị keyphrase từ mỗi tài liệu, kỹ thuật xử lý tìm kiếm theo ngữ nghĩa của các tài liệu. Từ đó làm cơ sở cho việc xây dựng các động cơ suy diễn và tìm kiếm trong hệ thống quản lý kho tài nguyên nói chung và quản lý kho tài liệu học tập lĩnh vực CNTT nói riêng.
    Chương 5 – Cài đặt ứng dụng: Xây dựng ứng dụng thử nghiệm là một hệ thống quản lý kho tài nguyên học tập về lĩnh vực CNTT (giới hạn trong phạm vi kho tài liệu tiếng Anh) trong phạm vi của một trường đại học với yêu cầu sử dụng bao gồm các tác vụ chính là tổ chức lưu trữ, quản lý và tìm kiếm. Hệ thống cho phép tra cứu, tìm kiếm tài liệu trong kho lưu trữ theo nhiều chức năng như dựa trên từ khóa và trên CSDL lưu trữ, tìm kiếm theo hệ thống thư mục phân cấp, tìm kiếm dựa trên tri thức của lĩnh vực hay theo ngữ nghĩa. Tiến hành thực nghiệm, so sánh và đánh giá kết quả trên các mẫu ví dụ cụ thể.
    Chương 6 – Kết luận và hướng phát triển: Tổng kết những kết quả đạt được, tóm tắt lại các vấn đề đã đặt ra trong luận văn và cách giải quyết, những đóng góp mới và những đề xuất mới về một số hướng phát triển của đề tài trong tương lai.
    Cuối cùng là danh mục các bài báo có liên quan đến luận văn, danh mục các tài liệu tham khảo và phần phụ lục.

    MỤC LỤC

    Trang phụ bìa . ii
    Lời cảm ơn . iii
    Mục lục . iv
    Danh mục các hình vẽ, đồ thị . vii
    Danh mục các bảng ix
    Danh mục các ký hiệu, chữ viết tắt x
    MỞ ĐẦU xi
    Chương 1 – GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI 1
    1.1. Đặt vấn đề . 1
    1.1.1. Thực trạng và nhu cầu xây dựng hệ quản lý kho tài nguyên học tập hướng
    ngữ nghĩa . 1
    1.1.2. Tìm hiểu và so sánh một số công cụ tìm kiếm và hệ thống quản lý tài nguyên
    thông dụng hiện nay 2
    1.1.3. Vấn đề truy tìm thông tin và biểu diễn ngữ nghĩa . 6
    1.1.4. Mô tả kho tài nguyên học tập 9
    1.2. Mục tiêu và giới hạn của đề tài 10
    1.3. Ý nghĩa của đề tài . 11
    1.4. Phương pháp nghiên cứu 12
    1.5. Nội dung thực hiện . 13
    Chương 2 – CƠ SỞ LÝ THUYẾT . 15
    2.1. Vấn đề truy tìm thông tin 15
    2.1.1. Cấu trúc của một hệ thống tìm kiếm thông tin 15
    2.1.2. Hệ thống tìm kiếm thông tin dựa trên khái niệm 17
    2.1.3. Các phương pháp truy hồi thông tin 20
    v
    2.1.4. Đánh giá một hệ thống tìm kiếm thông tin 32
    2.2. Ontology . 33
    2.2.1. Định nghĩa . 34
    2.2.2. Các thành phần của ontology 35
    2.2.3. Phân loại ontology . 36
    2.2.4. Vai trò của ontology 37
    2.2.5. Các ứng dụng dựa trên ontology . 39
    2.2.6. Các hướng tiếp cận xây dựng ontology . 40
    2.3. Các phương pháp tính khoảng cách ngữ nghĩa giữa các khái niệm . 42
    Chương 3 – MÔ HÌNH VÀ GIẢI PHÁP . 51
    3.1. Mô hình ontology . 51
    3.1.1. Mô hình ontology cho ngữ nghĩa của các tài liệu . 53
    3.1.2. Qui trình xây dựng ontology cho lĩnh vực CNTT . 66
    3.2. Mô hình biểu diễn tài liệu văn bản . 71
    3.2.1. Vấn đề biểu diễn văn bản 71
    3.2.2. Mô hình hóa tài liệu thành đồ thị 72
    3.3. Mô hình Semantic Document Base - SDB 78
    3.4. Tổ chức lưu trữ cơ sở về các tài liệu theo mô hình SDB . 84
    3.4.1. Các thành phần 84
    3.4.2. Cấu trúc cây thư mục phân cấp trên HĐH 85
    3.4.3. Cấu trúc các tập tin lưu trữ các thành phần trong mô hình SDB 87
    Chương 4 – CÁC VẤN ĐỀ VÀ THUẬT GIẢI . 94
    4.1. So khớp đồ thị keyphrase và đo lường mức độ tương quan về ngữ nghĩa . 95
    4.1.1. Tính toán và so khớp các đồ thị keyphrase . 97
    4.1.2. Thuật toán tính độ tương đồng ngữ nghĩa giữa hai keyphrase 104
    4.1.3. Thuật toán tính độ tương quan ngữ nghĩa giữa hai đồ thị keyphrase 105
    4.2. Xây dựng đồ thị keyphrase biểu diễn tài liệu . 108
    4.2.1. Rút trích tự động các keyphrase đặc trưng ngữ nghĩa của tài liệu 108
    4.2.2. Qui trình biểu diễn văn bản thành đồ thị keyphrase 111
    4.3. Xử lý câu truy vấn 116
    4.3.1. Ngôn ngữ đặc tả câu truy vấn 116
    4.3.2. Qui trình xử lý câu truy vấn 117
    4.4. Bài toán tìm kiếm theo ngữ nghĩa 118
    4.4.1. Mô hình tổng quát của hệ truy tìm tài liệu theo ngữ nghĩa . 119
    4.4.2. Thuật toán tìm kiếm theo ngữ nghĩa tổng quát . 119
    4.5. Xác định thư mục lưu trữ tài liệu . 121
    Chương 5 – CÀI ĐẶT ỨNG DỤNG . 123
    5.1. Thiết kế hệ thống . 123
    5.1.1. Mục tiêu ứng dụng . 123
    5.1.2. Yêu cầu và chức năng của hệ thống . 124
    5.1.3. Cấu trúc của hệ thống . 128
    5.2. Cài đặt hệ thống . 130
    5.2.1. Nền tảng công nghệ 130
    5.2.2. Tổ chức các giao diện . 131
    5.3. Kết quả thử nghiệm . 139
    Chương 6 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN . 144
    6.1. Kết quả của luận văn 144
    6.2. Hạn chế của đề tài 148
    6.3. Hướng phát triển 150
    DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 151
    TÀI LIỆU THAM KHẢO 152
    PHỤ LỤC . 154
     

    Các file đính kèm:

Đang tải...