Tiến Sĩ Học khái niệm cho các hệ thống thông tin dựa trên logic mô tả

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Phí Lan Dương, 30/10/15.

  1. Phí Lan Dương

    Phí Lan Dương New Member
    Thành viên vàng

    Bài viết:
    18,524
    Được thích:
    18
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC
    Lời cam đoan i
    Lời cảm ơn ii
    Mục lục iii
    Danh mục từ viết tắt v
    Danh mục các ký hiệu vi
    Danh mục bảng, biểu vii
    Danh mục hình vẽ viii
    Mở đầu 1
    Chương 1. Logic mô tả và cơ sở tri thức 7
    1.1. Tổng quan về logic mô tả 7
    1.1.1. Giới thiệu 7
    1.1.2. Ngôn ngữ logic mô tả ALC . 8
    1.1.3. Biểu diễn tri thức 11
    1.1.4. Khả năng biểu diễn . 13
    1.1.5. Logic mô tả và các tên gọi . 16
    1.2. Cú pháp và ngữ nghĩa của logic mô tả . 17
    1.2.1. Logic mô tả ALC reg . 17
    1.2.2. Ngôn ngữ logic mô tả L Σ,Φ . 18
    1.3. Các dạng chuẩn . 21
    1.3.1. Dạng chuẩn phủ định của khái niệm 21
    1.3.2. Dạng chuẩn lưu trữ của khái niệm . 22
    1.3.3. Dạng chuẩn nghịch đảo của vai trò . 23
    1.4. Cơ sở tri thức trong logic mô tả 24
    1.4.1. Bộ tiên đề vai trò 24
    1.4.2. Bộ tiên đề thuật ngữ 25
    1.4.3. Bộ khẳng định cá thể 25
    1.4.4. Cơ sở tri thức và mô hình của cơ sở tri thức . 26
    1.5. Suy luận trong logic mô tả . 29
    1.5.1. Giới thiệu 29
    1.5.2. Các thuật toán suy luận . 30
    Tiểu kết Chương 1 32
    Chương 2. Mô phỏng hai chiều trong logic mô tả và tính bất biến 33
    2.1. Giới thiệu 33
    2.2. Mô phỏng hai chiều . 34
    2.2.1. Khái niệm 34
    iii2.2.2. Quan hệ tương tự hai chiều và quan hệ tương đương . 40
    2.3. Tính bất biến đối với mô phỏng hai chiều . 42
    2.3.1. Quan hệ giữa mô phỏng hai chiều với các khái niệm và vai trò . 42
    2.3.2. Tính bất biến của khái niệm 47
    2.3.3. Tính bất biến của cơ sở tri thức 48
    2.4. Tính chất Hennessy-Milner đối với mô phỏng hai chiều . 50
    2.5. Tự mô phỏng hai chiều . 54
    Tiểu kết Chương 2 56
    Chương 3. Học khái niệm cho hệ thống thông tin trong logic mô tả 57
    3.1. Hệ thống thông tin . 57
    3.1.1. Hệ thống thông tin truyền thống 57
    3.1.2. Hệ thống thông tin dựa trên logic mô tả 58
    3.2. Học khái niệm trong logic mô tả với Ngữ cảnh (3) 61
    3.2.1. Giới thiệu bài toán . 61
    3.2.2. Bộ chọn 63
    3.2.3. Tính đơn giản của khái niệm 68
    3.2.4. Độ đo dựa trên entropy . 70
    3.2.5. Thuật toán học khái niệm trong logic mô tả với Ngữ cảnh (3) 71
    3.3. Ví dụ minh họa . 74
    3.4. Kết quả thực nghiệm 80
    Tiểu kết Chương 3 84
    Chương 4. Học khái niệm cho cơ sở tri thức trong logic mô tả 86
    4.1. Giới thiệu 86
    4.2. Phân hoạch miền của diễn dịch 88
    4.3. Học khái niệm trong logic mô tả với Ngữ cảnh (1) 91
    4.3.1. Thuật toán BBCL 91
    4.3.2. Thuật toán dual-BBCL . 94
    4.3.3. Tính đúng đắn của thuật toán BBCL . 94
    4.3.4. Ví dụ minh họa . 95
    4.4. Học khái niệm trong logic mô tả với Ngữ cảnh (2) 98
    4.4.1. Thuật toán BBCL2 . 98
    4.4.2. Tính đúng đắn của thuật toán BBCL2 . 100
    4.4.3. Ví dụ minh họa . 101
    Tiểu kết Chương 4 103
    Kết luận 104
    Danh mục các công trình của tác giả 106
    Tài liệu tham khảo 107
    ivDANH MỤC TỪ VIẾT TẮT
    Từ viết tắt Diễn giải
    ABox Assertion Box
    Bộ khẳng định cá thể
    BBCL Bisimulation-Based Concept Learning
    Học khái niệm dựa trên mô phỏng hai chiều
    CWA Close World Assumption
    Giả thiết thế giới đóng
    LCS Least Common Subsumers
    Bao hàm chung nhỏ nhất
    OWA Open World Assumption
    Giả thiết thế giới mở
    OWL Web Ontology Language
    Ngôn ngữ Web Ontology
    PAC Probably Approximately Correct
    Khả năng học chính xác
    RBox Role Box
    Bộ tiên đề vai trò
    TBox Terminology Box
    Bộ tiên đề thuật ngữ
    W3C World Wide Web Consortium
    Tổ chức tiêu chuẩn quốc tế về World Wide Web
    vDANH MỤC CÁC KÝ HIỆU
    Ký hiệu Diễn giải ý nghĩa
    A, B Các thuộc tính/tên khái niệm
    C, D Các khái niệm
    r, s Các tên vai trò đối tượng
    R, S Các vai trò đối tượng
    a, b Các cá thể
    c, d Các phần tử thuộc miền giá trị
    σ, % Các vai trò dữ liệu
    range(A) Miền giá trị của thuộc tính A
    range(σ) Miền giá trị của vai trò dữ liệu σ
    Σ, Σ

    Các tập ký tự logic mô tả
    Σ I , Σ

    I
    Các tập tên cá thể
    Σ C , Σ

    C
    Các tập tên khái niệm
    Σ A , Σ

    A
    Các tập thuộc tính
    Σ dA , Σ

    dA
    Các tập thuộc tính rời rạc
    Σ nA , Σ

    nA
    Các tập thuộc tính số
    Σ oR , Σ

    oR
    Các tập tên vai trò đối tượng
    Σ dR , Σ

    dR
    Các tập vai trò dữ liệu
    Φ, Φ

    Các tập đặc trưng của logic mô tả
    ∼ Σ†,Φ†,I Quan hệ L Σ†,Φ† -tự mô phỏng hai chiều lớn nhất trong
    diễn dịch I
    ≡ Σ†,Φ†,I Quan hệ L Σ†,Φ† -tương đương trong diễn dịch I
    Ref Khẳng định vai trò phản xạ
    Irr Khẳng định vai trò không phản xạ
    Sym Khẳng định vai trò đối xứng
    Tra Khẳng định vai trò bắc cầu
    Dis Khẳng định vai trò không giao nhau
    R Bộ tiên đề vai trò
    T Bộ tiên đề thuật ngữ
    A Bộ khẳng định cá thể
    KB Cơ sở tri thức trong logic mô tả
    viDANH MỤC BẢNG, BIỂU
    Bảng 3.1. Kết quả ước lượng trên tập dữ liệu WebKB, PokerHand và Family
    với 100 khái niệm ngẫu nhiên trong logic mô tả ALCIQ . 81
    Bảng 3.2. Kết quả ước lượng trên tập dữ liệu Family với 5 khái niệm phổ biến
    trong logic mô tả ALCI . 82
    Bảng 3.3. Kết quả ước lượng trên tập dữ liệu Poker Hand với 6 tập đối tượng
    trong logic mô tả ALCQ . 83
    viiDANH MỤC HÌNH VẼ
    Hình 1.1. Diễn dịch của logic mô tả 9
    Hình 1.2. Kiến trúc của một hệ cơ sở tri thức trong logic mô tả . 11
    Hình 1.3. Diễn dịch của các vai trò phức và khái niệm phức . 21
    Hình 1.4. Một minh họa cho cơ sở tri thức của Ví dụ 1.9 . 27
    Hình 2.1. Các diễn dịch I và I 0
    trong L Σ,Φ của Ví dụ 1.10 42
    Hình 3.1. Một minh họa cho cơ sở tri thức của Ví dụ 3.2 . 60
    Hình 3.2. Quá trình làm mịn phân hoạch của Ví dụ 3.5 . 76
    Hình 3.3. Quá trình làm mịn phân hoạch của Ví dụ 3.6 . 77
    Hình 3.4. Hệ thống thông tin tương ứng với cơ sở tri thức trong Ví dụ 3.7 . 78
    Hình 3.5. Quá trình làm mịn phân hoạch sử dụng các bộ chọn đơn giản 79
    Hình 3.6. Quá trình làm mịn phân hoạch sử dụng các bộ chọn đơn giản và mở rộng 79
    Hình 4.1. Quá trình làm mịn phân hoạch của Ví dụ 4.1 . 90
    Hình 4.2. Quá trình làm mịn phân hoạch của Ví dụ 4.2 . 91
    viiiMỞ ĐẦU
    Logic mô tả (Description Logics) là một họ các ngôn ngữ hình thức rất thích hợp
    cho việc biểu diễn và suy luận tri thức trong một miền quan tâm cụ thể [2]. Trong
    logic mô tả, miền quan tâm được mô tả thông qua các thuật ngữ về cá thể, khái niệm
    và vai trò. Một cá thể đại diện cho một đối tượng, một khái niệm đại diện cho một tập
    các đối tượng và một vai trò đại diện cho một quan hệ hai ngôi giữa các đối tượng.
    Các khái niệm phức được xây dựng từ các tên khái niệm, tên vai trò và tên cá thể
    bằng cách kết hợp với các tạo tử.
    Logic mô tả có tầm quan trọng đặc biệt trong việc cung cấp mô hình lý thuyết
    cho các hệ thống ngữ nghĩa. Nó là nền tảng cơ bản trong việc xây dựng các ngôn ngữ
    để mô hình hóa các ontology, trong đó Web Ontology Language (OWL) là ngôn ngữ
    được tổ chức tiêu chuẩn quốc tế World Wide Web Consortium (W3C) khuyến nghị
    sử dụng cho các hệ thống Web ngữ nghĩa (Semantic Web). Về cơ bản, OWL là một
    ngôn ngữ dựa trên các logic mô tả [25], [26], [27]. Phiên bản đầu tiên của OWL (được
    giới thiệu vào năm 2004) dựa trên logic mô tả SHOIN và SHOIQ [25], [27], phiên
    bản thứ hai của OWL là OWL 2 (được giới thiệu năm 2009) dựa trên logic mô tả
    SROIQ [26]. Logic mô tả SHOIN , SHOIQ và SROIQ có khả năng biểu diễn rất
    tốt nhưng lại có độ phức tạp tính toán đối với các thuật toán suy luận rất cao (tương
    ứng là NExpTime -đầy đủ cho SHOIN , SHOIQ và NExpTime -khó cho SROIQ)
    và độ phức tạp dữ liệu cũng cao ( NP -khó) đối với những bài toán suy luận cơ bản.
    Do vây, W3C khuyến khích nên sử dụng OWL 2 EL, OWL 2 QL và OWL 2 RL, là
    những ngôn ngữ con của OWL 2 Full với độ phức tạp dữ liệu đa thức tương ứng với
    miền quan tâm, để xây dựng các ontology cho Web ngữ nghĩa.
    Web ngữ nghĩa là một lĩnh vực đang phát triển rất nhanh và nhận được sự quan
    tâm của cộng đồng nghiên cứu trong thập niên vừa qua. Công nghệ Web ngữ nghĩa
    đang được áp dụng vào nhiều lĩnh vực khác nhau trong thực tế như: tin sinh học, tin
    học trong y tế, trình duyệt web ngữ nghĩa, quản trị tri thức, kỹ nghệ phần mềm, .
    Một trong các tầng cơ bản và đóng vai trò quan trọng trong Web ngữ nghĩa là ontology
    - thành phần được sử dụng để biểu diễn tri thức và suy luận cho Web ngữ nghĩa.
    Xây dựng ontology cho các hệ thống Web ngữ nghĩa và đặc tả các khái niệm phù
    hợp là một trong những vấn đề rất được quan tâm trong công nghệ ontology. Do vậy,
    bài toán đặt ra là cần tìm được các khái niệm quan trọng và xây dựng được định nghĩa
    1cho các khái niệm đó. Học khái niệm trong logic mô tả nhằm mục đích kiểm tra, suy
    luận và tìm ra được các khái niệm này phục vụ cho các ứng dụng cụ thể.
    Vấn đề học khái niệm trong logic mô tả tương tự như phân lớp nhị phân trong học
    máy truyền thống. Tuy nhiên, việc học khái niệm trong ngữ cảnh logic mô tả khác với
    học máy truyền thống ở điểm, các đối tượng không chỉ được đặc tả bằng các thuộc
    tính mà còn được đặc tả bằng các mối quan hệ giữa các đối tượng. Các mối quan hệ
    này là một trong những yếu tố làm giàu thêm ngữ nghĩa của hệ thống huấn luyện.
    Do đó, các phương pháp học khái niệm trong logic mô tả cần phải tận dụng được
    chúng như là một lợi thế.
    Thông qua việc khảo sát các công trình [4], [17], [32], [35], [15], [16], [36], [44], chúng
    tôi khái quát vấn đề học khái niệm trong logic mô tả theo ba ngữ cảnh chính như sau:
    ã Ngữ cảnh (1): Cho cơ sở tri thức KB trong logic mô tả L Σ,Φ và các tập các cá
    thể E + , E
    ư
    . Học khái niệm C trong L Σ,Φ sao cho:
    1. KB |= C(a) với mọi a ∈ E + , và
    2. KB |= ¬C(a) với mọi a ∈ E
    ư
    .
    trong đó, tập E + chứa các mẫu dương và E
    ư
    chứa các mẫu âm của C.
    ã Ngữ cảnh (2): Ngữ cảnh này khác với ngữ cảnh đã đề cập ở trên là điều kiện
    thứ hai được thay bằng một điều kiện yếu hơn:
    1. KB |= C(a) với mọi a ∈ E + , và
    2. KB 6|= C(a) với mọi a ∈ E
    ư
    .
    ã Ngữ cảnh (3): Cho một diễn dịch I và các tập các cá thể E + , E
    ư
    . Học khái
    niệm C trong logic mô tả L Σ,Φ sao cho:
    1. I |= C(a) với mọi a ∈ E + , và
    2. I |= ¬C(a) với mọi a ∈ E
    ư
    .
    Chú ý rằng I |= ¬C(a) tương đồng với I 6|= C(a).
    Mô tả chi tiết của các ngữ cảnh được trình bày trong các chương tiếp theo, trong
    đó Ngữ cảnh (1) được trình bày trong Mục 3.2, Ngữ cảnh (2) được trình bày trong
    Mục 4.3 và Ngữ cảnh (3) được trình bày trong Mục 4.4.
    Học khái niệm trong logic mô tả đã được nhiều nhà khoa học quan tâm nghiên
    cứu và chia thành ba hướng tiếp cận chính. Hướng tiếp cận thứ nhất tập trung vào
    khả năng học trong logic mô tả [10], [11], [19] và xây dựng một số thuật toán đơn giản
    2liên quan [51], [11], [19], [33]. Hướng tiếp cận thứ hai nghiên cứu học khái niệm trong
    logic mô tả bằng cách sử dụng các toán tử làm mịn (refinement operators) [4], [17], [32],
    [35], [15], [16], [36]. Hướng tiếp cận thứ ba khai thác mô phỏng hai chiều (bisimulation)
    cho bài toán học khái niệm trong logic mô tả [44].
    Quinlan nghiên cứu việc học các định nghĩa của mệnh đề Horn từ các dữ liệu được
    biểu diễn thông qua các quan hệ và đề xuất thuật toán học Foil [51]. Cohen và Hirsh
    nghiên cứu lý thuyết về khả năng học (Probably Approximately Correct - PAC) trong
    logic mô tả và đề xuất thuật toán học khái niệm LCSLearn dựa trên các “bao hàm
    chung nhỏ nhất” (least common subsumers) [10], [11]. Frazier và Pitt đã nghiên cứu
    về khả năng học trong logic mô tả Classic bằng cách sử dụng các truy vấn trên mô
    hình học PAC [19]. Lambrix và Larocchia đã đề xuất một thuật toán học khái niệm
    đơn giản dựa trên việc chuẩn hóa khái niệm và lựa chọn khái niệm thông qua các thể
    hiện của dạng chuẩn hóa [33].
    Trong hướng tiếp cận thứ hai, Badea và Nienhuys-Cheng nghiên cứu học khái niệm
    trong logic mô tả ALER bằng cách sử dụng toán tử làm mịn như trong lập trình logic
    đệ quy [4]. Các tác giả đã giới thiệu một số tính chất của toán tử làm mịn và sử dụng
    chúng để thực hiện tìm kiếm theo chiến lược từ trên xuống. Iannone và cộng sự cũng
    nghiên cứu các thuật toán học bằng cách sử dụng toán tử làm mịn nhưng trên một
    logic mô tả giàu ngữ nghĩa hơn, logic mô tả ALC. Ý tưởng chính của các thuật toán
    này là tìm và loại bỏ những phần của khái niệm dẫn đến lỗi về phân loại [32]. Cả hai
    công trình trên đều nghiên cứu việc học khái niệm trong logic mô tả với Ngữ cảnh (1).
    Fanizzi cùng các cộng sự nghiên cứu toán tử làm mịn trên xuống trong logic mô
    tả ALN [17] và xây dựng hệ thống DL-Foil [15] cho việc học khái niệm trong logic
    mô tả hỗ trợ ngôn ngữ OWL. Các tác giả đã sử dụng kỹ thuật học bán giám sát với
    dữ liệu không gán nhãn. Các thành phần chính của hệ thống sử dụng tập các toán tử
    làm mịn tương tự như trong công trình của Badea và Nienhuys-Cheng [4].
    Lehmann và Hitzler đề xuất thuật toán học DL-Learner theo phương pháp lập
    trình đệ quy và có khai thác thêm các kỹ thuật về lập trình di truyền [35], [36]. Các
    công trình này nghiên cứu việc học khái niệm trong logic mô tả với Ngữ cảnh (2).
    Ngoài việc sử dụng các toán tử làm mịn, các hàm tính điểm và chiến lược tìm kiếm
    cũng đóng vai trò quan trọng đối với các thuật toán đã được đề xuất trong những
    công trình nêu trên [4], [32], [35], [15], [36].
    Hướng tiếp cận thứ ba sử dụng mô phỏng hai chiều trong logic mô tả [12], [44], [14].
    Nguyen và Sza las đã áp dụng mô phỏng hai chiều vào trong logic mô tả để mô hình
    hóa tính không phân biệt được của các đối tượng [44]. Dựa trên tự mô phỏng hai chiều
    3lớn nhất, các tác giả đã đề xuất một phương pháp tổng quát để học khái niệm cho
    các hệ thống thông tin trong logic mô tả. Đây là công trình tiên phong trong việc sử
    dụng mô phỏng hai chiều cho việc giải quyết bài toán trên. Divroodi [12] và cộng sự
    đã nghiên cứu khả năng học trong logic mô tả sử dụng mô phỏng hai chiều. Các công
    trình này nghiên cứu bài toán học khái niệm trong logic mô tả với Ngữ cảnh (3).
    Ngoại trừ công trình của Nguyen và Sza las [44], Divrooodi [12] sử dụng mô phỏng
    hai chiều trong logic mô tả để hướng dẫn việc tìm kiếm khái niệm kết quả. Tất cả các
    công trình nghiên cứu còn lại [51], [11], [33], [4], [32], [17], [15], [35], [16], [36] đều sử dụng
    toán tử làm mịn như trong lập trình logic đệ quy và/hoặc các chiến lược tìm kiếm dựa
    vào các hàm tính điểm mà không sử dụng mô phỏng hai chiều. Các công trình này
    chủ yếu tập trung vào vấn đề học khái niệm với Ngữ cảnh (1) và Ngữ cảnh (2) trên
    các logic mô tả khá đơn giản ALER, ALN và ALC. Việc nghiên cứu học khái niệm
    trong các logic mô tả phức tạp hơn như ALCN , ALCQ, ALCIQ, SHIF, SHIQ,
    SHOIN , SHOIQ, SROIQ, . với các ngữ cảnh khác nhau chưa được các công
    trình trên đề cập đến vì còn gặp nhiều vấn đề khó khăn về mặt kỹ thuật đối với các
    toán tử làm mịn. Trong công trình [44], Nguyen và Sza las đã sử dụng mô phỏng hai
    chiều cho việc học khái niệm trong các logic mô tả chỉ với Ngữ cảnh (3) nhưng không
    đề cập đến các thuộc tính và vai trò dữ liệu trong hệ thống thông tin cũng như các
    đặc trưng quan trọng của logic mô tả như: F (tính chất hàm), N (hạn chế số lượng
    không định tính). Do không đề cập đến các thuộc tính và vai trò dữ liệu nên lớp các
    logic mô tả này không thể biểu diễn những hệ thống thông tin có chứa thuộc tính số
    và thuộc tính đa trị cũng như không giải quyết tốt những bài toán trong các logic mô
    tả SHIF, SHIN , SHOIN , . Trong công trình [12], Divroodi và các cộng sự chỉ
    nghiên cứu về mô phỏng hai chiều và áp dụng để giải quyết bài toán khả năng học
    trong logic mô tả với Ngữ cảnh (3). Hai công trình trên không đề cập đến vấn đề học
    khái niệm trong logic mô tả với Ngữ cảnh (1) và Ngữ cảnh (2).
    Từ các khảo sát như đã nêu ở trên, chúng ta nhận thấy rằng học khái niệm trong
    logic mô tả là một vấn đề quan trọng trong việc xây dựng các khái niệm hữu ích phục
    vụ cho các hệ thống ngữ nghĩa nói chung và ontolgy nói riêng. Từ đó, nó tác động
    lên nhiều ứng dụng trong thực tế có áp dụng Web ngữ nghĩa vào hệ thống. Học khái
    niệm trong logic mô tả dựa trên mô phỏng hai chiều là một hướng đi mới chưa từng
    được nghiên cứu ngoại trừ công trình của Nguyen và Sza las [44], Divroodi [12] với một
    số kết quả ban đầu như đã đề cập ở trên. Trên cơ sở các kết quả của Nguyen, Sza las
    và Divroodi [44], [12], luận án tập trung nghiên cứu các phương pháp học khái niệm
    trong logic mô tả dựa trên mô phỏng hai chiều với các mục tiêu chính đặt ra là:
    4
     
Đang tải...