Thạc Sĩ Cơ sở dữ liệu hướng đối tượng với thông tin ngôn ngữ mờ

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Phí Lan Dương, 19/8/14.

  1. Phí Lan Dương

    Phí Lan Dương New Member
    Thành viên vàng

    Bài viết:
    18,524
    Được thích:
    18
    Điểm thành tích:
    0
    Xu:
    0Xu
    NĂM 2014

    Mục lục
    Danh mục các thuật ngữ và từ viết tắt i
    Danh sách hình vẽ ii
    Danh sách bảng iii
    MỞ ĐẦU 1
    Chương 1. TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI
    TƯỢNG MỜ 6
    1.1. Giới thiệu . 6
    1.2. Thông tin không đầy đủ trong mô hình CSDL . 9
    1.2.1. Thông tin sai lệch . 10
    1.2.2. Thông tin thiếu chính xác 10
    1.2.3. Thông tin không chắc chắn . 11
    1.3. Tập mờ 11
    1.3.1. Tập mờ 12
    1.3.2. Các phép toán trên tập mờ . 14
    1.3.3. Tổng quát hoá ba phép toán cơ bản trên tập mờ 14
    1.3.4. Biến ngôn ngữ . 15
    1.4. Mô hình biểu diễn dữ liệu mờ với ngữ nghĩa của đại số gia tử . 17
    1.4.1. Đại số gia tử . 17
    1.4.2. Đại số gia tử tuyến tính đầy đủ . 20
    1.5. Mô hình CSDL hướng đối tượng mờ . 26
    1.5.1. Đối tượng mờ . 27
    1.5.2. Lớp mờ 28
    1.5.3. Giá trị thuộc tính . 29
    1.5.4. Phương thức . 30
    1.5.5. Quan hệ lớp đối tượng mờ 30
    1.5.6. Quan hệ kế thừa mờ . 32
    1.5.7. Mô hình lớp đối tượng mờ 33
    1.6. Ngôn ngữ truy vấn dữ liệu 37
    1.7. Kết luận 37
    Chương 2. PHỤ THUỘC DỮ LIỆU TRONG MÔ HÌNH CƠ SỞ
    DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ 39
    2.1. Quan hệ ngữ nghĩa của dữ liệu mờ . 39
    2.1.1. Đối sánh giá trị khoảng . 39
    2.1.2. Sự tương đương hai giá trị thuộc tính 41
    2.1.3. Xấp xỉ ngữ nghĩa . 43
    2.2. Phụ thuộc thuộc tính mờ và tập luật suy dẫn . 45
    2.2.1. Phụ thuộc thuộc tính mờ trong lớp đối tượng . 46
    2.2.2. Các luật suy dẫn trên phụ thuộc thuộc tính mờ 50
    2.3. Phụ thuộc phương thức mờ trong lớp đối tượng 51
    2.4. Truy vấn Null và lập luận tương tự . 52
    2.4.1. Các giá trị Null 52
    2.4.2. Truy vấn Null . 52
    2.4.3. Lập luận tương tự 53
    2.4.4. Thuật toán tìm câu trả lời gần đúng cho truy vấn Null 54
    2.5. Một số ví dụ minh họa 63
    2.6. Kết luận 69
    Chương 3. TRUY VẤN DỮ LIỆU TRONG HỆ THỐNG HƯỚNG
    ĐỐI TƯỢNG VỚI THÔNG TIN KHÔNG CHẮC CHẮN 70
    3.1. Đối tượng mờ dư thừa 71
    3.2. Các phép toán đại số mờ . 73
    3.2.1. Phép chọn mờ . 73
    3.2.2. Phép chiếu mờ 75
    3.2.3. Phép tích mờ . 75
    3.2.4. Phép kết nối mờ . 75
    3.2.5. Phép hợp mờ . 77
    3.2.6. Phép giao mờ . 78
    3.2.7. Phép trừ mờ 79
    3.3. Phương pháp truy vấn dữ liệu mờ 80
    3.3.1. Tìm kiếm dữ liệu theo lân cận ngữ nghĩa 81
    3.3.2. Truy vấn mờ với lượng từ ngôn ngữ . 85
    3.4. Một số ví dụ minh họa 90
    3.5. Kết luận 96
    KẾT LUẬN 97
    DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ 98
    TÀI LIỆU THAM KHẢO 100

    MỞ ĐẦU
    Như chúng ta đã biết, mô hình hướng đối tượng (HĐT) truyền thống đã
    chứng tỏ nhiều ưu điểm trong các vấn đề mô hình hóa, thiết kế và hiện thực các
    hệ thống lớn, từ phần mềm cho đến cơ sở dữ liệu (CSDL). Đó là nhờ mô hình
    này có khả năng biểu diễn trạng thái và hành vi của các đối tượng cũng như
    sự phân cấp, phân loại và quan hệ giữa chúng trong các ứng dụng thực tế. Hơn
    nữa, mô hình hướng đối tượng còn giúp tối ưu dữ liệu và tái sử dụng mã khi
    xây dựng hệ thống thông qua cơ chế thừa kế thông tin giữa các lớp đối tượng.
    Tuy nhiên, trong mô hình HĐT truyền thống, các mối quan hệ cũng như trạng
    thái và hành vi của các đối tượng luôn luôn được thể hiện một cách chắc chắn
    và chính xác. Điều này không hoàn toàn phù hợp với thực tế, bởi thông tin về
    các đối tượng trong thế giới thực có thể mơ hồ, không chắc chắn, không đầy đủ.
    Hệ quả là các ứng dụng dựa trên mô hình CSDL HĐT truyền thống không
    biểu diễn được các đối tượng mà thông tin về chúng không được xác định một
    cách chắc chắn và chính xác. Chẳng hạn, các ứng dụng mô hình CSDL truyền
    thống không thể trả lời các truy vấn như “ tìm tất cả những bệnh nhân trẻ có
    tiền sử bệnh viêm thanh quản”; hoặc “ tìm tất cả các gói bưu kiện có thể tích
    khoảng 25000 cm3”, . trong đó trẻ và khoảng 25000 là những khái niệm và giá
    trị không chính xác. Để khắc phục được các hạn chế như vậy, các nghiên cứu gần
    đây đã tập trung nghiên cứu mô hình CSDL HĐT có khả năng biểu diễn và xử
    lý được các đối tượng mà thông tin về chúng có thể không chắc chắn và không
    chính xác.
    Trên tinh thần đó, trong những năm qua đã có nhiều cách tiếp cận khác
    nhau để giải quyết các vấn đề này. Một số nghiên cứu của George, Buckles và
    Petry, 1993 [25]; Yazici và George, 1999 [47]; Yazici, George và Aksoy 1999 [48]
    cho phép giá trị thuộc tính đối tượng là một tập các giá trị mờ kết hợp với một
    quan hệ tương tự trên miền giá trị thuộc tính. Tùy theo ngữ cảnh, tập các giá trị



    thuộc tính được định nghĩa là tuyển hoặc hội logic của các giá trị này. Ngữ nghĩa
    của các giá trị tập mờ được xác định thông qua các quan hệ tương tự trên các
    miền giá trị thuộc tính tương ứng. Vì các giá trị thuộc tính đối tượng là những
    tập mờ, nên các lớp đối tượng cũng trở nên mờ. Ngoài ra, sự phân loại và phân
    cấp lớp là mờ nên mức độ thành viên lớp của các đối tượng cũng được mờ hóa
    theo.
    Như trong mô hình CSDL quan hệ mờ, trong các các mô hình CSDL HĐT
    mờ, phương pháp biểu diễn giá trị thuộc tính đối tượng bởi các phân bố khả
    năng. Các nghiên cứu theo tiếp cận này rất đa dạng và khả năng mô hình hóa các
    đối tượng mờ cũng rất khác nhau. Nhóm tác giả Van Gyseghem và De Caluwe
    [44] kết hợp với lý thuyết tập mờ đã định nghĩa lớp như một tập các tính chất
    gồm các thuộc tính và phương thức lớp xác định các đối tượng mờ của lớp. Mỗi
    phương thức được biểu diễn như một hàm thao tác trên các giá trị tập mờ của
    thuộc tính đối tượng. Bao hàm và phân cấp lớp mờ được xác định thông qua
    bao hàm các miền giá trị thuộc tính tương ứng của các lớp. Thừa kế không chắc
    chắn thuộc tính lớp được tính toán thông qua mức độ bao hàm lớp con trong
    lớp cha.
    Mô hình dựa trên lý thuyết xác suất đầu tiên được nhóm tác giả Kornatzky
    và Shimony đề xuất năm 1994 [27]. Trong mô hình này, lớp được định nghĩa như
    một tập các thuộc tính mà giá trị của chúng có thể kết hợp với một phân bố xác
    suất. Lược đồ được định nghĩa như một tập các lớp có phân cấp kết hợp với xác
    suất có điều kiện để một đối tượng của một lớp thuộc về lớp con của nó. Các tác
    giả cũng đã phát triển một ngôn ngữ truy vấn để thao tác chọn các đối tượng
    thỏa một xác suất được kết hợp với các truy vấn.
    Rõ ràng, trở ngại lớn nhất trong việc phát triển các hệ thống CSDL HĐT
    mờ đó là chưa có một mô hình dữ liệu chuẩn hay cơ sở toán học thống nhất cho
    việc biểu diễn và xử lý dữ liệu đối tượng mờ. Cho đến nay, các nghiên cứu về mô
    hình CSDL HĐT mờ chủ yếu tập trung vào việc mở rộng mô hình dữ liệu rõ đã
    có theo nhiều cách tiếp cận khác nhau và cho phép biểu diễn, thao tác trên dữ
    liệu mờ. Do đó, các mô hình CSDL HĐT mờ này chỉ thống nhất trên một tập
    các khái niệm chung nhất trong mô hình của ODMG [22]. Có thể thấy rằng, các
    kết quả nghiên cứu trên CSDL HĐT mờ luôn được xem xét với một mô hình cụ
    thể, các kết quả này sẽ giải quyết cho một lớp các bài toán với một tập con các
    khái niệm, tính chất đặc trưng hướng đối tượng. Như vậy, việc chọn lựa một mô
    hình dữ liệu để nghiên cứu các vấn đề trong CSDL HĐT mờ là rất quan trọng.
    Trong cơ sở dữ liệu quan hệ mờ, ở trong nước, từ năm 1985 Lê Tiến Vương
    đã nghiên cứu áp dụng lý thuyết tập mờ trong mô hình quan hệ. Một số các kết
    quả về mô hình cơ sở dữ liệu mở rộng sử dụng lý thuyết tập mờ và biến ngôn
    ngữ của Lê Tiến Vương và Hồ Thuần đã được công bố vào năm 1989. Vẫn tiếp
    tục đi sâu vào hướng đó, có các công trình nghiên cứu của Đinh Thị Ngọc Thanh
    (1991) và Trương Đức Hùng (1996). Năm 2002, Hồ Cẩm Hà đã mở rộng mô hình
    cơ sở dữ liệu mờ dựa trên quan hệ tương tự và phát triển một số các kết quả
    dựa trên mô hình [25]. Năm 2004, Trần Thiên Thanh đã đề xuất một số kết quả
    về phụ thuộc dữ liệu và tổng kết dữ liệu trên mô hình lý thuyết khả năng.
    Trên cơ sở những mô hình mở rộng, những kết quả đã đạt được trên mô hình
    quan hệ như phụ thuộc hàm, phụ thuộc đa trị, các dạng chuẩn, phân tách lược
    đồ quan hệ, ngôn ngữ hỏi đáp, . được mở rộng theo nhiều cách khác nhau để
    phù hợp với từng mô hình. Ngoài ra, để khai thác dữ liệu trên mô hình cơ sở dữ
    liệu mờ nhiều tác giả nghiên cứu đã mở rộng những ngôn ngữ hỏi đáp trên mô
    hình quan hệ như đại số quan hệ, phép tính quan hệ trên bộ, phép tính quan hệ
    trên miền, ngôn ngữ SQL, . cho phù hợp với mô hình mới và đáp ứng yêu cầu
    khai thác dữ liệu đa dạng của người dùng.
    Tuy đã có nhiều cách tiếp cận để xử lý thông tin mờ nhưng hầu hết việc biểu
    diễn và đối sánh dữ liệu vẫn phức tạp và mang tính chủ quan, phụ thuộc vào
    nhiều yếu tố làm ảnh hưởng đến hiệu quả của việc thao tác dữ liệu. Chẳng hạn
    như theo cách tiếp cận quan hệ mờ, yếu tố ảnh hưởng vào việc biểu diễn ngữ
    nghĩa là việc xây dựng hàm thuộc và chọn ngưỡng lát cắt α của tập mờ, theo
    cách tiếp cận quan hệ tương tự là việc chọn ngưỡng tương tự hai giá trị, ngưỡng
    của mỗi thuộc tính và ngưỡng của bộ dữ liệu, . Vì vậy, cần có một cách tiếp
    cận để xử lý thông tin mờ một cách hiệu quả, đơn giản và trực quan hơn.
     

    Các file đính kèm:

Đang tải...