Tiến Sĩ Nghiên cứu một số phương pháp khai phá dữ

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi dong222, 15/6/15.

  1. dong222

    dong222 New Member

    Bài viết:
    1
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỞ ĐẦU
    Lý thuyết tập thô - do Zdzislaw Pawlak [42] đề xuất vào những năm đầu thập niên tám mươi của thế kỷ hai mươi - được xem là công cụ hữu hiệu để giải quyết các bài toán phân lớp, phát hiện luật chứa dữ liệu mơ hồ không chắc chắn. Từ khi xuất hiện, lý thuyết tập thô đã được sử dụng hiệu quả trong các bước của quá trình khai phá dữ liệu và khám phá tri thức, bao gồm tiền xử lý số liệu, trích lọc các tri thức tiềm ẩn trong dữ liệu và đánh giá kết quả thu được.
    Trong lý thuyết tập thô, dữ liệu được biểu diễn thông qua một hệ thông tin với U là tập các đối tượng và A là tập các thuộc tính. Phương pháp tiếp cận chính của lý thuyết tập thô là dựa trên quan hệ không phân biệt được để đưa ra các tập xấp xỉ biểu diễn tập đối tượng cần quan sát. Khi đó, mọi tập đối tượng đều được xấp xỉ bởi hai tập rõ là xấp xỉ dưới và xấp xỉ trên của nó. Xấp xỉ dưới bao gồm các đối tượng chắc chắn thuộc tập đó, còn xấp xỉ trên chứa tất cả các đối tượng có khả năng thuộc về tập đó. Nếu tập xấp xỉ dưới bằng tập xấp xỉ trên thì tập đối tượng cần quan sát là tập rõ, ngược lại là tập thô. Các tập xấp xỉ là cơ sở để đưa ra các kết luận từ dữ liệu. Bảng quyết định là một hệ thông tin IS với tập thuộc tính được chia thành hai tập con khác rỗng rời nhau và , lần lượt được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định. Nói cách khác, với . Bảng quyết định là mô hình thường gặp trong thực tế, khi mà giá trị dữ liệu tại các thuộc tính điều kiện có thể cung cấp cho ta thông tin về giá trị của thuộc tính quyết định. Bảng quyết định là nhất quán khi phụ thuộc hàm là đúng, trái lại là không nhất quán.
     
Đang tải...