Thạc Sĩ Phát hiện luật bằng cách sử dụng siêu phẳng tối ưu theo hướng tiếp cân tập thô

Thảo luận trong 'Chưa Phân Loại' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    167
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÓM TĂT KHOÁ LUẬN TỐT NGHIỆP


    Cùng với sự Phát triển của Công nghệ thông tin ngày nay, khai phá tri thức
    trong các cơ sở dư liệu lớn là một trong nhưng lĩnh vực được rất nhiều nhà nguyên cứu
    và ứng dụng tin học đặc biệt quan tâm. Việc nguyên cứu những phương pháp có thể tự
    động phát hiện những tri thức mới trong cơ sở dư liệu trên máy tính đã tỏ ra thực sự
    hữu ích trong việc hỗ trợ quyết định cho con người.
    Hiện nay, trên thế giới có rất nhiều thuật toán khai phá tri thức bằng cách phân
    lớp và rời rạc dữ liệu như: Sử dụng cây quyết định, phương pháp thống kê, các mạng
    nơ ron, thuật toán di truyền, .Trong một vài năm gần đây, lý thuyết tâp thô được nhiều
    nhóm nguyên cứu hoạt động trong lĩnh vực tin học nói chung và khai phá tri thức nói
    riêng nguyên cứu và áp dụng trong thực tế. Lý thuyết tập thô được Xây dựng trên nền
    tảng Toán học vững chắc giúp cung cấp những công cụ hữu ích để giải quyết những bài
    toán phân lớp dữ liệu và khai phá luật, .Với đặc tính có thể xử lý được những dữ liệu
    mơ hồ, không chắc chắn tập thô tỏ ra rất hữu ích trong việc giải quyết những bài toán
    thực tế. Từ những bảng dữ liệu lớn với dữ liệu dư thừa, không hoàn hảo, dữ liệu liên
    tục, hay dữ liệu dưới dạng ký hiệu lý thuyết tập thô cho phép khai phá tri thức từ
    những khối dữ liệu này nhằm phát hiện những luật tiềm ẩn từ khối dữ liệu này.
    Trong khoá luân tốt nghiệp chúng tôi đã trình bày một số phương pháp rời rạc
    hoá dữ liệu theo hướng tiếp cận tập thô. Và Xây dựng chương trình thử nghiệm: phát
    hiện luật bằng cách sử dụng siêu phẳng tối ưu theo hướng tiếp cân tập thô. Chương
    trình được Xây dựng để thử nghiệm trên bộ dữ liệu chứa thông tin về 768 bệnh nhân bị
    bệnh tiểu đường cung cấp bởi tổ chức “National Institute of Diabetes and Digestive
    and Kidney Diseases”. Từ đó Xây dựng hệ thống các luật dựa trên cây quyết định dùng
    để hỗ trợ việc khám bệnh của các bác sĩ.

    MỤC LỤC
    MỤC LỤC . 2
    PHẦN MỞ ĐẦU .5
    Chương 1 TỔNG QUAN VỀ KHAI PHÁ TRI THỨC .
    8
    1.1 . Khai phá tri thức 8
    1.1.1. Định nghĩa khai phá tri thức .8
    1.1.2. Các giai đoạn của quá trình khai phá tri thức .8
    1.1.3. Khai phá dữ liệu 10
    1.2 . Khai phá tri thức theo cách tiếp cận tập thô 12
    1.2.1. Một số khái niệm 12
    1.2.1.1. Khái niệm hệ thông tin 12
    1.2.1.2. Khái niêm về bảng quyết định . 13
    1.2.1.3. Khái niệm Quan hệ không phân biệt được trong hệ thông tin. 15
    1.2.1.4. Khái niệm tập các nhát cắt, nhát cắt trong bảng quyết định 16
    1.2.1.5. Tập thô trong không gian xấp xỉ. 17
    1.2.2. Khai phá tri thức theo cách tiếp cận tập thô. 19
    1.2.2.1. Sự rời rạc hoá dữ liệu theo cách tiếp cận tập thô. .19
    1.2.2.2. Lựa chọn thuộc tính dựa trên tập thô .1 9
    1.2.2.3. Khám phá luật bới bảng phân bố tổng quát dựa trên tập thô. .20
    1.2.2.4. Khám phá mẫu trong hệ thông tin. 20
    1.3 . Kết luận. 21
    Chương 2 KHAI PHÁ LUẬT KẾT HỢP . 22
    2.1 . Khai phá luật kết hợp trong cơ sở dữ liệu. 22
    2.1.1. Bài toán xuất phát. 22
    2.1.2. Mô hình hoá bài toán. .22
    2.1.3. Thuật toán khai phá luật kết hợp. .25
    2.1.3.1. Tập phổ biến. .25
    2.1.3.2. Khai phá luật dựa trên tập mục phổ biến .25
    2.1.4. Kết luận .28
    2.2 . Sinh cây quyết định từ hệ thông tin . 29
    2.2.1. Thuật Toán học cây quyết định . .29
    2.2.2. Một số phương pháp giải quyết vấn đề rời rạc hoá. .35
    2.2.2.1. Maximal Discernibility (MD) Heuristic 3 5
    2.2.2.2. Sự rời rạc hoá định nghĩa bằng siêu phẳng. 36
    2.2.2.3. Những tính chất của phương thức MD 39
    2.2.2.4. Xây dựng cây quyết định không đối xứng. .43
    2.2.3. Kết luận .50
    Chương 3 CHƯƠNG TRÌNH THỬ NGHIỆM. .51
    3.1 . Mô tả dữ liệu. 51
    3.2 . Xây dựng chương trình. 53
    3.3 . Kết quả thử nghiệm. 57
    3.4 . Nhận xét. .61
    KẾT LUẬN. 62
    Tài liêu tham khảo: . .63
     

    Các file đính kèm:

Đang tải...