Đồ Án Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sở dữ liệu ngành thuế việt nam

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC




    DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT 4


    DANH MỤC CÁC BẢNG 5


    DANH MỤC CÁC HÌNH VẼ .6


    MỞ ðẦU .8


    CHƯƠNG 1. KHAI PHÁ DỮ LIỆU .12


    1.1. Tổng quan khai phá dữ liệu . 12
    1.1.1 Dữ liệu 14
    1.1.2 Tiền xử lý dữ liệu 16
    1.1.3 Mô hình khai phá dữ liệu 18
    1.2. Các chức năng cơ bản khai phá dữ liệu 19
    1.2.1 Phân lớp (Classification) 19
    1.2.2 Hồi qui 31
    1.2.3 Phân nhóm 34
    1.2.4 Khai phá luật kết hợp 38


    CHƯƠNG 2. MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU 46


    2.1. Thuật toán khai phá luật kết hợp . 46
    2.1.1 Thuật toán Apriori 46
    2.1.2 Thuật toán AprioriTid . 49
    2.1.3 Thuật toán AprioriHybrid . 51
    2.2. Cải tiến hiệu quả thuật toán Apriori 54
    2.2.2 Phương pháp FP-tree . 56
    2.2.3 Thuật toán PHP 59
    2.2.4 Thuật toán PCY . 63
    2.2.5 Thuật toán PCY nhiều chặng . 65
    2.3. Thuật toán phân lớp bằng học cây quyết ñịnh 67
    2.3.1 Các ñịnh nghĩa 68
    2.3.2 Thuật toán ID3 69
    2.3.3 Các mở rộng của C4.5 70


    CHƯƠNG 3. ÁP DỤNG KHAI PHÁ TRÊN CSDL NGÀNH THUẾ 72


    3.1. CSDL ngành Thuế 72
    3.2. Lựa chọn công cụ khai phá . 73
    3.2.1 Lựa chọn công cụ 73
    3.2.2 Oracle Data Mining (ODM) . 76
    3.2.3 DBMS_DATA_MINING 78
    3.3. Mục tiêu khai thác thông tin của ngành Thuế . 79



    3.4. Thử nghiệm khai phá luật kết hợp 81
    3.5. Phân lớp bằng học cây quyết ñịnh 91
    3.5.1 Phân lớp ðTNT dựa vào so sánh tỷ suất các năm . 93
    3.5.2 Phân lớp ðTNT theo số liệu của một năm . 96


    CHƯƠNG 4. KẾT LUẬN 102


    HƯỚNG NGHIÊN CỨU TIẾP THEO 103


    TÀI LIỆU THAM KHẢO 104


    PHỤ LỤC 106





    DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT


    Ký hiệu, chữ viết tắt Ý nghĩa
    Association Rules Các luật kết hợp
    Candidate itemset Một itemset trong tập Ck ñược sử dụng ñể sinh ra các


    large itemset
    Ck Tập các candidate k-itemset ở giai ñoạn thứ k
    Confidence ðộ chắc chắn của luật kết hợp


    = support(X∪Y)/support(X) phản ánh khả năng giao dịch hỗ trợ X thì cũng hỗ trợ Y
    CSDL Cơ sở dữ liệu
    DM Data mining – Khai phá dữ liệu
    DW Data warehouse – Kho dữ liệu
    ðTNT ðối tượng nộp thuế, chỉ tới các cá nhân hoặc tổ chức


    nộp thuế
    Frequent/large itemset Một itemset có ñộ hỗ trợ (support) >= ngưỡng ñộ hỗ


    trợ tối thiểu
    ID Identifier
    Item Một phần tử của itemset
    Itemset Tập của các item
    k-itemset Một itemset có ñộ dài k
    Lk Tập các Large itemset ở giai ñoạn thứ k
    ODM Oracle Data Mining – 1 công cụ khai phá dữ liệu
    TID Unique Transaction Identifier
    Transaction Giao dịch



    DANH MỤC CÁC BẢNG


    Bảng 1.1: CSDL ñơn giản gồm các ví dụ huấn luyện 25


    Bảng 1.2 Mô hình CSDL giao dịch ñơn giản . 39


    Bảng 2.1 Cơ sở dữ liệu giao dịch T . 56


    Bảng 2.2 Bảng các sản phẩm khai phá dữ liệu . 74
     
Đang tải...