Đồ Án Nghiên cứu quy trình khám phá tri thức – khai phá dữ liệu.

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỞ ĐẦU​ Ngày nay với sự phát triển như vũ bão của ngành công nghệ thông tin, cùng với đó là các công cụ hỗ trợ cho công việc tích lũy thông tin cũng trở lên cực kỳ tiện lợi, dẫn đến khối lượng thông tin của các kho cơ sở dữ liệu (CSD) tăng lên rất nhanh. Cùng với đó các yêu cầu đối với quá trính phân tích dữ liệu ngày càng cao, không những phải đáp ứng được tính thời gian thực mà còn phải đưa ra được các thông tin có ích trong một “biển” dữ liệu thô và không đầy đủ vv, tất cả các yếu tố đó làm cho các bài toán phân tích và xử lý dữ liệu truyền thống trở lên không hiệu quả. Như vây, cần có các công cụ hoặc phương pháp mới để giải quyết vấn đề này. Hiện nay trên thế giới các nhà phát triển CSDL đang rất quan tâm đến một mô hình CSDL gọi là cở sử dữ liệu chuỗi thời gian (có một số người gọi là cơ sở dữ liệu thời thời gian). Mô hình cở sở dữ liệu loại này có một số đặc điểm như: khối lượng CSDL cực lớn, đối tượng quan sát của nó thường là kết quả hoạt động của các hệ thống “nhiễu loạn”, thay đổi liên tục theo thời gian, thông tin có ích tồn tại dưới dạng phi chuẩn, chứa nhiều tạp chất và không đầy đủ, vv Hệ thống “nhiễu loạn” là hệ thống mà các đối tượng trong nó chịu ảnh hưởng của rất nhiều các yếu tố khác nhau, ngẫu nhiên và không xác định. Khi đó ngay cả các yêu cầu về việc lữu trữ, thống kê đối với dạng thông tin kiểu này đã là một nhiệm vụ cực kỳ phức tạp khi đối với các hệ quản trị CSDL hiện nay. Và đa số các nhà phát triển CSDL trên thế giới chọn một giải pháp là xây dựng một mô hình mới dựa trên các hệ quản trị CSDL sẵn có, như hệ quản trị cơ sở dữ liệu quan hệ để lưu giữ và quản lý các loại CSDL loại này trong khi chờ các nhà sản xuất đưa ra được một phiên bản hữu hiệu cho loại dữ liệu trên. Tuy nhiên ngay cả khi đã có những công cụ phù hợp để lưu trữ và quản lý các dạng thông tin nói trên, thì để nhận được những thông tin có ích đối với dạng CSDL loại này, các biện pháp phân tích dữ liệu thông thường cũng gặp rất nhiều khó khăn, đôi khi là không thể giải quyết được. Đó chính là cơ sở cho sự xuất hiện của kỹ thuật “Khám phá tri thức - khai phá dữ liệu”. Đây là một thuật ngữ tương đối mới mẻ đối với các nhà phan tích CSDL ở Việt nam, trong khi đó thì nó đã được áp dụng rất là rộng rãi và hiệu quả trên thế giới. Bản chất của khám phá tri thức chính là việc áp dụng một loạt các bước phân tích và xử lý dữ liệu nhằm tìm ra các thông tin có ích, các quy luật tiềm ẩn, các mẫu mới trong CSDL. Thường thì kỹ thuật Khám phá tri thức – Khai phá dữ liệu được áp dụng trên các CSDL lớn, một trong các dạng đó là CSDL chuỗi thời gian. Vì vậy việc nghiên cứu quy trình Khám phá tri thức áp dụng trong CSDL chuỗi thời gian sẽ có một ý nghĩa nhất định trong thời đại ngày nay nhất là ở Việt nam khi kỹ thuật này đang còn rất là mới mẻ.


    MỤC LỤC

    MỞ ĐẦU .1 CHƯƠNG I : GIỚI THIỆU CHUNG 1
    1.1. Sự cần thiết của việc nghiến cứu quy trình khám phá tri thức – khai phá dữ liệu. 2 1.2. Mục đích nghiên cứu của đề tài. .2 1.3. Phạm vi nghiên cứu của đề tài .2 1.4. Cách thiết kế các phần nội dung chính trong bản thuyết minh. .3
    CHƯƠNG II : TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC – KHAI PHÁ
    DỮ LIỆU
    2.1. Thế nào là Khám phá tri thức - Khai phá dữ liệu 4 2.2. Sự cần thiết của Khám phá tri thức. .5 2.3. Khám phá tri thức và các lĩnh vực liên quan. .6 2.4 Thế nào là khai phá dữ liệu .7 2.5. Định nghĩa Khai phá dữ liệu. .7
    CHƯƠNG III : NGHIÊN CỨU QUY TRÌNH KHÁM PHÁ TRI THỨC
    3.1. Các giai đoạn của quá trình Khám phá tri thức. .10 3. 2. Nhiệm vụ của quá trình Khám phá tri thức. 12 3.3. Quy trình Khám phá tri thức. .14 3.4. Hướng tiếp cận và kỹ thuật chính trong Khai phá dữ liệu. 15
    3.4.1.Các dạng dữ liệu có thể khai phá .15 3.4.2.Các phương pháp,kĩ thuật chính trong khai phá dữ liệu .16
    3.4.2.1. Phân lớp và dự đoán (Classification & Prediction) 17 3.4.2.2. Phân tích luật kết hợp (Association Rules) .19 3.4.2.3. Khai thác mẫu tuần tự (Sequential / Temporal patterns) 20 3.4.2.4. Phân nhóm- đoạn (Clustering / Segmentation) .20 3.4.2.5. Hồi quy (Regression) 21 3.4.2.6. Tổng hợp hóa (Summarization) 22 3.4.2.7. Mô hình hóa sự phụ thuộc (dependency modeling) .22 3.4.2.8. Phát hiện sự biến đổi và độ lệch (Change and deviation detection) .22
    3.4.3. Những vấn đề khó khăn trong Khai phá dữ liệu.
    3.4.3.1. Vấn đề về CSDL .23
    3.4.3.1.1. CSDL lớn 23 3.4.3.1.2. Số chiều dữ liệu lớn 23 3.4.3.1.3. Dữ liệu thay đổi liên tục .24
    3.4.3.1.4. Các thuộc tính dữ liệu không phù hợp .24
    3.4.3.1.5. Dữ liệu bị thiếu không đầy đủ 24
    3.4.3.1.6. Dữ liệu bị nhiễu và không chắc chắn .24
    3.4.3.1.7. Mối quan hệ phức tạp giữa các thuộc tính 25
    3.4.3.2. Các vấn đề khác 25
    3.4.3.2.1. Vấn đề Overfitting 25
    3.4.3.2.2. Khả năng biểu đạt của mẫu 26
    3.4.3.2.3. Khả năng tương tác với người sử dụng .26
    3.4.3.2.4. Khả năng tích hợp với các hệ thống khác 26
    3.5. So sánh Khai phá dữ liệu với một số phương pháp cổ điển. 26 3.6. Hướng nghiên cứu và việc ứng dụng của Khai phá dữ liệu hiện nay. .27 3.7. ứng dụng của Khai phá dữ liệu - Khám phá tri thức. .28
    CHƯƠNG IV : ỨNG DỤNG QUY TRÌNH KHÁM PHÁ TRI THỨC VÀO VIỆC PHÂN TÍCH CSDL CHƯNG KHOÁN (CSDL CHUỖI THỜI GIAN)
    4.1. Các khái niệm về CSDL chuỗi thời gian. 30
    4.2. CSDL thị trường chứng khoán: .30
    4.3 Các đặc điểm của CSDL chứng khoán .31
    4.4 Tiền xử lý dữ liệu chuỗi thời gian. 32
    4.5 Chỉ số xu hướng tổng quát .35
    4.6 Phân loại trạng thái của hệ thống nhiễu loạn – tích lũy thông tin thống kê 36
    4.7. Dự báo trạng thái của hệ thống nhiễu loạn. .38
    KẾT LUẬN
    1. Kết quả đạt được. 41 2. Hướng nghiên cứu tiếp theo. .41
     

    Các file đính kèm:

Đang tải...