Luận Văn ứng dụng quy trình khám phá tri thức vào việc phân tích csdl chưng khoán (csdl chuỗi thời gian

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Trong thời đại bùng nổ công nghệ thông tin, các công nghệ lưu trữ dữ liệu ngày càng phát triển nhanh chóng tạo điều kiện cho các đơn vị thu thập dữ liệu nhiều hơn và tốt hơn. Đặc biệt trong lĩnh vực kinh doanh, các doanh nghiệp đã nhận thức được tầm quan trọng cuả việc nắm bắt và xử lí thông tin. Tất cả lí do đó khiến cho các cơ quan, đơn vị và các doanh nghiệp đã tạo ra một lượng dữ liệu khổng lồ cỡ Gigabyte thậm chí là Terabyte cho riêng mình. Các kho dữ liệu ngày càng lớn và tiềm ẩn nhiều thông tin có ích. Sự bùng nổ đó dẫn tới một yêu cầu cấp thiết là phải có những kĩ thuật và công cụ mới để biến kho dữ liệu khổng lồ kia thành những thông tin cô đọng và có ích. Khám phá tri thức – Khai phá dữ liệu ra đời như một kết quả tất yếu đáp ứng các nhu cầu đó.

    SỰ CẦN THIẾT CỦA QUY TRÌNH NGHIÊN CỨU QUY TRÌNH KHÁM PHÁ TRI THỨC –KHAI PHÁ DỮ LIỆU.
    Hiện nay trên thế giới Khám phá tri thức – Khai phá giữ liệu đã và đang được áp dụng một cách rộng rãi trong rất nhiều lĩnh vực khác nhau như : y tế , marketing , ngân hàng , viễn thông, internet , ở Việt nam hiện thuật ngữ Khám phá tri thức – Khai phá dữ liệu đang còn rất là mới mẻ, vì vậy việc đầu tư nghiên cứu một cách tỷ mỷ nhằm nắm rõ được bản chất của kỹ thuật Khám phá tri thức là gì, các bước chính trong quy trình khám phá tri thức được thực hiện như thế nào, thực chất của việc khai phá dữ liệu cũng như các giải thuật cúa nó là rất cần thiết đối với các nhà phát triển công nghệ thông tin Việt.
    MỤC ĐÍCH NGHIÊN CỨU CỦA ĐỀ TÀI.
    Vì kỹ thuật Khám phá tri thức – Khai phá dữ liệu là một lĩnh vực mới, do đó mục đích của đề tài là nghiên cứu một cách tổng quan quy trình Khám phá tri thức – Khai phá dữ liệu, từ đó có thể nắm bắt được những luận điểm, giải thuật cơ bản nhất của kỹ thuật này làm tiền đề cho việc nghiên cứu phát triển các ứng dụng cụ thể nào đó.
    PHẠM VI NGHIÊN CỨU CỦA ĐỀ TÀI.
    Đề tài chỉ dừng ở phạm vi nghiên cứu các bước cơ bản nhất của quy trình Khám phá tri thức, áp dụng vào việc phân tích CSDL chuỗi thời gian mà cụ thể là CSDL của thị trường chứng khoán. Giới thiệu kỹ thuật làm sạch giữ liệu bằng việc áp dụng phương pháp trung bình trượt hàm mũ, đồng thời đưa ra thuật toán phân loại trạng thái của hệ thống “nhiễu loạn” dựa trên cặp chỉ số xu hướng

    MỤC LỤC



    MỞ ĐẦU .1



    CHƯƠNG I : GIỚI THIỆU CHUNG 1

    1.1. Sự cần thiết của việc nghiến cứu quy trình khám phá tri thức – khai phá dữ liệu. 2

    1.2. Mục đích nghiên cứu của đề tài. .2

    .1.3 Phạm vi nghiên cứu của đề tài

    1.4. Cách thiết kế các phần nội dung chính trong bản thuyết minh. .3

    CHƯƠNG II : TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC – KHAI PHÁ DỮ LIỆU

    2.1. Thế nào là Khám phá tri thức - Khai phá dữ liệu 4

    2.2. Sự cần thiết của Khám phá tri thức. .5

    2.3. Khám phá tri thức và các lĩnh vực liên quan. .6

    2.4 Thế nào là khai phá dữ liệu .7

    2.5. Định nghĩa Khai phá dữ liệu. .7


    CHƯƠChương III : NGHIÊN CỨU QUY TRÌNH KHÁM PHÁ TRI THỨC



    3. 1. Các giai đoạn của quá trình Khám phá tri thức. .10

    3. 2. Nhiệm vụ của quá trình Khám phá tri thức. 12

    3.3. Quy trình Khám phá tri thức. .14

    3.4. Hướng tiếp cận và kỹ thuật chính trong Khai phá dữ liệu. 15

    3.4.1.Các dạng dữ liệu có thể khai phá .15

    3.4.23.4.2.Các phương pháp,kĩ thuật chính trong khai phá dữ liệu .16

    3.4.2.1. Phân lớp và dự đoán (Classification & Prediction) 17

    3.4.2.2. Phân tích luật kết hợp (Association Rules) .19

    3.4.2.3. Khai thác mẫu tuần tự (Sequential / Temporal patterns) 20

    3.4.2.4. Phân nhóm- đoạn (Clustering / Segmentation) .20

    3.4.2.5. Hồi quy (Regression) 21

    3.4.2.6. Tổng hợp hóa (Summarization) 22

    3.4.2.7. Mô hình hóa sự phụ thuộc (dependency modeling) .22

    3.4.2.8. Phát hiện sự biến đổi và độ lệch (Change and deviation detection) .22

    3.4.3. Những vấn đề khó khăn trong Khai phá dữ liệu.



    3.4.3.1. Vấn đề về CSDL .23



    3.4.3.1.1. CSDL lớn 23 3.4.3.1.2. Số chiều dữ liệu lớn 23 3.4.3.1.3. Dữ liệu thay đổi liên tục .24



    3.4.3.1.4. Các thuộc tính dữ liệu không phù hợp .24



    3.4.3.1.5. Dữ liệu bị thiếu không đầy đủ 24



    3.4.3.1.6. Dữ liệu bị nhiễu và không chắc chắn .24



    3.4.3.1.7. Mối quan hệ phức tạp giữa các thuộc tính 25



    3.4.3.2. Các vấn đề khác 25



    3.4.3.2.1. Vấn đề Overfitting 25



    3.4.3.2.2. Khả năng biểu đạt của mẫu 26



    3.4.3.2.3. Khả năng tương tác với người sử dụng .26



    3.4.3.2.4. Khả năng tích hợp với các hệ thống khác 26

    3.5. So sánh Khai phá dữ liệu với một số phương pháp cổ điển. 26

    3.6. Hướng nghiên cứu và việc ứng dụng của Khai phá dữ liệu hiện nay. .27

    3.7. ứng dụng của Khai phá dữ liệu - Khám phá tri thức. .28

    CHƯƠNG IV : ỨNG DỤNG QUY TRÌNH KHÁM PHÁ TRI THỨC VÀO VIỆC PHÂN TÍCH CSDL CHƯNG KHOÁN (CSDL CHUỖI THỜI GIAN)

    4.1. Các khái niệm về CSDL chuỗi thời gian. 30

    4.2. CSDL thị trường chứng khoán: .30

    4.3 Các đặc điểm của CSDL chứng khoán .31

    4.4 Tiền xử lý dữ liệu chuỗi thời gian. 32

    4.5 Chỉ số xu hướng tổng quát .35

    4.6 Phân loại trạng thái của hệ thống nhiễu loạn – tích lũy thông tin thống kê 36

    4.7. Dự báo trạng thái của hệ thống nhiễu loạn. .38



    KẾT LUẬN

    1. Kết quả đạt được. 41

    2. Hướng nghiên cứu tiếp theo. .41​
     

    Các file đính kèm:

Đang tải...