Đồ Án Ứng dụng mô hình học máy tiên tiến nhằm tăng cường khả năng dự báo xu thế của thị trường chứng khoán

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    Tóm tắt khóa luận


    Ngày nay, cách thức kiếm tiền và sử dụng đồng tiền của các nhà đầu tư cũng có nhiều thay đổi. Hầu hết mọi người đều đầu tư vào chứng khoán, họ cho rằng đó là một cách đầu tư thông minh và những đồng tiền ấy là đồng tiền thông minh. Nhưng thị trường chứng khoán luôn có những yếu tố bất ngờ không theo ý muốn chủ quan của ai, có lúc tăng nhanh sau đó giảm một cách đột ngột, có lúc thì liên tục tăng mà chưa có dấu hiệu giảm xuống. Do vậy dự đoán được xu thế của thị trường chứng khoán là một vấn đề quan trọng đầu tư tài chính. Thị trường sẽ diễn biến ra sao, đầu tư vào chứng khoán ở thời điểm này có được hay không, phụ thuộc rất nhiều vào kết quả dự đoán của chúng ta chính xác ra sao


    Trong khóa luận này, tôi xin giới thiệu một kỹ thuật được sử dụng nhiều trong khai phá dữ liệu, có hiệu quả cao trong dự đoán, xây dựng mô hình dự báo đơn giản, nhanh chóng và dễ hiểu. Đó là mô hình cây quyết định, khóa luận đã tìm hiểu cấu trúc, hoạt động của cây quyết định, các độ đo dùng để chia cắt các thuộc tính và các thuật toán đặc biệt là thuật toán C4.5 mà khóa luận sử dụng để xây dựng cây. Từ đó, thiết kế mô hình
    cây quyết định cho dữ liệu thời gian thực (time series) áp dụng trong dự báo xu thế của thị trường chứng khoán được trình bày chi tiết. Khóa luận đã thực nghiệm trên dữ liệu VnIndex và đã thu được những kết quả bước đầu


    Từ khóa: data mining, decision tree, time series, stock trend prediction, weka .





    MỤC LỤC




    LỜI CẢM ƠN .i TÓM TẮT KHÓA LUẬN .ii MỤC LỤC . iii DANH MỤC HÌNH VẼ .vi DANH MỤC BẢNG BIỂU .vii Chương 1. Giới thiệu các kiến thức cơ!Äở 1
    1.1. Khai phá dự liệu .1


    1.1.1. Khai phá dữ liệu là gì 1


    1.1.2. Quá trình khai phá dữ liệu 1


    1.1.3. Các phương pháp khai phá dữ liệu .2


    1.1.4. Sự cần thiết phải có khai phá dữ liệu .2


    1.1.5. Một số khó khăn gặp phải khi xây dựng quá trình khai phá dữ liệu 3


    1.1.6. Các lĩnh vực ứng dụng .4


    1.2. Phân lớp và dự báo .4


    1.2.1. Định nghĩa 4


    1.2.2. Các bước để phân lớp và dự báo 5


    1.2.3. Độ chính xác trong phân lớp và dự báo .8


    1.2.4. Một số bài toán phân lớp và dự báo điển hình .8


    1.3. Bài toán dự báo xu thế thị trường chứng khoán .9


    1.4. Nội dung và cấu trúc của khóa luận .10


    Chương 2. Tổng quan về cây quyết định .12

    2.1. Định nghĩa 12


    2.2. Cấu trúc 12


    2.3. Các kiểu cây quyết định .13


    2.4. Các độ đo sử dụng để xác định điểm chia tốt nhất .13


    2.4.1. Độ lợi thông tin (Information Gain) .14


    2.4.2. Độ đo tỷ lệ Gain (Gain ratio) 15


    2.4.3. Chỉ số Gini (Gini index) .15


    2.5. Cắt tỉa cây (thu gọn cây) .17


    2.6. Rút ra quy tắc phân lớp từ cây quyết định 18


    2.7. Các thuật toán trong cây quyết định .19


    2.8. Quá trình tạo cây quyết định 21


    2.8.1. Khả năng học và tổng quát hóa 21


    2.8.2. Các phương pháp huấn luyện cây 21


    2.9. Giải thuật C4.5 22


    Tổng kết .25


    Chương 3.Mô hình cây quyết định trong dự báo xu thế của thị trường chứng khoán.27


    3.1. Giới thiệu chung về dữ liệu thời gian thực .27


    3.1.1. Các thành phần của dữ liệu thời gian thực .27


    3.1.2. Các phương pháp làm trơn .29


    3.2. Dữ liệu chứng khoán 30


    3.3. Mô hình dự báo tài chính 32


    3.4. Thiết kế cây quyết định cho dữ liệu thời gian thực 33


    3.4.1. Tập hợp dữ liệu .33


    3.4.2. Tiền xử lý dữ liệu .34


    3.4.3. Phân hoạch dữ liệu .34

    3.4.4. Mô hình hóa cây quyết định .36


    3.4.5. Tiêu chuẩn đánh giá 37


    3.4.6. Triển khai 40


    Tổng kết .40


    Chương 4. Thực nghiệm 41


    4.1. Môi trường thực nghiệm .41


    4.2. Xây dựng cơ sở dữ liệu .42


    4.2.1. Dữ liệu chứng khoán 42


    4.2.2. Xây dựng dữ liệu cho mô hình .42


    4.3. Thực nghiệm mô hình cây quyết định cho dữ liệu thời gian thực .47


    4.3.2. Đánh giá mô hình .50


    4.3.3. Lựa chọn mô hình tốt nhất 51


    4.4. Một số mô hình khác 55


    4.4.1. Mô hình mạng nơ ron .56


    4.4.2. Mô hình SVM (support vector machine) .59


    Kết luận 62


    Kết quả đạt được của luận văn .62


    Hướng nghiên cứu tiếp theo .62


    PHỤ LỤC-MỘT SỐ THUẬT NGỮ ANH –VIỆT 63


    TÀI LIỆU THAM KHẢO .64

    DANH MỤC HÌNH VẼ


    Hình 1-0: Bước 1 Học để xây dựng mô hình phân lớp .5


    Hình 1-1: Bước 2 Kiểm tra và đánh giá .6


    Hình 1-2: Ví dụ về học mô hình 7


    Hình 1-3 : Ví dụ về phân lớp dữ liệu .7


    Hình 2-0: Biểu diễn cấu trúc cây quyết định .12


    Hình 2-1: Một cây quyết định miêu tả khái niệm “mua máy tính” .18


    Hình 3-0: Thành phần xu hướng dài hạn .28


    Hình 3-1: Thành phần mùa 28


    Hình 3-2: Thành phần chu kỳ 29


    Hình 3-3: Mô hình cây quyết định dự báo chứng khoán 32


    Hình 3-5: Tỷ lệ kích thước của tập huấn luyện và tập kiểm chứng .35


    Hình 4-0: Giao diện chính của weka .42


    Hình 4-1: Dữ liệu chứng khoán thu được từ sàn chứng khoán 43


    Hình 4-2: (a) Một trong số những dữ liệu huấn luyện từ 1/2008-12/2008 45


    (b) Một trong số những bộ kiểm chứng từ 1/2009-3/2009 45


    Hình 4-3: Một trong những file dữ liệu đầu ra của chương trình 45


    Hình 4-4: Lệnh đọc file CSV và chuyển thành file ARFF 46


    Hình 4-5: Dữ liệu dưới định dạng arff trong weka 47


    Hình 4-6: Lệnh huấn luyện dữ liệu 49


    Hình 4-8: Lệnh đánh giá dựa trên tập kiểm chứng 50


    Hình 4-12: (a) Cấu trúc một nơ ron .57


    (b) Cấu trúc mạng nơ ron .57
     

    Các file đính kèm:

Đang tải...