Thạc Sĩ Phương pháp học tăng cường

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    Phương pháp học tăng cường

    MỞ ĐẦU

    Xã Hội ngày càng hiện đại, các kỹ thuật Công Nghệ ngày càng phát triển, đi cùng với nó là các nghiên cứu phát triển không ngừng về lĩnh vực trí tuệ nhân tạo và học máy, cho ra đời các hệ thống máy móc thông minh ứng dụng rộng rãi trong hầu hết các lĩnh vực đời sống như máy truy tìm dữ liệu, chẩn đoán y khoa, phát hiện thẻ tín dụng giả, phân tích thị trường chứng khoán, phân loại chuỗi DNA, nhận dạng tiếng nói và chữ viết, đặc biệt là trong lĩnh vực điều khiển. Các phương pháp tự đào tạo (học) đã được đưa ra từ rất lâu để chỉ khả năng các hệ thống thông minh trong quá trình hoạt động tự tích luỹ, phân tích các thông tin thu được từ đó tự nâng cao khả năng của bản thân, đây chính là mục đích quan trọng trong lỹ thuyết quyết định cũng như trong các bài toán tự động hoá và điều khiển tối ưu. Chúng ta có nhiều loại thuật toán học như học có giám sát, học không có giám sát, học tăng cường, mỗi loại thuật toán thích ứng với từng loại bài toán cụ thể. Trong phạm vi đề tài này, chúng ta sẽ nghiên cứu và tìm hiểu các vấn đề liên quan đến phương pháp học tăng cường. Đây là một thuật toán học có khả năng giải quyết được những bài toán thực tế khá phức tạp trong đó có sự tương tác giữ hệ thống và môi trường. Với những tình huống Môi Trường không chỉ đứng yên, cố định mà thay đổi phức tạp thì các phương pháp học truyền thống không còn đáp ứng được mà phải sử dụng phương pháp học tăng cường. Những bài toán với Môi Trường thay đổi trong thực tế là không nhỏ và ứng dụng nhiều trong các lĩnh vực quan trọng.

    MỤC LỤC
    LỜI CẢM ƠN . 1
    MỤC LỤC . 2
    DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT . .4
    MỞ ĐẦU .5
    CHƯƠNG 1 BÀI TOÁN QUYẾT ĐỊNH MARKOV VÀ PHƯƠNG
    PHÁP HỌC TĂNG CƯỜNG .7
    1.1 PHÁT BIỂU BÀI TOÁN . .7
    1.2 CÁC PHẦN TỬ CỦA BÀI TOÁN QUYẾT ĐỊNH MARKOV .10
    1.2.1 Hàm phản hồi . 15
    1.2.2 Hàm giá trị .16
    1.3 CẤU TRÚC TOÁN HỌC CỦA BÀI TOÁN QUYẾT ĐỊNH MARKOV
    20
    1.4 PHƯƠNG PHÁP HỌC TĂNG CƯỜNG 26
    1.4.1 Ý tưởng chung .26
    1.4.2 Một số thuật ngữ . .30
    1.4.2.1 Khảo sát và khai thác . 30
    1.4.2.2 Kỹ thuật ε-greedy, ε-soft và softmax .30
    1.4.2.3 Khái niệm học on-policy và off-policy .3 2
    1.4.3 Phân loại thuật toán học tăng cường .33
    1.4.3.1 Học dựa trên mô hình . 33
    1.4.3.2 Học không có mô hình . .33
    1.4.4 Lịch Sử phát triển và các lĩnh vực ứng dụng .35
    CHƯƠNG 2 CÁC THUẬT TOÁN HỌC TĂNG CƯỜNG .40
    2.1 PHƯƠNG PHÁP QUY HOẠCH ĐỘNG (DP) .40
    2.2 PHƯƠNG PHÁP MONTE CARLO (MC) .4 1
    2.2.1 Phương pháp MC on-policy 44
    2.2.2 Phương pháp MC off-policy 45
    2.3 PHƯƠNG PHÁP TEMPORAL DIFFERENCE (TD) 45
    2.3.1 TD(0) .46
    2.3.2 TD(λ) .47
    2.3.3 Q-Learning .48
    2.3.4 SARSA 49
    3
    2.4 SO SÁNH CÁC THUẬT TOÁN HỌC TĂNG CƯỜNG ĐIỂN HÌNH 50
    2.5 MỘT SỐ PHƯƠNG PHÁP TIẾN BỘ KHÁC 51
    CHƯƠNG 3 THỬ NGHIỆM .52
    3.1 BÀI TOÁN LỰA CHỌN MÔ PHỎNG . .52
    3.2 PHƯƠNG PHÁP HỌC TĂNG CƯỜNG LỰA CHỌN MÔ PHỎNG 55
    3.2.1 Phương pháp quy hoạch động (DP) 55
    3.2.2 Học không có mô hình (Phương pháp Q-Learning) 58
    3.2.3 Học dựa trên mô hình (Phương pháp prioritized sweeping) .59
    3.3 KỊCH BẢN VÀ KẾT QUẢ THỬ NGHIỆM 61
    3.3.1 Kịch bản 1: Thay đổi kích thước không gian trạng thái 67
    3.3.1.1 Số bước hội tụ .68
    3.3.1.2 Thời gian hội tụ 68
    3.3.1.3 Phân tích kết quả . .69
    3.3.1.4 Giải pháp cải thiện . 70
    3.3.1.5 Kết luận 70
    3.3.2 Kịch bản 2: Thay đổi hệ số học . 70
    3.3.2.1 Phân rã hệ số học theo số đoạn lặp .71
    3.3.2.2 Mối quan hệ giữa giá trị chiến lược và hệ số học .71
    3.3.2.3 Phân tích kết quả . .73
    3.3.2.4 Giải pháp cải thiện . 73
    3.3.2.5 Kết luận 74
    3.3.3 Kịch bản 3: Thay đổi số đoạn lặp . .74
    3.3.3.1 Mối quan hệ giữa giá trị chiến lược và số đoạn lặp 74
    3.3.3.2 Phân tích đánh giá kết quả . 76
    3.3.4 Kịch bản 4: Thay đổi chiến lược lựa chọn 76
    3.3.4.1 Mối quan hệ giữa giá trị chiến lược và tham số chiến lược 76
    3.3.4.2 Phân tích đánh giá kết quả . 77
    ĐÁNH GIÁ KẾT LUẬN 78
    TÀI LIỆU THAM KHẢO .79
    TÓM TẮT LUẬN VĂN .80
     
Đang tải...