Thạc Sĩ Phương pháp học tăng cường

Quy Ẩn Giang Hồ · 16/4/12

MỞ ĐẦU
Xã hội ngày càng hiện đại, các kỹ thuật công nghệ ngày càng phát triển, đi cùng với nó là các nghiên cứu phát triển không ngừng về lĩnh vực trí tuệ nhân tạo và học máy, cho ra đời các hệ thống máy móc thông minh ứng dụng rộng rãi trong hầu hết các lĩnh vực đời sống như máy truy tìm dữ liệu, chẩn đoán y khoa, phát hiện thẻ tín dụng giả, phân tích thị trường chứng khoán, phân loại chuỗi DNA, nhận dạng tiếng nói và chữ viết, đặc biệt là trong lĩnh vực điều khiển. Các phương pháp tự đào tạo (học) đã được đưa ra từ rất lâu để chỉ khả năng các hệ thống thông minh trong quá trình hoạt động tự tích luỹ, phân tích các thông tin thu được từ đó tự nâng cao khả năng của bản thân, đây chính là mục đích quan trọng trong lỹ thuyết quyết định cũng như trong các bài toán tự động hoá và điều khiển tối ưu. Chúng ta có nhiều loại thuật toán học như học có giám sát, học không có giám sát, học tăng cường, mỗi loại thuật toán thích ứng với từng loại bài toán cụ thể. Trong phạm vi đề tài này, chúng ta sẽ nghiên cứu và tìm hiểu các vấn đề liên quan đến phương pháp học tăng cường. Đây là một thuật toán học có khả năng giải quyết được những bài toán thực tế khá phức tạp trong đó có sự tương tác giữ hệ thống và môi trường. Với những tình huống môi trường không chỉ đứng yên, cố định mà thay đổi phức tạp thì các phương pháp học truyền thống không còn đáp ứng được mà phải sử dụng phương pháp học tăng cường. Những bài toán với môi trường thay đổi trong thực tế là không nhỏ và ứng dụng nhiều trong các lĩnh vực quan trọng.
MỤC LỤC
LỜI CẢM ƠN .1
MỤC LỤC .2
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT 4
MỞ ĐẦU .5
CHƯƠNG 1 BÀI TOÁN QUYẾT ĐỊNH MARKOV VÀ PHƯƠNG
PHÁP HỌC TĂNG CƯỜNG .7
1.1 PHÁT BIỂU BÀI TOÁN 7
1.2 CÁC PHẦN TỬ CỦA BÀI TOÁN QUYẾT ĐỊNH MARKOV .10
1.2.1 Hàm phản hồi .15
1.2.2 Hàm giá trị .16
1.3 CẤU TRÚC TOÁN HỌC CỦA BÀI TOÁN QUYẾT ĐỊNH MARKOV
20
1.4 PHƯƠNG PHÁP HỌC TĂNG CƯỜNG 26
1.4.1 Ý tưởng chung .26
1.4.2 Một số thuật ngữ 30
1.4.2.1 Khảo sát và khai thác .30
1.4.2.2 Kỹ thuật ε-greedy, ε-soft và softmax .30
1.4.2.3 Khái niệm học on-policy và off-policy .32
1.4.3 Phân loại thuật toán học tăng cường .33
1.4.3.1 Học dựa trên mô hình .33
1.4.3.2 Học không có mô hình 33
1.4.4 Lịch sử phát triển và các lĩnh vực ứng dụng .35
CHƯƠNG 2 CÁC THUẬT TOÁN HỌC TĂNG CƯỜNG .40
2.1 PHƯƠNG PHÁP QUY HOẠCH ĐỘNG (DP) .40
2.2 PHƯƠNG PHÁP MONTE CARLO (MC) .41
2.2.1 Phương pháp MC on-policy 44
2.2.2 Phương pháp MC off-policy 45
2.3 PHƯƠNG PHÁP TEMPORAL DIFFERENCE (TD) 45
2.3.1 TD(0) .46
2.3.2 TD(λ) .47
2.3.3 Q-Learning .48
2.3.4 SARSA 49
3
2.4 SO SÁNH CÁC THUẬT TOÁN HỌC TĂNG CƯỜNG ĐIỂN HÌNH 50
2.5 MỘT SỐ PHƯƠNG PHÁP TIẾN BỘ KHÁC 51
CHƯƠNG 3 THỬ NGHIỆM .52
3.1 BÀI TOÁN LỰA CHỌN MÔ PHỎNG 52
3.2 PHƯƠNG PHÁP HỌC TĂNG CƯỜNG LỰA CHỌN MÔ PHỎNG 55
3.2.1 Phương pháp quy hoạch động (DP) 55
3.2.2 Học không có mô hình (Phương pháp Q-Learning) 58
3.2.3 Học dựa trên mô hình (Phương pháp prioritized sweeping) .59
3.3 KỊCH BẢN VÀ KẾT QUẢ THỬ NGHIỆM 61
3.3.1 Kịch bản 1: Thay đổi kích thước không gian trạng thái 67
3.3.1.1 Số bước hội tụ .68
3.3.1.2 Thời gian hội tụ 68
3.3.1.3 Phân tích kết quả 69
3.3.1.4 Giải pháp cải thiện .70
3.3.1.5 Kết luận 70
3.3.2 Kịch bản 2: Thay đổi hệ số học .70
3.3.2.1 Phân rã hệ số học theo số đoạn lặp .71
3.3.2.2 Mối quan hệ giữa giá trị chiến lược và hệ số học .71
3.3.2.3 Phân tích kết quả 73
3.3.2.4 Giải pháp cải thiện .73
3.3.2.5 Kết luận 74
3.3.3 Kịch bản 3: Thay đổi số đoạn lặp 74
3.3.3.1 Mối quan hệ giữa giá trị chiến lược và số đoạn lặp 74
3.3.3.2 Phân tích đánh giá kết quả .76
3.3.4 Kịch bản 4: Thay đổi chiến lược lựa chọn 76
3.3.4.1 Mối quan hệ giữa giá trị chiến lược và tham số chiến lược 76
3.3.4.2 Phân tích đánh giá kết quả .77
ĐÁNH GIÁ KẾT LUẬN 78
TÀI LIỆU THAM KHẢO .79
TÓM TẮT LUẬN VĂN .80

Thạc Sĩ Phương pháp học tăng cường

Quy Ẩn Giang Hồ Administrator
Thành viên BQT

Các file đính kèm:

phuong_phap_hoc_tang_cuong.pdf

Thạc Sĩ Một số phương pháp giải hệ phương trình trong chương trình toán Trung học phổ thông

Thạc Sĩ Xác định Mo(VI) bằng phương pháp trắc quang động học xúc tác

Thạc Sĩ phương pháp nguyên lý cực trị gauss đối với các bài toán động lực học công trình

Thạc Sĩ Phương pháp luận chuẩn đoán và châm cứu trong y học cổ truyền

Tiến Sĩ Nghiên cứu phương pháp tổng hợp cảm biến dùng cho kỹ thuật dẫn đường các robot di động

Tải tài liệu

Diễn đàn

Chứng nhận bảo mật

Theo dõi chúng tôi

Tìm kiếm hữu ích

Thạc Sĩ Phương pháp học tăng cường

Quy Ẩn Giang Hồ Administrator Thành viên BQT

Các file đính kèm:

phuong_phap_hoc_tang_cuong.pdf

Thạc Sĩ Một số phương pháp giải hệ phương trình trong chương trình toán Trung học phổ thông

Thạc Sĩ Xác định Mo(VI) bằng phương pháp trắc quang động học xúc tác

Thạc Sĩ phương pháp nguyên lý cực trị gauss đối với các bài toán động lực học công trình

Thạc Sĩ Phương pháp luận chuẩn đoán và châm cứu trong y học cổ truyền

Tiến Sĩ Nghiên cứu phương pháp tổng hợp cảm biến dùng cho kỹ thuật dẫn đường các robot di động

Quy Ẩn Giang Hồ Administrator
Thành viên BQT