Đồ Án Thuật toán Bayes và ứng dụng

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Mai Kul, 30/11/13.

  1. Mai Kul

    Mai Kul New Member

    Bài viết:
    1,299
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    Mục lục


    Chương 1 Giới thiệu 1


    1.1 Tổng quan .1


    1.2 Cấu trúc 3


    Chương 2 Cơ sở lý thuyết 4


    2.1 Phát biểu định lý Bayes 4


    2.2 Cực tiểu hóa rủi ro trong bài toán phân lớp Bayes .5


    2.3 Phân lớp Bayes chuẩn tắc .13


    2.4 Miền quyết định 20


    Chương 3 Phân lớp Naive Bayes . 22


    3.1 Định nghĩa 22


    3.2 Các mô hình xác suất Naive Bayes . 23


    3.3 Ước lượng tham số . 24


    3.4 Xây dựng một classifier từ mô hình xác suất . 25


    3.5 Thuật toán phân loại văn bản Naive Bayes 25


    Ví dụ: Phân loại thư điện tử bằng Naive Bayes classifier .27


    Chương 4 Giải quyết bài toán lọc thư rác 30


    4.1 Đặt vấn đề 30


    4.2 Bài toán 31


    4.3 Tiền xử lý mỗi lá thư điện tử .31


    4.4 Dùng luật Bayes tính xác suất .32


    4.5 Huấn luyện cho bộ lọc Bayes 33


    4.6 Lọc thư đến, có là thư rác không? .34


    4.7 Bộ lọc BayesSpam 35


    4.8 Một số cải tiến cho bộ lọc BayesSpam 38


    Chương 5 Kết luận 40







    Phụ lục A Cơ sở dữ liệu của bộ lọc 43


    Tài liệu tham khảo 44















    Chương 1 Giới thiệu




    1.1 Tổng quan




    Khoa học thống kê đóng một vai trò cực kỳ quan trọng, một vai trò không thể thiếu được trong bất cứ công trình nghiên cứu khoa học, nhất là khoa học thực nghiệm như y khoa, sinh học, nông nghiệp, hóa học, và ngay cả xã hội học. Thí nghiệm dựa vào các phương pháp thống kê học có thể cung cấp cho khoa học những câu trả lời khách quan nhất cho những vấn đề khó khăn nhất.


    Khoa học thống kê là khoa học về thu thập, phân tích, diễn giải và trình bày các dữ liệu để từ đó tìm ra bản chất và tính quy luật của các hiện tượng kinh tế, xã hội
    - tự nhiên. Khoa học thống kê dựa vào lý thuyết thống kê, một loại toán học ứng dụng.
    Trong lý thuyết thống kê, tính chất ngẫu nhiên và sự không chắc chắn có thể làm mô hình dựa vào lý thuyết xác suất. Vì mục đích của khoa học thống kê là để tạo ra thông tin "đúng nhất" theo dữ liệu có sẵn, có nhiều học giả nhìn khoa thống kê như một loại lý thuyết quyết định.


    Thống kê là một trong những công cụ quản lý vĩ mô quan trọng, cung cấp các thông tin thống kê trung thực, khách quan, chính xác, đầy đủ, kịp thời trong việc đánh giá, dự báo tình hình, hoạch định chiến lược, chính sách, xây dựng kế hoạch phát triển kinh tế - xã hội và đáp ứng nhu cầu thông tin thống kê của các tổ chức, cá nhân. Trong số những vai trò quan trọng thì dự báo tình hình là một trong những vai trò mang nhiều ý nghĩa, nó có cả một quá trình huấn luyện bên trong và có tính xử lý tự động khi đã được huấn luyện. Hay nói khác hơn là khi đã có tri thức lấy từ các dữ liệu thống kê hay kinh nghiệm của người dùng kết hợp với một phương pháp học (huấn luyện) dựa trên lý thuyết thống kê ta sẽ có được một cỗ máy có tri thức để tự nó có thể đưa ra được những quyết định với độ chính xác khá cao.


    Phân tích thống kê là một khâu quan trọng không thể thiếu được trong các công trình nghiên cứu khoa học, nhất là khoa học thực nghiệm. Một công trình nghiên cứu khoa học, cho dù có tốn kém và quan trọng cỡ nào, nếu không được phân tích đúng phương pháp sẽ không bao giờ có cơ hội được xuất hiện trong các tập san khoa học. Ngày nay, chỉ cần nhìn qua tất cả các tập san nghiên cứu khoa học trên thế giới, hầu như bất cứ bài báo y học nào cũng có phần “Statistical Analysis” (Phân tích thống kê), nơi mà tác giả phải mô tả cẩn thận phương pháp phân tích, tính toán như thế nào, và giải thích ngắn gọn tại sao sử dụng những phương pháp đó để hàm ý “bảo kê” hay







    tăng trọng lượng khoa học cho những phát biểu trong bài báo. Các tập san y học có uy tín càng cao yêu cầu về phân tích thống kê càng nặng. Không có phần phân tích thống kê, bài báo không thể xem là một “bài báo khoa học”. Không có phân tích thống kê, công trình nghiên cứu chưa được xem là hoàn tất.


    Trong khoa học thống kê, có hai trường phái “cạnh tranh” song song với nhau, đó là trường phái tần số (frequentist school) và trường phái Bayes (Bayesian school). Phần lớn các phương pháp thống kê đang sử dụng ngày nay được phát triển từ trường phái tần số, nhưng hiện nay, trường phái Bayes đang trên đà “chinh phục” khoa học bằng một suy nghĩ “mới” về khoa học và suy luận khoa học. Phương pháp thống kê thuộc trường phái tần số thường đơn giản hơn các phương pháp thuộc trường phái Bayes. Có người từng ví von rằng những ai làm thống kê theo trường phái Bayes là những thiên tài!


    Để hiểu sự khác biệt cơ bản giữa hai trường phái này, có lẽ cần phải nói đôi qua vài dòng về triết lý khoa học thống kê bằng một ví dụ về nghiên cứu y khoa. Để biết hai thuật điều trị có hiệu quả giống nhau hay không, nhà nghiên cứu phải thu thập dữ liệu trong hai nhóm bệnh nhân (một nhóm được điều trị bằng phương pháp A, và một nhóm được điều trị bằng phương pháp B). Trường phái tần số đặt câu hỏi rằng “nếu hai thuật điều trị có hiệu quả như nhau, xác suất mà dữ liệu quan sát là bao nhiêu”, nhưng trường phái Bayes hỏi khác: “Với dữ liệu quan sát được, xác suất mà thuật điều trị A có hiệu quả cao hơn thuật điều trị B là bao nhiêu”. Tuy hai cách hỏi thoạt đầu mới đọc qua thì chẳng có gì khác nhau, nhưng suy nghĩ kỹ chúng ta sẽ thấy đó là sự khác biệt mang tính triết lý khoa học và ý nghĩa của nó rất quan trọng. Đối với người bác sĩ (hay nhà khoa học nói chung), suy luận theo trường phái Bayes là rất tự nhiên, rất hợp với thực tế. Trong y khoa lâm sàng, người bác sĩ phải sử dụng kết quả xét nghiệm để phán đoán bệnh nhân mắc hay không mắc ung thư (cũng giống như trong nghiên cứu khoa học, chúng ta phải sử dụng số liệu để suy luận về khả năng của một giả thiết).
     

    Các file đính kèm:

Đang tải...