Tiểu Luận Phân lớp văn bản - phân loại website - BTL xử lý ngôn ngữ tự nhiên

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Mục lục

    I. Tổng quan 3
    1. Bài toán phân lớp văn bản. 3
    2. Ứng dụng. 3
    II. Phương pháp giải quyết bài toán 3
    1. Phương pháp Naïve Bayes. 3
    1.1. Định lý Bayes 3
    1.2. Phân loại Naïve Bayes 3
    1.3. Phân loại Naïve Bayes – Giải thuật 3
    1.4. Phân loại văn bản bằng phương pháp Naïve Bayes 3
    2. Áp dụng vào bài toán phân lớp trang web. 3
    III. Chương trình Demo. 3
    1. Giao diện chương trình. 3
    2. Cấu trúc mã nguồn các lớp chính của chương trình. 3
    IV. Kết luận 3
    V. Tài liệu tham khảo. 3




    I. Tổng quan 1. Bài toán phân lớp văn bản Phân lớp văn bản được coi là quá trình phân loại một văn bản bất kì vào một hay nhiều lớp cho trước. Quá trình này gồm hai bước. Ở bước thứ nhất, một mô hình phân lớp (classfication model) được xây dựng dựa trên tri thức kinh nghiệm. Ở đây, tri thức kinh nghiệm chính là một tập dữ liệu huấn luyện (training dataset) được cung cấp bởi con người bao gồm một tập văn bản và phân lớp tương ứng của chúng. Bước này còn gọi là bước xây dựng huấn luyện (training process) hay ước lượng mô hình phân lớp. Ở bước thứ hai, mô hình phân lớp xây dựng ở bước đầu sẽ được sử dụng để phân lớp cho những văn bản (chưa được phân loại) trong tương lai. Bước đầu tiên được xem như là việc học có giám sát mà chúng ta có thể sử dụng rất nhiều các kĩ thuật học máy đã có như: Naïve Bayes, k láng giềng gần nhất (kNN), cây quyết định (Decision Tree), Mục tiêu của bài toán phân lớp là nhằm xây dựng mô hình có khả năng gán nhãn cho một văn bản bất kì với độ chính xác cao nhất có thể.

    2. Ứng dụng Ứng dụng lớn nhất của bài toán phân lớp văn bản là áp dụng vào bài toán phân loại hay lọc nội dung. Trong bài toán lọc nội dung: một văn bản được phân loại vào nhóm: có ích hoặc không có ích. Sau đó lấy tất cả những văn bản thuộc nhóm có ích, nhóm còn lại bị loại bỏ. Các ứng dụng cụ thể như: lọc thư rác, lọc trang web phản động, Một ứng dụng khác của bài toán phân lớp là xây dựng bộ phân lớp sau tìm kiếm, ứng dụng này rất hữu ích vì nó định vị nội dung thông tin cần tìm kiếm nhanh và dễ dàng hơn.
     

    Các file đính kèm:

Đang tải...