Đồ Án Tự động tổng hợp và phân loại tin trong hệ thống trang tin điện tử

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Tóm tắt nội dung


    Trong hệ thống các website điện tử, các trang tin tức chiếm một vai trò hết sức quan trọng, giúp con người cập nhật những tin tức thời sự mới nhất thuận tiện mọi lúc mọi nơi. Theo Hiệp hội các nhà xuất bản trực tuyến (Online Publishers Association – OPA) thì phần lớn thời gian trên Internet con người dùng để đọc tin tức1. Như vậy, nhu cầu cập nhật tin tức của con người là rất lớn, và nếu người dùng chỉ phải vào một trang Web duy nhất để cập nhật được tất cả các tin tức thì sẽ tiện dụng hơn rất nhiều so với việc phải truy cập vào nhiều trang.


    Khóa luận này tập trung vào việc nghiên cứu và xây dựng một hệ thống tổng hợp tin tức, dựa trên bài toán trích xuất thông tin từ tài liệu Web và bài toán phân lớp văn bản. Khóa luận đưa ra mô hình gom tin tự động với tính mở rộng cao, trình bày các bước xây dựng một hệ thống tổng hợp tin tức. Khóa luận cũng đã tiến hành chạy các thực nghiệm và đánh giá kết quả. Kết quả đánh giá cho thấy chất lượng gom tin và phân loại là nhanh
    và đáng tin cậy.
































































    1
    http://www.zing.vn/news/cong-nghe/phan-lon-thoi-gian-vao-mang-la-de-doc-tin-tuc/a65575.html




    i





    Mục lục


    Tóm tắt nội dung .i Mục lục ii Bảng các ký hiệu viết tắt .iv Danh sách các hình .v Danh sách các bảng biểu .vi Giới thiệu .1
    Chương 1. Khái quát về các trang tin tức và các hệ thống tổng hợp tin tức của Việt Nam 3
    1.1. Khái quát chung về các báo điện tử 3
    1.2. Khái quát chung về các hệ thống tổng hợp tin tức 3
    Chương 2. Cơ sở lý thuyết xây dựng mô hình hệ thống tổng hợp và phân loại tin tự động 8
    2.1. Xây dựng crawler 8
    2.1.1. Khái niệm crawler .8
    2.1.2. Xây dựng crawler .10
    2.2. Xây dựng bộ trích chọn thông tin 11
    2.2.1. Trích chọn thông tin trên tài liệu Web 11
    2.2.2. Xây dựng bộ trích chọn tài liệu Web 11
    2.3. Xây dựng bộ phân lớp .12
    2.3.1. Khái niệm phân lớp văn bản .12
    2.3.2. Áp dụng thuật toán phân lớp entropy cực đại xây dựng bộ phân lớp văn bản .
    14
    2.3.3. Phương pháp đánh giá hiệu suất phân lớp 18
    Chương 3. Xây dựng hệ thống tổng hợp và phân loại tin tự động .21
    3.1. Cơ sở thực tiễn .21
    3.2. Xây dựng mô hình hệ thống 24
    3.2.1. Mô hình tổng quan 25
    3.2.2. Module chuẩn hóa dữ liệu huấn luyện/kiểm tra mô hình .29
    3.2.3. Module phân lớp .30
    3.2.4. Module sinh file huấn luyện .31
    3.3. Khả năng mở rộng của hệ thống 32





    Chương 4. Thực nghiệm và đánh giá kết quả .34
    4.1. Môi trường phần cứng và phần mềm 34
    4.1.1. Môi trường phần cứng 34
    4.1.2. Công cụ phần mềm .34
    4.2. Cấu trúc Cơ sở dữ liệu .37
    4.3. Đánh giá chất lượng tổng hợp tin 39
    4.4. Thực nghiệm và đánh giá hiệu suất phân loại tin tự động 39
    4.4.1. Xây dựng tập dữ liệu huấn luyện và kiểm tra mô hình 39
    4.4.2. Thực nghiệm thứ nhất .41
    4.4.3. Thực nghiệm thứ hai .44
    Kết luận .47
    Tài liệu tham khảo 49
     

    Các file đính kèm:

Đang tải...