Thạc Sĩ Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường

Thảo luận trong 'Báo Chí' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    Đề tài: Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường


    Luận văn dài 73 trang:
    Nội dung và phạm viđề tài:Trình bày khái niệm khai phá dữ liệu, khai phá văn bản, một số kỹ thuật khai phá văn bản và phân lớp văn bản. Nghiên cứu một số đặc điểm đặc trưng của ngôn ngữ tiếng Việt, phương pháp tách từ tiếng Việt và loại bỏ từ dừng. Nghiên cứu các chủ đề về thông tin chuyên ngành tài nguyên và môi trường. Nghiên cứu, sử dụng thuật toán K-NN xây dựng bộ phân lớp văn bản báo chí tiếng việt về tài nguyên và môi trường vào các chủ đề chuyên ngành.
    MỤC LỤC



    Trang

    Mục lục


    Danh mục các bảng


    Danh mục các hình


    MỞ ĐẦU
    1

    Chương 1: KHÁI QUÁT VỀ PHÂN LỚP VĂN BẢN VÀ THUẬT TOÁN K LÁNG GIỀNG GẦN NHẤT
    3
    1.1.
    Khai phá dữ liệu văn bản
    3
    1.2.
    Khái niệm cơ bản trong khai phá văn bản
    3
    1.2.1.
    Một số khái niệm sử dụng trong luận văn
    3
    1.2.2.
    Các phương pháp đánh trọng số cho từ khóa
    4
    1.3.
    Một số phương pháp biểu diễn văn bản
    5
    1.3.1.
    Mô hình Boolean
    5
    1.3.2.
    Mô hình không gian vector
    6
    1.3.3.
    Mô hình xác suất
    7
    1.3.4.
    Mô hình LSI
    8
    1.4.
    Phương pháp lựa chọn từ trong biểu diễn văn bản
    8
    1.4.1.
    Loại bỏ từ dừng
    8
    1.4.2.
    Thu gọn đặc trưng biểu diễn
    8
    1.5.
    Độ liên quan giữa các văn bản
    13
    1.6.
    Phân lớp văn bản
    14
    1.7.
    Thuật toán K láng giềng gần nhất (KNN)
    17
    1.8.
    Kết chương
    18

    Chương 2: BÀI TOÁN PHÂN LỚP TỰ ĐỘNG VĂN BẢN BÁO CHÍ TIẾNG VIỆT VỀ TÀI NGUYÊN VÀ MÔI TRƯỜNG
    19
    2.1.
    Một số đặc điểm tiếng Việt
    19
    2.1.1.
    Âm tiết
    19
    2.1.2.
    Từ
    19
    2.1.3.
    Câu
    20
    2.1.4.
    Các đặc điểm chính tả văn bản tiếng Việt
    20
    2.2.
    Phương pháp tách từ tiếng Việt
    21
    2.2.1.
    Phương pháp So khớp tối đa
    21
    2.2.2.
    Phương pháp Giải thuật học cải biến
    22
    2.2.3.
    Phương pháp đối sánh thuật ngữ dài nhất
    23
    2.3.
    Một số thông tin chuyên ngành Tài nguyên và môi trường
    23
    2.3.1.
    Tài nguyên đất
    24
    2.3.2.

    Tài nguyên nước

    24

    2.3.3.
    Tài nguyên khoáng sản
    26
    2.3.4.
    Tài nguyên biển
    27
    2.3.5.
    Khí tượng thủy văn
    28
    2.3.6.
    Môi trường
    29
    2.3.7.
    Đo đạc và bản đồ
    29
    2.4.
    Bài toán phân lớp tự động các văn bản báo chí tiếng Việt về tài nguyên và môi trường
    31
    2.5.
    Mô hình tiếp cận bài toán
    31
    2.5.1.
    Tiền xử lý văn bản
    31
    2.5.2.
    Lựa chọn đặc trưng theo chủ đề văn bản
    34
    2.5.3.
    Xử lý tập mẫu
    34
    2.5.4.
    Biểu diễn văn bản trong mô hình vector
    35
    2.5.5.
    Phép tính độ liên quan giữa hai vector
    36
    2.5.6.
    Phân lớp văn bản tiếng việt về tài nguyên và môi trường
    36
    2.6.
    Kết chương
    36

    Chương 3: THIẾT KẾ XÂY DỰNG HỆ THỐNG PHÂN LỚP VĂN BẢN
    37
    3.1.
    Thiết kế tổng thể
    37
    3.2.
    Thiết kế chi tiết
    38
    3.3.
    Sơ đồ khung cảnh mức 0 của hệ thống
    39
    3.4.
    Sơ đồ khung cảnh mức 1 của chức năng tiền xử lý
    41
    3.5.
    Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản mẫu
    42
    3.6.
    Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản phân lớp
    43
    3.7.
    Chức năng quản lý từ điển, từ dừng
    44
    3.8.
    Chức năng quản lý chủ đề
    44
    3.9.
    Thiết kế cơ sở dữ liệu
    45
    3.10.
    Kết chương
    45

    Chương 4: CÀI ĐẶT MÔ HÌNH VÀ KIỂM THỬ KẾT QUẢ
    46
    4.1.
    Cài đặt chương trình
    46
    4.1.1.
    Lựa chọn công nghệ và môi trường cài đặt
    46
    4.1.2.
    Giao diện chương trình phân lớp văn bản báo chí tiếng Việt về tài nguyên và môi trường
    46
    4.2.
    Cơ sở dữ liệu
    50
    4.3.
    Kết quả
    51
    4.3.1.
    Kết quả tách từ
    51
    4.3.2.
    Kết quả phân lớp văn bản
    53
    4.4.
    Kết chương
    58

    KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN
    59

    DANH MỤC TÀI LIỆU THAM KHẢO
    61

    PHỤ LỤC
    64
     
Đang tải...