Thạc Sĩ ứng dụng mô hình maximum entropy trong phân lớp quan điểm cho dữ liệu văn bản

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Quy Ẩn Giang Hồ, 21/6/17.

  1. Quy Ẩn Giang Hồ

    Quy Ẩn Giang Hồ Administrator
    Thành viên BQT

    Bài viết:
    3,084
    Được thích:
    23
    Điểm thành tích:
    38
    Xu:
    0Xu
    MỞ ĐẦU

    1. Tính cấp thiết của đề tài luận văn

    Ngày nay, xã hội của chúng ta đang chứng kiến sự bùng nổ của Internet và đặc biệt là sự phát triển đến chóng mặt của các mạng xã hội như Facebook, Twitter cũng như các diễn đàn, các trang thông tin mạng về đa dạng các lĩnh vực. Chúng ta thường gọi chúng với tên chung là các kênh truyền thông xã hội trực tuyến (social media online). Trên các kênh truyền thông này là một lượng dữ liệu về quan điểm, ý kiến khổng lồ (big data) tới trực tiếp từ hàng trăm triệu người dùng trong nước cũng như quốc tế. Vì lẽ đó, việc giám sát thương hiệu thông qua thu thập, phân tích những phản hồi, ý kiến, đóng góp của người sử dụng trên những kênh truyền thông này là vô cùng quan trọng và hữu ích với các công ty, doanh nghiệp và các tổ chức nói chung. Việc thu thập và xử lý kịp thời các thông tin này sẽ hỗ trợ tích cực cho các công ty, doanh nghiệp và tổ chức thực hiện được: (I) nắm bắt được mức độ phổ biến, lan tỏa và tầm ảnh hưởng của thương hiệu; (II) nắm bắt được tâm tư, nguyện vọng và cả những phản hồi, góp ý trực tiếp từ cộng đồng, những người sử dụng dịch vụ để từ đó đưa ra những điều chỉnh phù hợp; (III) nắm bắt và hiểu được những phản hồi và bình luận trên diện rộng đối với các vấn đề, sự kiện quan trọng của tổ chức; (IV) kịp thời bảo vệ thương hiệu của đơn vị trước những thông tin dư luận thiếu chính xác và sai lệch. Chính vì lẽ đó, việc phát triển một hệ thống có thể tự động thu thập, phân tích và tổng hợp dữ liệu truyền thông là vô cùng cần thiết và hữu ích đối với sự phát triển của bất cứ một công ty, doanh nghiệp hay tổ chức nào, trong đó có cả Đại học Quốc gia (ĐHQG) Hà Nội. Mục tiêu của nhóm đề tài là xây dựng hệ thống tự động phân tích dữ liệu truyền thông xã hội trực tuyến phục vụ quản lý và hỗ trợ ra quyết định, kinh tế, chính trị, giáo dục và xã hội cho Đại học Quốc gia Hà Nội với tên gọi VNU-SMM (Vietnam National University-Social Media Monitoring).
    2. Mục tiêu của luận văn
    Luận văn tập trung vào tìm hiểu các mô hình học máy có giám sát phổ biến, được ứng dụng trong bài toán phân lớp quan điểm người dùng cho dữ liệu văn bản thu được từ các kênh truyền thông xã hội. Trong luận văn, chúng tôi cũng đã lựa chọn bộ phân lớp Maximum Entropy để cài đặt và thử nghiệm, đồng thời ứng dụng vào hệ thống tự động phân tích dữ liệu truyền thông xã hội trực tuyến phục vụ quản lý và hỗ trợ ra quyết định trong lĩnh vực đào tạo cho Đại học Quốc gia Hà Nội.
    3. Cấu trúc của luận văn
    Luận văn được tổ chức thành năm chương. Trong chương 1, chúng tôi sẽ giới thiệu về bài toán phân lớp quan điểm người dùng, các hướng tiếp cận và các giải pháp đã và đang được nghiên cứu, sử dụng trên thế giới. Trong chương tiếp theo, chúng tôi sẽ mô tả tổng quan về hệ thống tự động thu thập và phân tích dữ liệu truyền thông xã hội trực tuyến cho Đại học Quốc gia Hà Nội - VNU-SMM và vai trò của thành phần phân lớp quan điểm người dùng trong hệ thống. Nội dung chi tiết về bộ phân lớp Maximum entropy và ứng dụng của nó trong bài toán phân tích quan điểm người dung sẽ được chúng tôi trình bày trong chương 3. Trong chương 4, chúng tôi sẽ tập trung trình bày về kết quả thực nghiệm, sau đó đánh giá, phân tích kết quả, những lỗi và điểm yếu còn tồn tại. Cuối cùng, chúng tôi sẽ tổng kết lại những nội dung đã thực hiện trong luận văn, từ đó đề xuất hướng nghiên cứu và phát triển trong tương lai.

    Mục lục
    Lời cảm ơn .2
    Danh sách hình vẽ .5
    Danh sách bảng biểu 6
    MỞ ĐẦU 1
    1. Tính cấp thiết của đề tài luận văn .1
    2. Mục tiêu của luận văn .1
    3. Cấu trúc của luận văn 1
    Chương 1 Bài toán phân lớp quan điểm và các hướng tiếp cận 3
    1.1 Bài toán phân tích quan điểm 3
    1.2 Các hướng tiếp cận và giải quyết bài toán 5
    1.3 Mô hình phân lớp Naïve Bayes .7
    1.4 Mô hình phân lớp SVM 8
    1.5 Mô hình phân lớp Maximum Entropy 11
    Chương 2 Tổng quan hệ thống VNU-SMM .13
    2.1 Kiến trúc tổng thể của hệ thống 13
    2.1.1. Khối chức năng tự động thu thập dữ liệu .14
    2.1.2. Khối chức năng lõi với chức năng theo dõi và giám sát thông tin trực tuyến14
    2.1.3. Khối hiển thị, giao diện tương tác với người dùng cuối 15
    2.2 Thu thập và gán nhãn dữ liệu 15
    2.3 Phân lớp quan điểm .16
    Chương 3 Bộ phân lớp Maximum Entropy .17
    3.1. Tổng quan về entropy cực đại 17
    3.2. Entropy là gì? .18
    3.3. Mô hình Maximum Entropy (ME) .20
    3.3.1. Các ràng buộc và đặc trưng .20
    3.3.2. Nguyên lý Entropy cực đại 21
    3.3.3. Dạng tham số .22
    3.3.4. Tính toán các tham số 22
    Chương 4 Kết quả thử nghiệm và đánh giá .28
    4.1. Tiến hành thử nghiệm 28
    4.2. Tiền xử lý dữ liệu .29
    4.3. Xây dựng mô hình 30
    4.3.1. Lựa chọn đặc trưng 30
    4.3.2. Cài đặt thuật toán học 30
    4.4. Kết quả thử nghiệm 30
    4.4.1. Các chỉ số đo kiểm chất lượng bộ phân lớp .30
    4.4.2. Kết quả thực nghiệm bài toán phân lớp mức độ câu .31
    4.5. So sánh với bộ phân lớp Naïve Bayes 32
    4.6. Đánh giá kết quả .32
    Chương 5 Tổng kết và hướng phát triển tiếp theo 34
    Chương 6 Tài liệu tham khảo 35
     
Đang tải...