Thạc Sĩ Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Phí Lan Dương, 4/11/15.

  1. Phí Lan Dương

    Phí Lan Dương New Member
    Thành viên vàng

    Bài viết:
    18,524
    Được thích:
    18
    Điểm thành tích:
    0
    Xu:
    0Xu
    3



    MỤC LỤC
    LỜI CẢM ƠN 1
    LỜI CAM ĐOAN 2
    MỤC LỤC . 3
    DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT . 5
    DANH SÁCH CÁC BẢNG . 6
    DANH SÁCH CÁC HÌNH . 7
    MỞ ĐẦU . 8
    CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU, KHAI PHÁ QUAN
    ĐIỂM . 10
    1.1 Khai phá dữ liệu 10
    1.2 Các phương pháp khai phá dữ liệu 12
    1.3 Các kỹ thuật khai phá dữ liệu 13
    1.4 Các thách thức trong khai phá dữ liệu . 15
    1.5 Ứng dụng khai phá dữ liệu 17
    1.6 Phân tích và khai phá quan điểm . 18
    1.6.1 Phân tích quan điểm qua các cấp độ dữ liệu 18
    1.6.2 Các thách thức của khai phá quan điểm . 19
    CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÂN LỚP QUAN ĐIỂM 21
    2.1 Kỹ thuật học có giám sát . 21
    2.2 Lựa chọn đặc trưng 22
    2.3 Các phương pháp phân lớp quan điểm . 24
    2.3.1 Mô hình học máy SVM . 24
    2.3.2 Mô hình cây quyết định . 26
    2.3.3 Mô hình xác suất Bayes . 29
    2.3.4 Thuật toán KNN 31
    2.4 Đánh giá mô hình phân lớp . 33
    CHƯƠNG 3: PHÂN LỚP QUAN ĐIỂM TRÊN MÔ HÌNH QUI HỒI
    LOGISTIC . 35 4



    3.1 Cơ sở lý thuyết 35
    3.1.1 Các khái niệm 35
    3.1.2 Mô hình qui hồi Logistic . 36
    3.1.3 Phương pháp tìm tham số và tối ưu mô hình qui hồi Logistic 36
    3.2 Mô hình qui hồi Logistic áp dụng bài toán phân lớp quan điểm 37
    CHƯƠNG 4: THỰC NGHIỆM 39
    4.1 Môi trường và mô hình thực nghiệm . 39
    4.2. Thu thập và xử lý dữ liệu 40
    4.2.1. Dữ liệu về các dự thảo đề án quốc gia 40
    4.2.2 Xử lý dữ liệu . 42
    4.3 Thực nghiệm phân lớp và đánh giá 43
    4.4 Đánh giá kết quả thực nghiệm . 48
    CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TIẾP THEO 49
    TÀI LIỆU THAM KHẢO . 50 5




    DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT
    Từ viết tắt Từ tiếng Anh
    TF Term Frequency
    IDF Inverse Document Frequency
    TFIDF Term Frequency - Inverse Document Frequency
    SVM Support Vector Machine
    KNN K Nearest Neighbors
    Stopword Những từ phổ biến hoặc hiếm gặp, không có giá trị trong
    phân lớp
    6




    DANH SÁCH CÁC BẢNG
    Bảng 1: Môi trường thực nghiệm
    Bảng 2: Các phần mềm sử dụng
    Bảng 3: Tổng hợp dữ liệu thực nghiệm
    Bảng 4: Tổng hợp kết quả với các kích thước tập huấn luyện
    Bảng 5: Độ đo phân lớp mô hình qui hồi Logistic và thuật toán KNN



    7




    DANH SÁCH CÁC HÌNH
    Hình 1: Quá trình khai phá dữ tri thức
    Hình 2: Các kỹ thuật Khai phá dữ liệu
    Hình 3: Thuật toán KNN phân lớp quan điểm
    Hình 4: Mô hình thực nghiệm
    Hình 5: Quy trình xử lý dữ liệu
    Hình 6: Mô tả dữ liệu thực nghiệm
    Hình 7: Kết quả thực nghiệm với L1, L2
    Hình 8: Kết quả phân lớp
    Hình 9: Biểu diễn đánh giá mô hình qui hồi Logistic và KNN






    8



    MỞ ĐẦU
    Khai phá tri thức là lĩnh vực rất phát triển trong những năm gần đây và
    được ứng dụng trong nhiều lĩnh vực. Khi quyền tự do ngôn luận ngày càng được
    Nhà nước ta chú trọng, công dân có quyền được tham gia bàn bạc, thảo luận và
    đóng góp ý kiến vào những vấn đề chung của đất nước đã đặt ra Bài toán cho
    khai phá tri thức, cụ thể là khai phá quan điểm: “Làm thế nào để phân tích các
    quan điểm được trao đổi trên các phương tiện thông tin đại chúng, để từ đó đưa
    ra dự đoán cho vấn đề được thảo luận?”.
    Nhận thấy các dự thảo đề án quốc gia luôn có tác động lớn đến nền kinh
    tế, đời sống xã hội, luôn nhận được nhiều ý kiến đóng góp của các chuyên gia và
    nhân dân. Các ý kiến đóng góp cũng có tác động ngược lại đến đề án trong suốt
    quá trình khởi tạo và diễn ra dự án.
    Luận văn “Phân loại quan điểm trên phương tiện xã hội đối với dự
    thảo đề án quốc gia” đưa ra một giải pháp giải quyết vấn đề Bài toán phân tích
    quan điểm trên phương tiện thông tin đại chúng, cụ thể là môi trường mạng. Để
    làm được việc này, luận văn tiến hành nghiên cứu các cơ sở lý thuyết, đề xuất
    giải pháp thực hiện và áp dụng thực nghiệm trên miền dữ liệu về các dự thảo đề
    án quốc gia.
    Cấu trúc luận văn gồm bốn chương đi từ tổng quan đến chi tiết vấn đề,
    giải pháp và thực nghiệm:
    Chương 1: Trình bày tổng quan về khai phá dữ liệu, khai phá quan điểm
    Xuất phát điểm từ những kiến thức nền tảng cần nắm được trong lĩnh vực
    khai phá tri thức, khai phá quan điểm, luận văn trình bày các cơ sở lý thuyết theo
    logic giải quyết Bài toán. Từ đó, ta chọn ra một phương pháp phù hợp với Bài
    toán được trình bày trong chương 2.
    Chương 2: Nghiên cứu các phương pháp phân lớp quan điểm
    Có nhiều phương pháp để phân lớp quan điểm, mỗi phương pháp có một
    lịch sử, tư tưởng và đặc trưng riêng phù hợp giải quyết từng vấn đề.
    Chương 3: Phân lớp quan điểm với qui hồi Logistic
    Mô hình qui hồi Logistic là phương pháp mà luận văn lựa chọn để phân
    lớp quan điểm và dự báo, qua đó phân tích kết quả thực nghiệm. Mô hình phân 9



    tích mối tương quan biến dự đoán phân loại và biến kết quả dự đoán, mô hình
    phù hợp dữ liệu bài toán phân tích quan điểm tiêu cực hay tích cực.
    Chương 4: Thực nghiệm phân lớp quan điểm với dự thảo đề án quốc gia
    và đánh giá trên kết quả thực nghiệm
    - Thu thập và xử lý dữ liệu là các bình luận và bài báo nêu ra các quan
    điểm thảo luận về các dự thảo đề án quốc gia.
    - Thực nghiệm và đánh giá mô hình phân lớp quan điểm tiêu cực và tích
    cực đối với các dự thảo đề án trên mô hình qui hồi Logistis.
     
Đang tải...