Luận Văn Tự động đánh giá quan điểm người dùng

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Lời mở đầu

    Với sự bùng nổ của nguồn dữ liệu trên Internet, những bài toán về xử lý thông tin như: trích chọn thông tin, tóm tắt nội dung văn bản v.v ra đời như một nhu cầu tất yếu. Thông tin trên mạng thường gồm 2 loại: sự việc và quan điểm. Ngược với loại quan điểm, thông tin về sự việc được rất nhiều công cụ giải quyết như máy tìm kiếm, lọc thông tin, Với thông tin loại quan điểm thì khó và ít hướng tới hơn tuy nhiên xét về mức độ quan trọng thì thông tin loại này cần thiết hơn, nhất là với những công ty buôn bán sản phẩm. Đối với họ, ý kiến đánh giá về sản phẩm mà người dùng đưa ra là quan trọng nhất trong việc điều chỉnh và đưa ra những chiến lược buôn bán hiệu quả. Ra đời như một thiết yếu, hệ thống đánh giá quan điểm người dùng đã được nghiên cứu mạnh mẽ trong mấy năm gần đây và cũng đưa ra được nhiều kết quả đáng mong đợi. Trong đó có phương pháp đưa ra được kết quả khá khả quan như phương pháp sử dụng kết hợp phân lớp dựa trên luật, học giám sát và học máy.




    Mục lục

    Lời mở đầu i

    Lời cảm ơn ii

    Mục lục iii

    Danh sách hình vẽ vi

    Danh sách bảng vii

    Chương 1 Giới thiệu 1

    Chương 2 Các hướng tiếp cận cho bài toán đánh giá quan điểm 3

    2.1 Xu hướng các cuộc nghiên cứu gần đây 3

    2.1.1 Xác định từ, cụm từ quan điểm 4

    2.1.2 Xác định chiều hướng từ, cụm từ quan điểm 4

    2.1.3 Phân lớp câu / tài liệu chỉ quan điểm 7

    2.2 Những thách thức và công việc có thể trong tương lai 9

    2.2.1 Các loại từ khác 9

    2.2.2 Thuật ngữ chỉ quan điểm 10

    2.2.3 Tính phủ định 10

    2.2.4 Cấp độ quan điểm 11

    2.2.5 Sự phức tạp của câu / tài liệu 12

    2.2.6 Quan điểm theo ngữ cảnh 13

    2.2.7 Tài liệu không đồng nhất 13

    2.2.8 Một số vấn đề khác 14

    Chương 3 Giới thiệu GATE 15

    3.1 Tổng quan về GATE 15

    3.1.1 Mô hình kiến trúc của GATE 16

    3.1.2 Những khái niệm cơ bản trong GATE 18

    3.2 Xây dựng plugin trên GATE 18

    3.3 Các thành phần quan trọng của GATE 21

    3.3.1 Bộ từ điển (Gazetteers) 21

    3.3.2 Bộ luật JAPE 22

    3.4 Các công cụ quản lý chất lượng 27

    3.4.1 Công cụ đánh giá độ tương đồng khi gán nhãn hai văn bản (Annotation Diff) 27

    3.4.2 Công cụ đánh giá chất lượng của hệ thống (Corpus Benchmark tool) 28

    Chương 4 Hệ thống đánh giá quan điểm người dùng 30

    4.1 Giới thiệu hệ thống 30

    4.2 Thu thập dữ liệu và gán nhãn 31

    4.2.1 Thu thập dữ liệu 32

    4.2.2 Gán nhãn dữ liệu 33

    4.3 Xây dựng hệ thống đánh giá quan điểm 34

    4.3.1 Mô tả tổng quan hệ thống 35

    4.3.2 Tiền xử lý 37

    4.3.3 Xây dựng bộ từ điển 38

    4.3.4 Xây dựng bộ luật 40

    Chương 5 Kết quả thực nghiệm và phân tích lỗi 46

    5.1 Tiến hành thực nghiệm 46

    5.2 Kết quả thực nghiệm 47

    5.2.1 Kết quả thực nghiệm đánh giá ở mức từ 47

    5.2.2 Kết quả thực nghiệm đánh giá ở mức câu 48

    5.2.3 Kết quả thực nghiệm đánh giá ở mức văn bản theo từng Features 49

    5.2.4 Kết luận chung về kết quả đánh giá 53

    5.3 Phân tích lỗi 54

    5.3.1 Lỗi do gán nhãn từ loại (POS tag) 54

    5.3.2 Lỗi do luật 56

    5.3.3 Lỗi do tách câu 57

    Chương 6 Tổng kết và hướng phát triển 59

    Tài liệu tham khảo 60

    Phụ lục A. Annotation Guideline. 63

    Phụ lục B. Bảng nhãn từ loại tiếng Việt 64


    Chương 1


    Giới thiệu

    Hiện nay nền công nghệ càng ngày càng phát triển, đặc biệt với sự ra đời của Web, lượng thông tin trên Web là một kho tàng đồ sộ và nhiệm vụ của chúng ta là làm thế nào để khai thác kho tàng to lớn đó. Chính vì nó quá khổng lồ cho nên lượng thông tin rác cũng rất nhiều, vậy làm thế nào để biết được cái gì là cần thiết và cái gì là dư thừa. Các chuyên ngành như Web mining, NLP (Nature Language Processing), hay Machine Learning đều đi tìm câu trả lời cho câu hỏi đó tuy nhiên chúng cũng chỉ tìm được câu trả lời cho những phần nhỏ của câu hỏi mà thôi. Mỗi người quan tâm một số lĩnh vực, mỗi người cần biết thông tin về một vài thứ mà trên Web thì bao gồm vô vàn thông tin thế nhưng lĩnh vực mà đa số người đều quan tâm, từ những nhà doanh nghiệp đến khách hàng - những người dùng đều quan tâm đó chính là sản phẩm. Người dùng thì quan tâm sản phẩm này có tốt không, sản phẩm kia tốt ở chỗ nào và chỗ nào không tốt. Còn doanh nghiệp thì lại thường quan tâm đến sản phẩm của họ được mọi người tiếp đón thế nào, những điểm nào chưa tốt để họ bổ sung sửa chữa, hay phát huy thêm những điểm người dùng quan tâm Câu trả lời cho những câu hỏi này nằm trong nghiên cứu về “Opinion Mining” hay còn gọi “phân tích quan điểm người dùng”. Nghiên cứu này của chúng tôi xuất phát từ sự cần thiết của doanh nghiệp và người dùng, sử dụng những công cụ có ích nhất để đánh giá một cách chính xác nhất về sản phẩm. Với mỗi sản phẩm sẽ có những điểm tính năng riêng (Features) và nhiệm vụ của chúng tôi là từ những review, comment, Feedback, trên nguồn dữ liệu khổng lồ Web để đánh giá xem tính năng của sản phẩm này được mọi người tiếp đón thế nào.

    Hệ thống của chúng tôi sử dụng dữ liệu từ trên trang Web http//tinvadung.vn làm dữ liệu chuẩn để phát triển và kiểm thử hệ thống. Chúng tôi giải quyết bài toán dựa trên hướng tiếp cận về luật và phân lớp ở mức câu. Ở đây chúng tôi tạm thời chia thành 2 loại đánh giá của người dùng là hướng tích cực (positive) và hướng tiêu cực (negative). Hệ thống của chúng tôi được xây dựng trên nền GATE [3] – là một framework giúp phát triển các thành phần xử lý ngôn ngữ tự nhiên, và được sử dụng với dữ liệu về máy tính (laptop & desktop). Trong tương lai chúng tôi sẽ phát triển hệ thống để đưa ra một thước đo chính xác hơn về những đánh giá và mở rộng thêm với các lĩnh vực khác.

    Phần còn lại của khóa luận được chia thành 5 chương:

    ã Chương 2: Chúng tôi giới thiệu về những hướng tiếp cận cho bài toán tự động đánh giá quan điểm người dùng, những công trình nghiên cứu hiện tại và những thách thức sẽ giải quyết trong tương lai.

    ã Chương 3: Chúng tôi giới thiệu một cách tổng quan về khung làm việc GATE, và cách xây dựng một hệ thống tích hợp trong GATE.

    ã Chương 4: Chúng tôi mô tả chi tiết hệ thống tự động đánh giá quan điểm người dùng trong văn bản tiếng Việt được xây dựng trên khung làm việc GATE.

    ã Chương 5: Chúng tôi đưa ra những kết quả thực nghiệm và phân tích những lỗi vẫn còn tồn tại.

    ã Chương 6: Chúng tôi đưa ra những kết luận về hệ thống và hướng phát triển hệ thống trong tương lai.
     

    Các file đính kèm:

Đang tải...