Đồ Án Mở rộng bộ dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÓM TẮT KHÓA LUẬN








    Trong các chủ đề thuộc lĩnh vực xử lý ngôn ngữ tự nhiên, xử lý nhập nhằng nghĩa của từ là một chủ đề dành được nhiều sự quan tâm chú ý của những nhà nghiên cứu, phát triển, ứng dụng khoa học máy tính. Lý do là mặc dù nếu đứng một mình, xử lý nhập nhằng nghĩa của từ ít đem lại lợi ích cụ thể trong đời sống hàng ngày, nhưng nó lại có một vai trò quan trọng trong nhiều ứng dụng xử lý ngôn ngữ tự nhiên hữu ích khác như dịch máy, tìm kiếm thông tin, khai phá dữ liệu, Do vậy đã có rất nhiều cách tiếp cận để giải quyết vấn đề xử lý nhập nhằng nghĩa của từ được đưa ra như sử dụng bộ cở sở tri thức, áp dụng các luật để xử lý nhập nhằng, hoặc sử dụng các thuật toán học máy có giám sát để phân lớp nghĩa của từ Trong tất cả các cách tiếp cận trên, lớp phương pháp dựa vào các thuật toán học máy có giám sát tỏ ra là có được một kết quả xử lý nhập nhằng tốt nhất. Tuy vậy lớp phương pháp này có một nhược điểm đó là yêu cầu một bộ dữ liệu huấn luyện (thường là lớn) các trường hợp xuất hiện của từ đã được gán nhãn nghĩa sẵn. Nếu phải chuẩn bị bộ dữ liệu huấn luyện này một cách thủ công thì ta phải tốn rất nhiều công sức, thời gian và chi phí do vậy tìm kiếm một giải pháp cho phép tự động hóa giai đoạn này là một nhu cầu thực tế. Nắm bắt được nhu cầu trên, đề tài khóa luận của tôi được thực hiện nhằm mục đích tìm hiểu phương pháp xây dựng một hệ thống xử lý nhập nhằng nghĩa của từ, đóng vai trò như một công cụ cho phép mở rộng bộ dữ liệu nhỏ đã gán nghĩa cho các trường hợp xuất hiện của từ đang cần mở rộng dữ liệu huấn luyện thành một bộ dữ liệu huấn luyện đủ lớn nhưng chỉ đòi hỏi rất ít công sức của con người, hỗ trợ cho quá trình xử lý nhập nhằng nghĩa của những từ mang nội dung trong ngôn ngữ tự nhiên.













    MỤC LỤC






    LỜI CẢM ƠN i TÓM TẮT KHÓA LUẬN ii MỤC LỤC iii DANH MỤC HÌNH VẼ vi DANH MỤC BẢNG BIỂU vii Chương 1: Mở đầu 1
    1.1. Đặt vấn đề .1


    1.2. Mục tiêu đề tài 2


    1.3. Đối tượng và phương pháp nghiên cứu 3


    1.4. Cấu trúc khóa luận 5


    Chương 2: Các đặc tính của từ liên quan đến mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa
    của từ 7


    2.1. Một nghĩa trong một nhóm từ đồng xuất hiện 7


    2.2. Một nghĩa trong một văn bản 8


    Chương 3: Các thuật toán trong phương pháp mở rộng bộ dữ liệu xử lý nhập nhằng .10


    3.1. Thuật toán học máy có giám sát Naive Bayes .10


    3.1.1. Giới thiệu về Naïve Bayes .10


    3.1.2. Ước lượng xác suất 11


    3.2. Thuật toán mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa của từ .13


    3.2.1. Giới thiệu .13


    3.2.2. Các bước của thuật toán .14


    3.3. Lựa chọn từ cho nhóm từ đồng xuất hiện trên quan điểm lý thuyết 18


    3.3.1. Khoảng cách lân cận của từ đang cần xử lý nhập nhằng nghĩa .19


    3.3.2. Xử lý từ trong nhóm từ đồng xuất hiện .19





    3.3.3. Chuyển đổi từ trong nhóm từ đồng xuất hiện thành thuộc tính của bộ phân lớp
    .20


    Chương 4: Cấu trúc và định dạng của dữ liệu 22


    4.1. Dữ liệu đầu vào 22


    4.1.1. Dữ liệu chuẩn đã gán nghĩa .22


    4.1.2. Dữ liệu chưa gán nghĩa – BNC 23


    4.2. Dữ liệu sử dụng trong quá trình chạy chương trình .25


    4.3. Định dạng file kết quả thực nghiệm .25


    Chương 5: Công cụ khảo sát, kiểm tra phương pháp mở rộng bộ dữ liệu xử lý nhập nhằng
    nghĩa. 27


    5.1. Bộ công cụ NLTK 27


    5.2. Công cụ khảo sát, kiểm tra phương pháp mở rộng bộ dữ liệu xử lý nhập nhằng
    nghĩa của từ. 27


    5.2.1. Các công cụ chuẩn bị dữ liệu .28


    5.2.2. Hàm công cụ test .29


    5.2.3. Các hàm phân lớp và mở rộng bộ dữ liệu 30


    5.2.4. Các hàm công cụ khác .31


    Chương 6: Kết quả thực nghiệm 32


    6.1. Dữ liệu thực nghiệm .32


    6.2. Thí nghiệm 1 34


    6.2.1. Bố trí thí nghiệm 34


    6.2.2. Kết quả thực nghiệm 35


    6.2.3. Nhận xét .36


    6.3. Thí nghiệm 2 37


    6.3.1. Bố trí thí nghiệm 37


    6.3.2. Kết quả thực nghiệm 38


    6.3.3. Nhận xét .38


    Chương 7: Kết luận 40


    7.1. Các kết quả đạt được và hạn chế 40





    7.2. Các công việc trong tương lai 41


    Tài liệu tham khảo 42
     

    Các file đính kèm:

Đang tải...