Luận Văn Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Bống Hà, 1/5/13.

  1. Bống Hà

    Bống Hà New Member

    Bài viết:
    5,424
    Được thích:
    2
    Điểm thành tích:
    0
    Xu:
    0Xu
    Mở đầu
    Sự ra đời của các máy tìm kiếm đã giúp ích cho con người rất nhiều trong các
    hoạt động khai thác thông tin. Tuy nhiên, chất lượng tìm kiếm thông tin vẫn còn nhiều
    hạn chế, đặc biệt là tìm kiếm thông tin về người, một trong những lĩnh vực có truy vấn
    lớn nhất trong các máy tìm kiếm. Mặt khác, thực thể người là một trong những loại
    thực thể có độ nhập nhằng cao nhất, vì vậy mà các kết quả trả về bởi máy tìm kiếm sẽ
    bao gồm tất cả những người có tên giống nhau và người dùng cần phải đọc lần lượt để
    tìm ra kết quả mong muốn. Vì vậy mà cần thiết phải có một hệ thống có khả năng gom
    cụm kết quả sao cho những trang Web thuộc cùng một cụm nói về một người, và
    những trang Web thuộc các cụm khác nhau nói về những người khác nhau.
    Bài toán cốt lõi cho vấn đề này là bài toán giải quyết nhập nhằng tên người trên
    tập văn bản. Bài toán này đã nhận được sự quan tâm từ các nhà nghiên cứu trong các
    hội nghị lớn trong những năm gần đây như Colling, ACL, Senseval Đặc biệt là hội
    nghị WebPS1, hội nghị dành riêng cho các vấn đề giải quyết nhập nhằng tên người
    trong kết quả tìm kiếm Web. Trong những năm gần đây, có rất nhiều nghiên cứu và ý
    tưởng được đề xuất trên thế giới để giải quyết bài toán này,
    Tuy nhiên, đối với tiếng Việt thi các nghiên cứu về bài toán này vẫn còn rất hạn
    chế. Các nghiên cứu tập trung chủ yếu vào việc thể hiện tốt nhất các ngữ cảnh riêng
    biệt cho từng người, tìm các độ đo tương đồng ngữ cảnh phù hợp và phân cụm ngữ
    cảnh, hay phân cụm văn bản chứa ngữ cảnh. Và các phương pháp thường chỉ thao tác
    trên một miền dữ liệu tương đối đặc thù, chứ không có một phương pháp khả thi trên
    nhiều miền dữ liệu. Việc tìm ra một phương pháp tốt cho tiếng Việt vẫn là một vấn đề
    khó khăn, mặc dù tiếng Việt đã giải quyết được một số bài toán cơ sở (thuộc đề tài KC
    01.01/06-10), tuy nhiên so với nhu cầu của bài toán giải quyết nhập nhằng tên người
    thì vẫn chưa đủ.
    Mục tiêu của khóa luận là khảo sát, nghiên cứu để đưa ra một phương pháp đủ
    tốt giải quyết bài toán phân biệt nhập nhằng tên người trên miền dữ liệu báo điện tử
    tiếng Việt. Để đạt được mục tiêu này, khóa luận khảo sát một số phương pháp tiêu
    biểu nhất giải quyết bài toán này trên thế giới. Từ đó, khóa luận đưa ra phương pháp
    giải quyết bài toán phân biệt nhập nhằng tên người trên tập văn bản tiếng Việt. Đầu
    tiên, khảo sát miền dữ liệu báo điện tử để tìm ra những đặc trưng tốt (dựa trên từ vựng
    và đặc điểm mạng xã hội) thể hiện riêng biệt cho một người, phân biệt người đó với
    những người khác cùng tên. Tiếp đó, thực hiện việc gom cụm các văn bản chứa tên
     

    Các file đính kèm:

Đang tải...