Đồ Án Tìm kiếm văn bản tiếng Việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    LỜI MỞ ĐẦU

    Chúng ta biết rằng nguồn tài nguyên được lưu trữ dưới dạng dữ liệu văn bản là rất rộng lớn và giàu thông tin nhưng việc khai thác nguồn dữ liệu này vẫn chưa đạt hiệu quả cao. Hiện nay, trên thế giới đã có khá nhiều hệ thống thực hiện công việc này theo những phương pháp khác nhau tuy chưa đạt được hiệu quả tối ưu nhưng cũng phần nào đáp ứng được các yêu cầu thông tin của người sử dụng. Mỗi phương pháp khác nhau đều thể hiện được những điểm mạnh riêng của nó và việc lựa chọn phương pháp nào phụ thuộc vào những mục đích và tiêu chí riêng đặt ra.
    Hiện nay, sự gia tăng của các phương tiện truyền thông trong việc lưu trữ và sự bùng nổ của các cơ sở dữ liệu lớn làm cho việc tìm kiếm văn bản càng trở nên quan trọng hơn bao giờ hết. Chính vì vậy, việc lựa chọn phương pháp tìm kiếm văn bản giúp cho người sử dụng có thể tìm kiếm được những thông tin cần thiết một cách chính xác hiệu quả từ nguồn tài liệu văn bản rộng lớn phục vụ cho các mục đích trong công việc cũng như trong đời sống là rất cần thiết. Nhận thức được tầm quan trọng của việc khai thác dữ liệu văn bản, em đã lựa chọn đề tài: “Tìm kiếm văn bản tiếng Việt.

    Với đề tài này em đi sâu vào nghiên cứu việc tìm kiếm văn bản tiếng Việt sử dụng lý thuyết tập thô tập thô dung sai (Tolerance Rough Set Model). Đây cũng là một trong những phương pháp rất hiệu quả cho mục đích khai phá dữ liệu cũng như tìm kiếm văn bản tiếng Việt vì nó đã phần nào giải quyết được vấn đề đồng nghĩa trong tiếng Việt mà từ trước cho tới nay vẫn chưa có một biện pháp nào giải quyết tốt cho vấn đề đồng nghĩa. Đây là một đề tài tương đối rộng và phức tạp nhưng thời gian nghiên cứu không nhiều, sự hiểu biết trong lĩnh vực này còn bị hạn chế nên đồ án tốt nghiệp này sẽ không tránh khỏi những thiếu sót. Em rất mong nhận được sự đóng góp, chỉ bảo thêm của thầy cô và các bạn đọc để đồ án này hoàn thiện và hữu ích hơn trong thời gian tới.

    MỤC LỤC
    LỜI MỞ ĐẦU 1
    PHẦN I. CƠ SỞ LÝ THUYẾT 3
    I.TIẾNG VIỆT VÀ NGỮ PHÁP TIẾNG VIỆT_ 3
    1.Tính chính xác của văn bản tiếng Việt. 3
    2. Từ tiếng Việt. 4
    2.1. Từ đơn_từ ghép. 5
    2.2. Từ loại 6
    2.3. Dùng từ cấu tạo ngữ. 7
    3. Câu tiếng Việt. 7
    3.1 Câu đơn. 8
    4. Các đặc điểm của tiếng Việt. 10
    4.1 Đặc điểm chính tả. 11
    4.2 Vấn đề đa nghĩa và nhập nhằng trong ngôn ngữ. 12
    II. MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VĂN BẢN 13
    1. Biểu diễn văn bản. 13
    Sinh từ ( Term Generation). 14
    Lọc từ (Term Filter). 15
    2. Các kỹ thuật khai phá. 15
    2.1. Khai phá các luật kết hợp (Association Rules). 16
    2.2. Lập chỉ mục tự động (Auto indexing). 17
    3. Phân nhóm văn bản. 18
    III. MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN_ 20
    1. Tìm hiểu chung về các hệ thống khai thác thông tin. 20
    2. Tìm kiếm văn bản theo mô hình không gian vectơ. 21
    2.1 Độ chính xác và độ truy hồi 21
    2.2 Bảng tần xuất. 23
    2.3 Chỉ dẫn ngữ nghĩa tiềm ẩn (Latent Sematic Indexing LSI). 25
    2.4.Tìm kiếm tài liệu dùng SVD 32
    2.5. TV_Tree. 33
    2.5.1. Thiết lập TV_Tree. 33
    2.5.2.Chèn vào TV_Tree. 34
    2.5.3.Tìm kiếm trên TV_Tree. 36
    3. Tìm kiếm văn bản theo mô hình tập thô dung sai. 38
    3.1 Khái niệm tập thô và không gian dung sai 39
    3.2 Mô hình tập thô dung sai (TRSM) trong việc khai thác thông tin. 41
    3.2.1 Không gian dung sai: 41
    3.2.2 Giải thuật tìm kiếm văn bản sử dụng TRSM 44
    3.3 Hàm xếp hạng chính và xếp hạng phụ trong việc đánh giá mức độ chính xác của tài liệu. 47
    PHẦN II. PHƯƠNG ÁN GIẢI QUYẾT VÀ CÀI ĐẶT THỬ NGHIỆM . 49
    I. PHƯƠNG ÁN GIẢI QUYẾT_ 49
    II. CÀI ĐẶT THỬ NGHIỆM_ 57
    1. TIỀN XỬ LÝ VĂN BẢN TIẾNG VIỆT 57
    1.1 Tổ chức từ điển. 57
    1.2. Tổ chức cơ sở dữ liệu văn bản. 58
    1.3. Xác định các từ khoá trong văn bản. 58
    2. Xử lý dữ liệu để phục vụ cho mô hình tìm kiếm văn bản bằng phương pháp tập thô dung sai. 60
    Tính không gian dung sai và các xấp xỉ trên và xấp xỉ dưới 60
    3. Tìm kiếm văn bản sử dụng mô hình tập thô dung sai. 68
    HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI 71
    TÀI LIỆU THAM KHẢO. 73


    MỤC LỤC HÌNH
    Hình 1: Mô hình xác định từ đại diện cho văn bản. 13
    Hình 2: Truy vấn văn bản. 21
    Hình 3: Thu nhỏ kích thước qua SVD. 28
    Hình 4. Kiến trúc của hệ thống. 55
    Hình 5: Tổ chức lưu trữ từ điển. 57
    Hình 6: Sơ đồ lưu trữ cơ sở dữ liệu văn bản. 58
    Hình 7:Giao diện ứng dụng tách từ có nghĩa cho văn bản. 59
    Hình 8: Giao diện thực hiện tính không gian dung sai cho các term 65
    Hình 9: Giao diện thực hiện tính xấp xỉ trên và dưới cho các văn bản. 68
    Hình 10: Giao diện phục vụ tìm kiếm văn bản. 69
     

    Các file đính kèm:

Đang tải...