Luận Văn Tìm hiểu về SEARCH ENGINE và xây dựng ứng dụng minh họa cho việc tìm kiếm bằng tiếng Việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    167
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC​ 78867062" Phần 1 : TÌM HIỂU VẤN ĐỀ 2
    78867063" Chương 1: TỔNG QUAN VỀ HỆ THỐNG SEARCH ENGINE 2
    78867064" 1. Các bộ phận cấu thành hệ thống search engine. 2
    78867065" 1.1 Bộ thu thập thông tin – Robot 2
    78867066" 1.2 Bộ lập chỉ mục – Index. 2
    78867067" 1.3 Bộ tìm kiếm thông tin – Search Engine. 3
    78867068" 2. Nguyên lý hoạt động. 3
    78867069" Chương 2: BỘ THU THẬP THÔNG TIN – ROBOT 5
    78867070" 1. Ứng dụng của Robot 5
    78867071" 1.1 Phân tích, thống kê – Statistical Analysis. 5
    78867072" 1.2 Duy trì siêu liên kế - Maintenance. 5
    78867073" 1.3 Ánh xạ địa chỉ web - Mirroring. 5
    78867074" 1.4 Phát hiện tài nguyên – Resource Discovery. 6
    78867075" 1.5 Kết hợp các công dụng trên- Combined uses. 6
    78867076" 2. Robot chỉ mục – Robot Indexing. 6
    78867077" 3. Các chiến thuật thu thập dữ liệu [II.1] 8
    78867078" 3.1 Chiến thuật tìm kiếm theo chiều sâu. 8
    78867079" 3.2 Chiến thuật tìm kiếm theo chiều rộng. 9
    78867080" 3.3 Chiến thuật tìm kiếm theo ngẫu nhiên. 9
    78867081" 4. Những vấn đề cần lưu ý của web robot 10
    78867082" 4.1 Chi phí và hiểm hoạ. 10
    78867083" 4.1.1 Qúa tải mạng và server – Network resource and server load. 10
    78867084" 4.1.2 Sự cập nhật quá mức- Updating overhead. 11
    78867085" 4.1.3 Những tình huống không mong đợi – Bad implementations. 12
    78867086" 4.2 Tiêu chuẩn loại trừ robot 12
    78867087" 4.2.1 File robot.txt 13
    78867088" 4.2.2 Thẻ META dành cho robot – Robot META tag. 14
    78867089" 4.2.3 Nhược điểm của file robot.txt 15
    78867090" Chương 3: BỘ LẬP CHỈ MỤC – INDEX 18
    78867091" 1. Khái quát về hệ thống lập chỉ mục. 18
    78867092" 2. Tổng quan về phương pháp lập chỉ mục ([I.1], [I.2], [II.1]). 21
    78867093" 2.1 Xác định mục từ quan trọng cần lập chỉ mục ([I.1]). 21
    78867094" 2.2 Một số hàm tính trọng số mục từ. ([I.1]). 23
    78867095" 2.2.1 Nghịch đảo trọng số tần số tài liệu (The Inverse Document Frequency Weight) 24
    78867096" 2.2.2 Độ nhiễu tín hiệu (Signal Noise): 25
    78867097" 2.2.3 Giá trị độ phân biệt của mục từ : 25
    78867098" 2.2.4 Kết hợp tần số xuất hiện mục từ và nghịch đảo tần số tài liệu. 26
    78867099" 2.3 Lập chỉ mục tự động cho tài liệu. 28
    78867100" 3. Lập chỉ mục cho tài liệu tiếng Việt ([III.1], [II.1], [II.2], [II.3], [II.4], [IV.11], [IV.12]) 29
    78867101" 3.1 Khó khăn cho việc lập chỉ mục tiếng Việt 29
    78867102" 3.2 Đặc điểm về từ trong tiếng Việt và việc tách từ. 31
    78867103" 3.2.1 . Đặc điểm về từ trong tiếng Việt: 31
    78867104" 3.2.2 Tách từ. 32
    78867105" 3.3 Giải quyết các vấn đề hiển thị của tiếng Việt (vấn đề chính tả). 34
    78867106" 3.3.1 Vấn đề bảng mã. 34
    78867107" 3.3.2 Vấn đề dấu thanh. 35
    78867108" 3.3.3 Vấn đề dấu tổ hợp nguyên âm 36
    78867109" 3.4 Giải quyết các vấn đề về từ của tiếng Việt 37
    78867110" 3.4.1 Luật xác định các từ láy. 37
    78867111" 3.4.2 Luật xác định các liên từ. 37
    78867112" 3.5 Xây dựng từ điển tiếng Việt 37
    78867113" Chương 4: BỘ TÌM KIẾM THÔNG TIN – SEARCH ENGINE 40
    78867114" 1. Vì sao ta cần một công cụ tìm kiếm (SE) ?. 40
    78867115" 2. Các phương thức tìm kiếm 40
    78867116" 2.1 Tìm theo từ khoá – Keyword searching. 40
    78867117" 2.2 Những khó khăn khi tìm theo từ khoá. 41
    78867118" 2.3 Tìm theo ngữ nghĩa – Concept-based searching. 41
    78867119" 3. Các chiến lược tìm kiếm 42
    78867120" 3.1 Tìm thông tin với các thư mục chủ đề. 42
    78867121" 3.2 Tìm thông tin với các công cụ tìm kiếm 43
    78867122" 3.3 Tối ưu câu truy vấn. 43
    78867123" 3.4 Truy vấn bằng ví dụ. 44
    78867124" Chương 5: MỘT SỐ SEARCH ENGINE THÔNG DỤNG TRÊN THẾ GIỚI VÀ VIỆT NAM 45
    78867125" 1.1 Thư mục của Yahoo, Google. 54
    78867126" 1.2 Alltheweb. 55
    78867127" 1.3 AltaVista. 55
    78867128" 1.4 Lycos. 55
    78867129" 1.5 HotBot 55
    78867130" 2. Một số search engine thông dụng ở Việt Nam 56
    78867131" 2.1 Netnam [IV.12] 56
    78867132" 2.1.1 Phương pháp Netnam SE lập chỉ mục dữ liệu. 58
    78867133" 2.1.2 Cú pháp tìm kiếm 59
    78867134" 2.1.3 Sử dụng từ khoá để lọc các tìm kiếm 61
    78867135" 2.2 Vinaseek ([IV.11]). 65
    78867136" Phần 2 : THIẾT KẾ VÀ CÀI ĐẶT 67
    78867137" Chương 6: THIẾT KẾ DỮ LIỆU 67
    78867138" 1. Cơ sở dữ liệu trong SQL 67
    78867139" 2. Hệ thống tập tin. 71
    78867140" Chương 7: THU THẬP THÔNG TIN 72
    78867141" 1. Cấu trúc dữ liệu. 72
    78867142" 1.1 Cấu trúc UrlInfo. 73
    78867143" 1.2 Cấu trúc StartUrlInfo. 74
    78867144" 1.3 Cấu trúc FileRetrieval 75
    78867145" 1.4 Cấu trúc ProjectInfo. 75
    78867146" 2. Xử lý của web robot 78
    78867147" 3. Giải quyết các vấn đề của web robot 83
    78867148" 3.1 Tránh sự lặp lại 83
    78867149" 3.2 Tránh làm qúa tải server. 83
    78867150" 3.3 Tránh truy xuất đến các dạng tài nguyên không thích hợp. 83
    78867151" 3.4 Tránh các lỗ đen(black holes). 84
    78867152" 3.5 Tránh những nơi cấm robot 84
    78867153" 4. Các thuật toán phân tích cấu trúc file HTML 84
    78867154" 4.1 Thuật toán lấy liên kết 84
    78867155" 4.1.1 Thuật toán ứng dụng cũ đã cài đặt 85
    78867156" 4.1.2 Chọn lựa của ứng dụng mới 89
    78867157" 4.2 Thuật toán lấy tiêu đề. 89
    78867158" 4.3 Thuật toán lấy nội dung. 90
    78867159" 5. Duy trì thông tin cho CSDL 91
    78867160" 6. Resume project 91
    78867161" 6.1 Nguyên tắc resume của ứng dụng cũ1. 92
    78867162" 6.2 Cải tiến của ứng dụng mới 94
    78867163" Chương 8: LẬP CHỈ MỤC 97
    78867164" 1. Tính trọng số của từ: 97
    78867165" 2. Tập tin nghịch đảo : 98
    78867166" 3. Từ điển chỉ mục. 105
    78867167" 4. Quá trình stemming. 110
    78867168" Chương 9: TÌM KIẾM THÔNG TIN 113
    78867169" Chương 10: CÁC MODULE ,PACKAGE, LỚP CHÍNH CỦA CHƯƠNG TRÌNH 115
    78867170" 1. Các module, package của chương trình. 115
    78867171" 2. Các lớp đối tượng chính trong từng module. 116
    78867172" 2.1 Module DBController. 116
    78867173" 2.2 Module ProcessDoc. 117
    78867174" 2.3 Module Query. 118
    78867175" 2.4 Module SE 119
    78867176" 2.5 Module Webcopy. 119
    78867177" 2.6 Module WebcopyGUI 120
    78867178" Phần 3 : KẾT QUẢ, ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN 122
    78867179" 1. Kết quả thử nghiệm 122
    78867180" 2. Hoạt động của chương trình. 124
    78867181" 2.1 Giao diện quản trị 124
    78867182" 2.1.1 Giao diện chính của quản trị 124
    78867183" 2.1.2 Tạo mới project 125
    78867184" 2.1.3 Tạo mới một StartUrl : 128
    78867185" 2.1.4 Xem từ điển chỉ mục. 131
    78867186" 2.1.5 Quản l‎ý mục từ. 132
    78867187" 2.2 Giao diện tìm kiếm 134
    78867188" 3. Đánh giá. 136
    78867189" 3.1 Ưu điểm 136
    78867190" 3.2 Khuyết điểm 137
    78867191" 4. Hướng phát triển. 137
    78867192" 4.1 Đối với từng module : 137
    78867193" 4.2 Đối với toàn luận văn: 138
    78867194" DANH SÁCH CÁC BẢNG 139
    78867195" DANH SÁCH CÁC HÌNH VẼ 140
    78867196" TÀI LIỆU THAM KHẢO 141
    78867197" I. Sách, ebook: 141
    78867198" II. Luận văn, luận án. 141
    78867199" III. Bài báo. 142
    78867200" IV. Website. 142



    MỞ ĐẦU​ Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên mọi lĩnh vực. Mỗi phút trôi qua hàng triệu triệu trang web được đẩy lên nhằm làm giàu nguồn tài nguyên vô tận này. Tuy nhiên tồn tại một nghịch lý là dù được ví như thư viện toàn cầu, internet vẫn không thoả mãn nhu cầu thông tin của con người. Xung quanh vấn đề này có nhiều nguyên nhân nhưng quan trọng nhất là sự thông hiểu giữa con người và công cụ tìm kiếm trên mạng – search engine – chưa đạt đến mức có thể giao tiếp tốt với nhau.
    Hơn nữa, mỗi search engine sẽ mang đặc thù của ngôn ngữ mà nó hiển thị như search engine Tiếng Việt phải giải quyết những vấn đề đặc trưng của Tiếng Việt, cụ thể là vấn đề bảng mã, ngữ pháp trong Tiếng Việt.
    Nếu ta hiểu cách thức search engine tổ chức thông tin, thực thi một câu truy vấn và đặc trưng của ngôn ngữ mà search engine sẽ tiếp cận thì ta có thể tối ưu hoá cơ hội nhận được các thông tin hữu ích. Đây là mục tiêu chính của luận văn.
     

    Các file đính kèm:

Đang tải...