Tiểu Luận Mô hình tìm kiếm thông tin văn bản trên các web site song ngữ anh - việt và ứng dụng

Thảo luận trong 'Lịch Sử Đảng' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    CHƯƠNG 1: TỔNG QUAN 7
    1.1 NHU CẦU TÌM KIẾM THÔNG TIN SONG NGỮ ANH - VIỆT. 7
    1.2 MỘT SỐ NGHIÊN CỨU ĐÃ THỰC HIỆN 8
    1.3 ĐỘNG LỰC NGHIÊN CỨU 10
    1.4 ĐỐI TƯỢNG NGHIÊN CỨU 11
    1.4.1 ĐỊNH NGHĨA WEB SITE 11
    1.4.2 PHÂN LOẠI WEB SITE 13
    1.4.3 ĐỐI TƯỢNG NGHIÊN CỨU 15
    1.5 TỔ CHỨC VÀ PHẠM VI CỦA LUẬN VĂN 16
    CHƯƠNG 2: CÁC VẤN ĐỀ LIÊN QUAN 17
    2.1 TÌM KIẾM THÔNG TIN (INFORMATION RETRIEVAL) 17
    2.1.1 ĐỊNH NGHĨA 17
    2.1.2 CÁC MÔ HÌNH TÌM KIẾM THÔNG TIN 17
    2.2 KIẾN TRÚC WEB SITE 20
    2.2.1 KIẾN TRÚC THÔNG TIN 20
    2.2.2 KIẾN TRÚC HỆ THỐNG 22
    2.3 NHẬN DẠNG NGÔN NGỮ VĂN BẢN (LANGUAGE DETECTION) 27
    2.3.1 VẤN ĐỀ NHẬN DẠNG NGÔN NGỮ VĂN BẢN 27
    2.3.2 CÁC GIẢI PHÁP ĐÃ CÓ 27
    2.4 THU THẬP TÀI LIỆU TRÊN WEB SITE (WEB CRAWLING) 29
    2.4.1 KIẾN TRÚC BỘ THU THẬP TÀI LIỆU [16] [17] [18] 29
    2.4.2 CÁC YÊU CẦU ĐỐI VỚI BỘ THU THẬP TÀI LIỆU 31
    2.5 LẬP CHỈ MỤC VÀ TÌM KIẾM . 31
    2.5.1 LẬP CHỈ MỤC 31
    2.5.2 TÌM KIẾM . 32
    2.5.3 THƯ VIỆN LUCENE [19] 32
    2.6 DỊCH MÁY 33
    2.6.1 CÁC PHƯƠNG PHÁP DỊCH MÁY[28] 33
    2.6.2 GOOGLE TRANSLATE [26] 36
    2.7 ĐỘ TƯƠNG ĐƯƠNG NỘI DUNG CỦA HAI VĂN BẢN THUỘC HAI NGÔN NGỮ 36
    2.7.1 VẤN ĐỀ ĐẶT RA 36
    2.7.2 CÁC PHƯƠNG PHÁP. 37
    CHƯƠNG 3: CÁC CƠ SỞ LÝ THUYẾT. 39
    3.1 CHUẨN CHỈ SỐ 39
    3.1.1 ĐỘ ĐO CHỈ SỐ 39
    3.1.2 CÁC TÍNH CHẤT. 39
    3.1.3 KẾT LUẬN 46
    3.2 NHẬN DẠNG NGÔN NGỮ VĂN BẢN 46
    3.2.1 PHƯƠNG PHÁP. 46
    3.2.2 KẾT LUẬN 50
    3.3 NHẬN DẠNG BỘ MÃ TIẾNG VIỆT. 50
    3.4 TÁCH NỘI DUNG CHÍNH TRANG WEB 50
    3.4.1 CẤU TRÚC TRANG WEB 51
    3.4.2 NỘI DUNG CHÍNH CỦA TRANG WEB 54
    3.4.3 XÁC ĐỊNH NỘI DUNG CHÍNH TRANG WEB 56
    3.4.4 KẾT LUẬN 59
    3.5 XÁC ĐỊNH ĐỘ TƯƠNG ĐƯƠNG NỘI DUNG CỦA HAI VĂN BẢN ANH VÀ VIỆT 60
    CHƯƠNG 4: KIẾN TRÚC VÀ MÔ HÌNH HOẠT ĐỘNG CỦA MÁY TÌM KIẾM SONG NGỮ ANH – VIỆT 62
    4.1 MÁY TÌM KIẾM SONG NGỮ ANH - VIỆT. 62
    4.1.1 KIẾN TRÚC 63
    4.1.2 MÔ HÌNH HOẠT ĐỘNG 64
    4.2 BỘ PHẬN THU THẬP NỘI DUNG TRANG WEB 66
    4.2.1 KIẾN TRÚC 66
    4.2.2 MÔ HÌNH HOẠT ĐỘNG 68
    4.3 BỘ PHẬN ĐÁNH GIÁ WEB SITE 70
    4.3.1 KIẾN TRÚC 70
    4.3.2 MÔ HÌNH HOẠT ĐỘNG 72
    4.4 BỘ PHẬN ĐÁNH CHỈ MỤC 73
    4.4.1 KIẾN TRÚC 37
    4.4.2 MÔ HÌNH HOẠT ĐỘNG 75
    4.5 BỘ PHẬN TÌM KIẾM THÔNG TIN 76
    4.5.1 KIẾN TRÚC 76
    4.5.2 MÔ HÌNH HOẠT ĐỘNG 78
    4.6 NHẬN XÉT. 81
    CHƯƠNG 5: CÔNG CỤ TÌM KIẾM THÔNG TIN TRÊN WEB SITE SONG NGỮ ANH – VIỆT 87
    5.1 MÔI TRƯỜNG PHÁT TRIỂN VÀ CÁC THƯ VIỆN SỬ DỤNG 82
    5.2 CÔNG CỤ 82
    5.2.1 THU THẬP NỘI DUNG TRANG WEB 82
    5.2.2 ĐÁNH GIÁ WEB SITE 85
    5.2.3 BỘ PHẬN ĐÁNH CHỈ MỤC 85
    5.2.4 BỘ PHẬN KHAI THÁC TÌM KIẾM THÔNG TIN 86
    5.2.5 HỆ THỐNG TÌM KIẾM THÔNG TIN SONG NGỮ ANH – VIỆT. 87
    5.3 TỔ CHỨC DỮ LIỆU CỦA HỆ THỐNG 88
    5.3.1 DỮ LIỆU QUẢN LÝ 88
    5.3.2 DỮ LIỆU THU THẬP VÀ CHỈ MỤC 89
    5.4 ĐÁNH GIÁ CÔNG CỤ 89
    CHƯƠNG 6: KẾT LUẬN 90
    6.1 MÔ HÌNH 90
    6.1.1 ƯU ĐIỂM . 90
    6.1.2 KHUYẾT ĐIỀM . 91
    6.2 CÔNG CỤ 91
    6.3 HƯỚNG PHÁT TRIỂN 92
    6.4 MỘT SỐ ĐỀ XUẤT. 93
    6.4.1 ĐẢM BẢO CÁC TRƯỜNG DỮ LIỆU RESPONSE THEO INTERNET RFC 2616 93
    6.4.2 LIÊN KẾT TRANG WEB 93
    6.4.3 CẤU TRÚC TRANG WEB 94
    PHỤ LỤC A: CÁC SỐ LIỆU VÀ KẾT QUẢ ĐÁNH GIÁ 96
    A.1 LẤY NỘI DUNG CHÍNH: 96
    A.2 NHẬN DẠNG NGÔN NGỮ ANH – VIỆT: 104
    A.3 DỊCH VỤ GOOGLE TRANSLATE: 105
    A.4 PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG ĐƯƠNG HAI VĂN BẢN ANH – VIỆT. 109
    A.5 KẾT QUẢ THỬ NGHIỆM CHỨC NĂNG THU THẬP. 110
    A.6 CÁC CHỈNH SỬA TRÊN CÁC THƯ VIỆN SỬ DỤNG 110

     

    Các file đính kèm:

Đang tải...