Thạc Sĩ Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek

Thảo luận trong 'Khoa Học Công Nghệ' bắt đầu bởi Bống Hà, 1/5/13.

  1. Bống Hà

    Bống Hà New Member

    Bài viết:
    5,424
    Được thích:
    2
    Điểm thành tích:
    0
    Xu:
    0Xu
    ?Mục lục
    Phần mở đầu 3

    Chương 1. Tổng quan về tìm kiếm thông tin trên web 5
    1.1 Giới thiệu về tìm kiếm thông tin 5
    1.2 Bài toán tìm kiếm thông tin 5
    1.2.1 Giai đoạn 1: Thu thập và phân tích thông tin 9
    1.2.2 Giai đoạn 2: Xử lý câu hỏi và trả lời 10
    1.3 Mô hình biểu diễn thông tin của văn bản . 11
    1.3.1 Mô hình biểu diễn thông tin theo từ khoá 12
    1.3.2 Mô hình biểu diễn thông tin theo nội dung 14
    1.4 Phân tích cú pháp và ngữ nghĩa . 15
    1.5 Phân lớp văn bản 15
    1.6 Phân cụm văn bản . 15
    1.7 Khai thác thông tin cấu trúc web 16
    1.8 Khai thác thông tin sử dụng web 16
    Chương 2. phương pháp biểu diễn trang web theo ngữ nghĩa lân cận
    siêu liên kết 18
    2.1 Giới thiệu 18
    2.2 Phương pháp đánh giá chất lượng độ đo tương tự 19
    2.2.1 Chọn phương pháp đánh giá 19
    2.2.2 Xác định thứ tự nền trong ODP 20
    2.2.3 So sánh sự tương quan giữa các tập thứ tự 23
    2.2.4 Miền của tập thứ tự . 24
    2.3 Định nghĩa mô hình vector biểu diễn thông tin văn bản 26
    2.3.1 Vector biểu diễn thông tin văn bản . 27

    2.3.2 Lựa chọn từ khoá biểu diễn 27
    2.3.3 Lược bớt từ khoá 28
    2.3.4 Xác định trọng số của từ khoá 29
    2.4 Định nghĩa độ đo tương tự 30
    2.5 Đánh giá chất lượng xếp hạng đối với mỗi phương pháp xây dựng vector
    31
    2.5.1 Đánh giá chất lượng đối với cách chọn từ khoá 32
    2.5.2 Đánh giá chất lượng đối với cách chuẩn hoá trọng số từ khoá . 39
    2.5.3 Đánh giá chất lượng đối với phương pháp lược bớt từ khoá 42
    2.6 Các thuật toán tìm kiếm theo mô hình vector . 42
    Chương 3. máy tìm kiếm vietseek và thử nghiệm Thuật toán tìm kiếm
    theo ngữ nghĩa lân cận siêu liên kết . 45
    3.1 Máy tìm kiếm VietSeek . 45
    3.1.1 Các đặc điểm cơ bản của Vietseek . 45
    3.1.2 Cơ sở dữ liệu của Vietseek . 46
    3.2 Đề xuất thuật toán tìm kiếm mới cho máy tìm kiếm VietSeek . 49
    3.2.1 Những cơ sở để đề xuất thuật toán . 49
    3.2.2 Các thuật toán áp dụng cho máy tìm kiếm VietSeek . 53
    3.2.3 Kết quả thực hiện . 62
    Phần kết luận 67
    Tài liệu tham khảo . 69
    Phụ lục 72


    ?Phần mở đầu

    Cùng với sự phát triển mạnh mẽ của Internet là một khối lượng khổng lồ dữ liệu
    được phát sinh, tuy nhiên (theo thông tin từ tập đoàn Oracle) khoảng 90% dữ liệu ở
    dạng phi cấu trúc hoặc nửa cấu trúc. Nhu cầu khai thác, tìm kiếm thông tin một cách
    chính xác trên internet đã ngày càng trở nên bức thiết hơn, do đó xuất hiện các hệ tìm
    kiếm theo từ khoá (cụm từ khoá) như Yahoo, Google . Tuy nhiên việc tìm kiếm theo
    từ khoá vẫn chưa đủ để giúp người sử dụng nhanh chóng tìm được trang Web cần thiết
    vì số lượng kết quả trả lại rất lớn và nhiều khi chỉ là các trang Web ít có liên quan. Vì
    vậy các hệ thống tìm kiếm cần được cải tiến để ngày càng thông minh hơn. Xuất hiện
    những hệ hướng tới mục tiêu cụ thể như tra cứu thông tin về các chủ đề y tế, giáo dục,
    luật pháp, âm nhạc . Tuy vậy, việc nghiên cứu các giải pháp tìm được các trang thông
    tin theo một nội dung nào đó sát với yêu cầu người sử dụng vẫn còn nhiều hạn chế. Đã
    có nhiều mô hình tìm kiếm được đề xuất, song những mô hình lý tưởng về mặt lý
    thuyết thì lại chưa có tính khả thi khi cài đặt. Do đó, trong các hệ tìm kiếm, người ta
    tìm cách cải tiến các phương pháp có sẵn để áp dụng trong thực tế. Luận văn này hướng
    tới việc nghiên cứu, phân tích, đánh giá một số thuật toán tìm kiếm theo nội dung, từ
    đó đề xuất phương án cải tiến để nâng cao hiệu quả về tính chính xác của nội dung
    cũng như về tốc độ.
    Từ việc tìm hiểu, đánh giá và phân tích ưu, nhược điểm của các phương pháp tiếp
    cận khác nhau, dựa theo mục tiêu nâng cao hiệu quả tìm kiếm, luận văn đề xuất giải
    pháp thực hiện “Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm
    kiếm VietSeek”.
    Nội dung của luận văn được định hướng vào các vấn đề sau:
    1. Mô hình toán học biểu diễn trang văn bản Web,
    2. Khái quát các phương pháp tiếp cận trong tìm kiếm trang Web có nội dung
    tương tự. Đánh giá ưu điểm và nhược điểm của mỗi phương pháp được
    khảo sát.
    3. Đề xuất phương pháp kết hợp để nâng cao hiệu quả trong tìm kiếm trang
    Web có nội dung tương tự
    Luận văn bao gồm Phần mở đầu, ba chương nội dung và Phần kết luận với nội
    dung các chương được trình bày như dưới đây.
    Chương 1 với tiêu đề là Tổng quan về các phương pháp biểu diễn và tìm kiếm
    thông tin trên web giới thiệu khái quát về các phương pháp biểu diễn và tìm kiếm trên
    web.
    Tiêu đề của chương 2 là Phương pháp biểu diễn trang web theo ngữ nghĩa lân
    cận siêu liên kết. Chương này trình bày cơ sở, nội dung của phương pháp được đề xuất
    và đánh giá phương pháp được đề xuất với các phương pháp khác. Luận văn cũng trình
    bày chi tiết các lựa chọn được đề xuất trong mỗi bước của phương pháp, từ đó chọn ra
    giải pháp tốt nhất.
    Chương 3 Máy tìm kiếm VietSeek và thử nghiệm Thuật toán tìm kiếm theo ngữ
    nghĩa lân cận siêu liên kết giới thiệu kiến trúc logic của máy tìm kiếm VietSeek, thiết
    kế logic về dữ liệu theo biểu diễn vector và thuật toán tìm kiếm theo nội dung trên cơ sở
    biểu diễn trang web do luận văn đề xuất. Chương này cũng đề xuất những cải tiến khi
    áp dụng vào thực tế để nâng cao hiệu suất thực hiện của phương pháp biểu diễn.
    Phần kết luận tổng hợp những kết quả nghiên cứu chính của luận văn và chỉ ra
    một số hạn chế của luận văn. Đồng thời luận văn đề xuất một số hướng nghiên cứu cụ
    thể tiếp theo của luận văn.
    Phần phụ lục bổ sung một số thông tin chi tiết về việc áp dụng thuật toán cho
    máy tìm kiếm VietSeek như sơ đồ khối một số module cần bổ sung chức năng, những
    lệnh bổ sung vào cơ sở dữ liệu của VietSeek.
     

    Các file đính kèm:

Đang tải...