Thạc Sĩ Thuật toán phân lớp văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek (Vinahoo)

Thảo luận trong 'Chưa Phân Loại' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    PHẦN MỞ ĐẦU

    Ngày nay sự Phát triển vượt bậc của công nghệ thông tin, đặc biệt là sự ra đời
    Phát triển như vũ bão của mạng Internet đã tạo ra một cuộc cách mạng trong mọi
    lĩnh vực đời sống xã hội. Có thể nói rằng Internet là một thế giới ảo với vô vàn các
    thông tin về mọi mặt của đời sống kinh tế, chính trị, Xã hội được trình bày dưới dạng
    văn bản, hình ảnh, âm thanh, .

    Internet luôn biến đổi không ngừng cả về kích thước lẫn nội dung. Đến nay
    không có một ai biết được chính xác kích thước của Internet là bao nhiêu, có bao
    nhiêu Website và bao nhiêu trang Web. Bên cạnh đó, thông tin trong chính các trang
    Web cũng được cập nhật liên tục. Theo kết quả nghiên cứu , hơn 500.000 trang Web
    trong hơn 4 tháng thì 23% các trang thay đổi hàng ngày, và khoảng hơn 10 ngày thì
    50% các trang trong tên miền đó biến mất, nghĩa là địa chỉ URL của nó không còn tồn
    tại nữa [2].
    Một điều thực tế là khối lượng dữ liệu tăng lên gấp nhiều lần, nhưng tỷ lệ các
    thông tin có ích so với khối lượng dữ liệu đó lại giảm đi rất nhiều. Theo thống kê, 99%
    của thông tin Web là vô ích với 99% người dùng Web [2]. Rõ ràng với một khối lượng
    khổng lồ dữ liệu được lưu trữ trên Internet thì vấn đề tìm kiếm thông tin có ích đang
    trở thành một vấn đề nghiên cứu có tính thời sự cao. Người dùng không thể tự tìm
    kiếm địa chỉ trang Web chứa thông tin mà mình cần, do vậy đòi hỏi cần phải có một
    trình tiện ích quản lý nội dung của các trang Web và cho phép tìm thấy các địa chỉ
    trang Web có nội dung giống với yêu cầu của người tìm kiếm. Hiện nay, trên thế giới
    có một số máy tìm kiếm thông dụng như Yahoo, Google, Alvista, .đã được Xây dựng
    và triển khai nhằm đáp ứng nhu cầu tìm kiếm thông tin của người dùng.
    Mặc dù đã đáp ứng ứng được phần lớn nhu cầu tìm kiếm thông tin của người
    dùng, tuy nhiên hầu hết các máy hiện nay mới chỉ hỗ trợ việc tìm kiếm theo từ khóa,
    mà chưa xét đến vấn đề ngữ nghĩa của các từ cần tìm kiếm. Với việc tìm kiếm bằng
    cách đối sánh các từ khóa, kết quả tìm kiếm có thể không bao gồm tất cả các tài liệu
    như ý muốn của người dùng (do vấn đề từ đồng nghĩa). Thậm chí các tài liệu tìm thấy
    có thể không liên quan đến yêu cầu của người dùng (do vấn đề từ đa nghĩa).
    Mặc khác các máy tìm kiếm thông dụng hiện nay đều chưa có chức năng lưu
    trữ và phân tích tiểu sử của người dùng, để từ đó có khả năng hỗ trợ tốt hơn với từng
    lớp người dùng. Cụ thể, giả sử chúng ta có các trang Web về các vấn đề Tin học, Thể
    thao, Kinh tể-Xã hội và Xây dựng .Căn cứ vào nội dung của các tài liệu mà khách
    Thuật toán phân lớp Văn bản Web và thực nghiệm trong máy tìm kiếm VietSeek
    Khóa luận tốt nghiệp đại học Đặng Thanh Hải

    4
    hàng xem hoặc tải về, sau khi phân lớp chúng ta sẽ biết khách hàng hay tập trung vào
    nội dung gì, từ đó chúng ta sẽ bổ sung thêm nhiều các tài liệu về các nội dung mà
    khách hàng quan tâm.

    Từ những nhu cầu thực tế trên, phân lớp và tìm kiếm trang Web vẫn là bài
    toán hay, có tính thời sự cao, cần được Phát triển và nghiên cứu hiện nay.
    Đề tài khóa luận tốt nghiệp ‘Thuật toán phân lớp Văn bản Web và thực
    nghiệm trong máy tìm kiếm VietSeek (Vinahoo)
    ’ cũng không nằm ngoài mục đích
    trên.

    Ngoài phần mở đầu và phần kết luận, nội dung của khóa luận được tổ chức
    thành 4 chương với nội dung chính như sau:

    Chương 1, với tên gọi Máy tìm kiếm VietSeek, nhằm mục đích giới thiệu một
    cách chi tiết cấu trúc cũng như cơ chế hoạt động của các máy tìm kiếm VietSeek.
    Ngoài ra, phần đầu của chương còn giới thiệu tổng quát về cấu trúc chung của các máy
    tìm kiếm đang được sử dụng rộng rãi hiện nay.

    Chương 2 có tên gọi là Khai phá dữ liệu Web trong máy tìm kiếm. Nội dung
    chính của chương trình bày các kỹ thuật cơ bản liên quan dến bài toán khai phá dữ liệu
    Web trong máy tìm kiếm.

    Chương 3, tích hợp giải pháp phân lớp trang Văn bản vào máy tìm kiếm
    VietSeek, giới thiệu các thuật toán điển hình được áp dụng để giải quyết bài toán phân
    lớp văn bản. Trong đó đặc biệt tập trung vào giải pháp phân lớp theo phương pháp
    Bayes thứ nhất. Các công thức đề xuất (3.15) và (3.16), cùng với quá trình chứng minh
    tính đúng đắn của chúng được trình bày một cách chi tiết trong chương này. Đi kèm
    với giải pháp phân lớp Bayes là các đề xuất nhằm giải quyết vấn đề tính ngưỡng cho
    các lớp. Phần cuối của chương giới thiệu quá trình tích hợp giải pháp phân lớp trang
    Văn bản vào máy tìm kiếm VietSeek.

    Chương 4 với tựa đề Kết qủa thực nghiệm và đánh giá sẽ giới thiệu các kết
    quả thực nghiệm thu được khi tiến hành tích hợp giải pháp phân lớp Văn bản Web vào
    máy tìm kiếm VietSeek. Sau đó đưa ra các đánh giá về các công thức đề xuất dựa trên
    kết quả thực nghiệm.
     
Đang tải...