Đồ Án Xây dựng và làm giàu dữ liệu chỉ mục với web crawler

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC


    CHƯƠNG 1: TỔNG QUAN .1


    1.1 Đặt vấn đề. .1


    1.2 Mục tiêu và phạm vi khóa luận .2


    1.2.1 Mục tiêu khóa luận. .2


    1.2.2 Phạm vi khóa luận. 3


    1.3 Kết quả dự kiến 3


    1.4 Cấu trúc khóa luận .3


    CHƯƠNG 2: CÁC NGHIÊN CỨU VÀ HỆ THỐNG LIÊN QUAN 4


    2.1 Mở đầu. 4


    2.2 Một số khái niệm cơ bản 4


    2.2.1 Trích xuất thông tin (IE) và truy vấn thông tin (IR) 4


    2.2.2 Web Crawler 6


    2.2.3 Metadata. .8


    2.2.4 Bibtex. .10


    2.3 Các nghiên cứu và ứng dụng liên quan. 13


    2.3.1 Các nghiên cứu liên quan. .13


    2.3.2 Các ứng dụng liên quan .16 2.3.2.1 Digital Bibliography & Library Project (DBLP). .16 2.3.2.2 Lightweight Federated Digital Library (LFDL) .22 2.3.2.3 Autonomous Citation Indexing (ACI). .25 2.3.2.4 Thư viện số ACM, CiteSeer, IEEEXplore 27











    CHƯƠNG 3: XÂY DỰNG VÀ LÀM GIÀU DỮ LIỆU CHỈ MỤC VỚI WEB


    CRAWLER. .30


    3.1 Mở đầu .30


    3.2 Phương pháp thu thập trên thư viện số. .30


    3.2.1 Cách thức thu thập các bài báo từ thư viện số ACM 30


    3.2.2 Cách thức thu thập các bài báo từ thư viện số IEEEXplore. .34


    3.2.3 Cách thức thu thập các bài báo từ thư viện số CiteSeer. .38


    3.3 Bộ phân tích Bibtex (Bibtex Parser). .40


    3.4 Kiểm tra dữ liệu trùng lặp 41


    3.5 Các luồng xử lý dữ liệu trong hệ thống .43


    3.5.1 Luồng xử lý chung của hệ thống .43


    3.5.2 Quá trình thu thập thông tin Metadata từ thư viện số .44


    3.5.3 Rút trích thông tin Metadata 46


    3.5.4 Xử lý kết quả thu thập. 47


    3.5.4 Quản lý cơ sở dữ liệu 48


    CHƯƠNG 4: HIỆN THỰC HỆ THỐNG. 49


    4.1 Mở đầu .49


    4.2 Kiến trúc hệ thống. 49


    4.3 Thiết kế cơ sở dữ liệu. .50


    4.3.1 Mô tả cấu trúc dữ liệu của DBLP 50


    4.3.2 Cơ sở dữ liệu hệ thống. .54


    4.4 Kiến trúc phân lớp của hệ thống 56


    4.5 Hệ thống xây dựng và làm giàu dữ liệu chỉ mục. 59











    CHƯƠNG 5: THỰC NGHIỆM ĐÁNH GIÁ 61


    5.1 Kết quả thực nghiệm 61


    5.2 Đánh giá .63


    CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN. 64


    6.1 Kết luận 64


    6.2 Hướng phát triển. .64


    TÀI LIỆU THAM KHẢO. .65


    1. Tài liệu tiếng Anh 65


    2. Tài liệu tiếng Việt 67


    3. Tài liệu Internet 67


    PHỤ LỤC A: HƯỚNG DẪN CÀI ĐẶT HỆ THỐNG. 68


    PHỤ LỤC B: HƯỚNG DẪN SỬ DỤNG CHƯƠNG TRÌNH. 73


    PHỤC LỤC C: CÁC CHỦ ĐỀ TRONG KHOA HỌC MÁY TÍNH 80











    DANH MỤC HÌNH ẢNH






    Hình 2.1- Kiến trúc Web Crawler (Wikipedia) .7


    Hình 2.2 – Luồng xử lý quá trình Crawling (trích tài liệu [6]) .7


    Hình 2.3- Ví dụ cấu trúc của file BibteX (nguồn Wikipedia) 11


    Hình 2.4- Hệ thống xây dựng cơ sở dữ liệu DBLP .17


    Hình 2.5 - Hệ thống Complete Search .18


    Hình 2.6 - Hệ thống FacetedDBLP .19


    Hình 2.7 - Duyệt bài báo trong FacetedDBLP 19


    Hình 2.8 - Chương trình DBL Brower .20


    Hình 2.9 – Kiến trúc LFDL .22


    Hình 2.10 – Đặc tả cho thư viện số ACM portal (Trích tài liệu [16]) 24


    Hình 2.11 – Đặc tả cho thư viện số Cogprints (Trích tài liệu [16]) .24


    Hình 2.12 – Ví dụ nội dung Citations của cùng 1 tài liệu .26


    Hình 2.13 – Thư viện số ACM .27


    Hình 2.14 – Thư viện số CiteSeer 28


    Hình 2.15 – Thư viện số IEEEXplore 29


    Hình 3.1 – Các bước thu thập trên ACM 30


    Hình 3.2 – Các bước thu thập trên IEEEXplore .34


    Hình 3.3 – Kết quả tìm kiếm từ thư viện số IEEEXplore .36


    Hình 3.4 – Các bước thu thập trên thư viện số CiteSeer .38


    Hình 3.5 - Cấu trúc file XML của dữ liệu trả về từ CiteSeer 39


    Hình 3.6 – Ví dụ cấu trúc của BibTex dạng Article 41


    Hình 3.7 - Xử lý dữ liệu trùng lặp .42
     

    Các file đính kèm:

Đang tải...