Luận Văn Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc và áp dụng xây dựng hệ thống tìm kiếm giá cả

Thảo luận trong 'Chưa Phân Loại' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    Tóm tắt nội dung

    Trích xuất thông tin từ dữ liệu bán cấu trúc là một bài toán được sự quan tâm tại
    nhiều hội nghị lớn trên thế giới [9],[10],[12],[13]. Bài toán này là một thành phần không
    thể thiếu trong các ứng dụng về thu thập và trích xuất thông tin hiện nay. Một trong
    những ứng dụng đó là trích xuất thông tin của sản phẩm từ các trang Thương mại Điện tử
    để Xây dựng hệ thống tìm kiếm giá cả, nhằm cung cấp thông tin tốt nhất đến người tiêu
    dùng.
    Khóa luận này tập trung nghiên cứu bài toán trích xuất thông tin từ dữ liệu bán cấu
    trúc và áp dụng để Xây dựng hệ thống tìm kiếm giá cả sản phẩm. Khóa luận xác định một
    tập luật trích xuất giá cả để giải bài toán trích xuất giá khi cho biết tên sản phẩm và trên
    cơ sở đó, bài toán tự động trích xuất thông tin về tên và giá của sản phẩm được giải quyết.
    Khóa luận đưa ra các bước Xây dựng hệ thống tìm kiếm giá cho sản phẩm trên các trang
    web tiếng Việt. Khóa luận đã tiến hành các thực nghiệm và đánh giá kết quả. Kết quả
    thực nghiệm cho thầy các thông tin được trích xuất từ hệ thống là có độ tin cậy.


    Mục lục
    Tóm tắt nội dung .i
    Mục lục ii
    Bảng các kí hiệu và chữ viết tắt . v
    Danh sách các hình . .vi
    Danh sách bảng biểu viii
    Giới thiệu . 1
    Chương 1. Khái quát bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 3

    1.1 Bài toán trích xuất thông tin .3
    1.1.1 Giới thiệu bài toán . .3
    1.1.2 Dữ liệu của bài toán .3
    1.1.3 Các hướng tiếp cận trong bài toán trích xuất thông tin 4
    1.2 Bài toán trích xuất thông tin cho dữ liệu bán cấu trúc . .6
    1.2.1 Vấn đề đặt ra với bài toán 6
    1.2.2 Một số phương pháp trích xuất thông tin cho dữ liệu bán cấu trúc .6
    1.2.3 Phương pháp đánh giá 7
    1.2.4 Ứng dụng của bài toán trích xuất thông tin cho dữ liệu bán cấu trúc 8
    Chương 2. Một số phương pháp sử dụng trong bài toán trích xuất thông tin cho dữ
    liệu bán cấu trúc .10
    2.1 Trích xuất thông tin dựa vào cây DOM . .10
    2.1.1 Khái nhiệm cây DOM . .10
    2.1.2 Xây dựng cây DOM . 11
    2.1.3 Sử dụng cây DOM để trích xuất thông tin . 12
    2.2 Trích xuất thông tin dựa theo các mẫu biểu thức chính qui .13
    iii
    2.2.1 Khái niệm biểu thức chính qui . 13
    2.2.2 Sử dụng biểu thức chính qui để trích xuất thông tin 14
    2.3 Một số giải thuật trích xuất thông tin cho dữ liệu bán cấu trúc 14
    2.3.1 Hai kiểu biểu diễn của các trang giàu dữ liệu 14
    2.3.2 Một số giải thuật điển hình 16
    Chương 3. Áp dụng bài toán trích xuất thông tin bán cấu trúc để Xây dựng hệ thống
    tìm kiếm giá cả sản phẩm
    21
    3.1 Khái quát hệ thống tìm kiếm giá cả của sản phẩm .21
    3.1.1 Khái niệm .21
    3.1.2 Các phương pháp Xây dựng .21
    3.1.3 Các hệ thống hiện tại . .22
    3.2 Cơ sở thực tiễn 23
    3.3 Cơ sở khoa học .25
    3.3.1 Phân loại trang kinh doanh . 26
    3.3.2 Bài toán trích xuất thông tin giá cả của một sản phẩm xác định. 27
    3.3.3 Bài toán tự động trích xuất thông tin về tên và giá của sản phẩm trong các trang
    Kinh doanh sản phẩm .33
    3.4 Các bước Xây dựng hệ thống 37
    3.4.1 Mô hình hệ thống .37
    3.4.2 Khả năng mở rộng của hệ thống 40
    Chương 4. Thực nghiệm và đánh giá kết quả . .41
    4.1 Môi trường phần cứng và phần mềm . .41
    4.1.1 Cấu hình phần cứng .41
    4.1.2 Công cụ phần mềm 41
    4.2 Kết quả thực nghiệm .44
    iv
    4.2.1 Thực nghiệm trích xuất giá của một sản phẩm cho trước 44
    4.2.2 Thực nghiệm xác định website Kinh doanh .49
    4.2.3 Thực nghiệm thu thập và trích xuất thông tin từ một website .52
    4.2.4 Thực nghiệm khả năng thu thập thông tin của hệ thống 53
    Kết luận .55
    Tài liệu tham khảo
    56
     

    Các file đính kèm:

Đang tải...