Luận Văn Nghiên cứu và phát triển hệ thống xây dựng và vận hành tự động webbot thu thập thông tin trên intern

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC

    Chương 1 Mở đầu. 1
    1.1. Giới thiệu Web 2.0 và xu hướng phát triển. 1
    1.2. Giới thiệu về đề tài 2
    1.3. Mục tiêu của đề tài 2
    1.4. Nội dung của luận văn. 3
    Chương 2 Khảo sát hiện trạng. 5
    2.1. Khảo sát các công cụ tự động hóa và rút trích thông tin trên web. 5
    2.1.1. Kapow Mashup Server. 5
    2.1.2. iMacros. 9
    2.1.3. Newbie Web Automation. 13
    2.1.4. Automation Anywhere. 15
    2.1.5. SWExplorerAutomation (SWEA). 19
    2.2. Bảng so sánh chức năng các hệ thống. 21
    2.3. Kết luận. 22
    Chương 3 Các vấn đề và giải pháp cho hệ thống xây dựng và vận hành robot thu thập thông tin trên internet 23
    3.1. Tạo và thực thi robot 23
    3.2. Môi trường tạo hướng dẫn cho robot 24
    3.3. Chọn lựa công cụ tương tác web. 26
    3.3.1. WebBrowser control (.NET Framework). 27
    3.3.2. AxWebBrowser (ActiveX). 27
    3.3.3. csEXWB (opensource). 27
    3.4. Các yêu cầu đặt ra cho môi trường tạo hướng dẫn. 27
    3.4.1. Yêu cầu hiển thị trực quan cấu trúc trang web. 28
    3.4.2. Yêu cầu thay đổi context menu. 29
    3.4.3. Yêu cầu ghi nhận hành động của người dùng. 30
    3.4.4. Yêu cầu thực hiện lại những thao tác của người dùng. 31
    3.4.5. Yêu cầu rút trích dữ liệu. 31
    3.4.6. Yêu cầu lưu lại các hành động để tạo robot 31
    3.5. Ghi nhận hành động của người dùng. 32
    3.5.1. Click. 33
    3.5.2. Chọn giá trị trong combobox. 33
    3.5.3. Gõ văn bản. 33
    3.5.4. Submit form 33
    3.6. Thực hiện lại hành động của người dùng. 33
    3.6.1. Click. 34
    3.6.2. Chọn giá trị trong combobox. 34
    3.6.3. Gõ văn bản. 34
    3.6.4. Submit form 34
    3.7. Rút trích dữ liệu. 34
    3.7.1. Dữ liệu text 34
    3.7.2. Dữ liệu là hình ảnh. 35
    3.7.3. Dữ liệu là một url 35
    3.8. Cách xác định HTML Element trong HTML Document 35
    3.8.1. HTML Element thông thường. 35
    3.8.2. TableRow 36
    3.9. Trang web có sử dụng FRAME hoặc IFRAME 36
    3.10. Tương tác với các thành phần AJAX 37
    3.11. Các hộp thoại Javascript 37
    3.12. Session và cookie. 38
    3.12.1. Vấn đề ghi nhớ đăng nhập. 38
    3.12.2. Tải các dữ liệu yêu cầu đăng nhập. 38
    3.13. Cung cấp kết quả cho người dùng. 38
    Chương 4 Tổng quan toàn bộ hệ thống. 40
    4.1. Giới thiệu tổng quan. 40
    4.2. Kiến trúc hệ thống. 41
    4.2.1. Tầng Data. 43
    4.2.2. Tầng Business. 44
    4.2.3. Tầng Data Presentation. 44
    4.2.4. Tầng Application. 45
    4.3. Kết luận. 45
    Chương 5 Phân hệ WebBot Creator. 46
    5.1. Giới thiệu. 46
    5.2. Qui trình tạo WebBot 48
    5.3. Kiến trúc. 49
    5.4. Quy trình sử dụng. 50
    5.5. Kết luận. 55
    Chương 6 Phân hệ WebBot Online Manager. 56
    6.1. Giới thiệu. 56
    6.2. Qui trình upload WebBot 57
    6.3. Qui trình gửi kết quả thực thi WebBot 58
    6.4. Kiến trúc. 60
    6.5. Các chức năng trong phân hệ WebBot Online Manager. 61
    6.5.1. Các chức năng thông dụng. 61
    6.5.2. Các chức năng của quản trị viên. 62
    6.5.3. Các chức năng của người dùng thông thường. 63
    6.6. Kết luận. 65
    Chương 7 Phân hệ WebBot Watcher. 66
    7.1. Giới thiệu. 66
    7.2. Qui trình theo dõi yêu cầu thực thi WebBot 66
    7.3. Qui trình thực thi WebBot 67
    7.4. Kiến trúc. 68
    7.5. Các chức năng trong phân hệ WebBot Watcher. 69
    7.6. Kết luận. 70
    Chương 8 Phân hệ WebBot Services. 71
    8.1. Giới thiệu. 71
    8.1.1. Web service. 71
    8.1.2. Feed. 73
    8.1.3. Web clip. 74
    8.2. Kiến trúc. 75
    8.3. Kết luận. 76
    Chương 9 Kết luận. 77
    9.1. Các kết quả đạt được. 77
    9.2. Hướng phát triển của đề tài



    TÓM TẮT KHÓA LUẬN
    Ngày nay, Internet đã trở thành một dịch vụ thông dụng và phổ biến trên thế giới. Cùng với sự phát triển của Internet, nhu cầu truy xuất thông tin qua mạng của con người ngày càng tăng. Với một khối lượng dữ liệu khổng lồ như hiện nay sẽ khiến cho người dùng vô cùng khó khăn khi muốn tìm kiếm một thông tin nào đó phục vụ cho nhu cầu của mình. Xuất phát từ thực tế này, nhu cầu tổng hợp và rút trích thông tin đã trở thành một nhu cầu cấp bách và không thể thiếu được. Đây cũng chính là mục tiêu trong đề tài nghiên cứu của chúng em.
    Nội dung đề tài tập trung vào việc nghiên cứu và phát triển hệ thống xây dựng và vận hành tự động WebBot thu thập thông tin trên Internet để cung ứng các dịch vụ web theo yêu cầu. Hệ thống này sẽ giúp cho người dùng có thể thu thập nhiều thông tin khác nhau một cách tự động. Quá trình thu thập thông tin sẽ được hệ thống ghi nhận lại dưới tập tin XML được gọi là WebBot. Hệ thống sẽ tự động vận hành các WebBot theo một chu kỳ định trước để thu thập các thông tin cần thiết theo yêu cầu của người dùng. Đồng thời, hệ thống cung cấp các dịch vụ để truyền dữ liệu đầu ra cho người dùng tại một địa chỉ nhất định theo các định dạng theo yêu cầu của mà người dùng hoặc các hệ thống khác. Dựa vào hệ thống xây dựng sẽ là một máy rút trích tổng quát phục vụ cho nhiều nhu cầu rút trích thông tin ứng dụng trong nhiều lĩnh vực khác nhau như chứng khoán, tổng hợp tin tức, tìm kiếm bài hát, phần mềm,
    Nội dung khóa luận bao gồm 9 chương:
    Chương 1: Mở đầu
    Chương 2: Khảo sát hiện trạng
    Chương 3: Các vấn đề và giải pháp cho hệ thống xây dựng và vận hành robot thu thập thông tin trên web
    Chương 4: Tổng quan toàn bộ hệ thống
    Chương 5: Phân hệ WebBot Creator
    Chương 6: Phân hệ WebBot Online Manager
    Chương 7: Phân hệ WebBot Watcher
    Chương 8: Phân hệ WebBot Services
    Chương 9: Kết luận và hướng phát triển hệ thống

    78
     

    Các file đính kèm:

Đang tải...