Đồ Án Xây dựng hệ thống trích chọn thông tin tự động từ các website( TM+ chương trình)

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    1. Tên đề tài :
    Xây dựng hệ thống trích chọn thông tin tự động từ các website
    2. Các số liệu ban đầu :
    .
    .
    3. Nội dung bản thuyết minh

    Lời nói đầu
    Chương 1: Tổng quan về trích rút thông tin
    Chương 2: Các kỹ thuật trích rút thông tin
    Chương 3: Cài đặt thuật toán, thiết kế, xây dựng chương trình
    Kết luận.
    Tài liệu tham khảo.
    4. Số lượng, nội dung bản vẽ A0 và các sản phẩm cụ thể (nếu có):
    .



    MỤC LỤC
    TOC o "1-3" h z u MỤC LỤC PAGEREF _Toc200948488 h 1 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003400380038000000
    DANH MỤC CÁC HÌNH VẼ PAGEREF _Toc200948489 h 3 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003400380039000000
    LỜI NÓI ĐẦU PAGEREF _Toc200948490 h 5 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003400390030000000
    CHƯƠNG 1: TỔNG QUAN VỀ TRÍCH RÚT THÔNG TIN PAGEREF _Toc200948491 h 8 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003400390031000000
    1.1 KHAI PHÁ DỮ LIỆU PAGEREF _Toc200948492 h 9 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003400390032000000
    1.2 KHÁI NIỆM TRÍCH RÚT THÔNG TIN PAGEREF _Toc200948493 h 10 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003400390033000000
    1.3 CÁC HỆ TRÍCH RÚT THÔNG TIN PAGEREF _Toc200948494 h 14 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003400390034000000
    1.3.1 Hidden Markov Model (HMM) PAGEREF _Toc200948495 h 14 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003400390035000000
    1.3.2 Rapier PAGEREF _Toc200948496 h 15 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003400390036000000
    1.3.3 Boosted Wrapper Induction. PAGEREF _Toc200948497 h 16 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003400390037000000
    1.3.4 (LP)[SUP]2[/SUP] PAGEREF _Toc200948498 h 16 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003400390038000000
    1.3.5 SNoW-IE PAGEREF _Toc200948499 h 17 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003400390039000000
    1.4 KẾT LUẬN PAGEREF _Toc200948500 h 18 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500300030000000
    CHƯƠNG 2: CÁC KỸ THUẬT TRÍCH RÚT THÔNG TIN PAGEREF _Toc200948501 h 19 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500300031000000
    2.1 THUẬT TOÁN TRÍCH RÚT THÔNG TIN TỰ ĐỘNG TỪ CÁC BẢNG VÀ DANH SÁCH CỦA NHÓM K.LERMAN PAGEREF _Toc200948502 h 20 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500300032000000
    2.1.1 Một số khái niệm cơ bản. PAGEREF _Toc200948503 h 20 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500300033000000
    2.1.2 Một số nhận xét PAGEREF _Toc200948504 h 21 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500300034000000
    2.1.3 Trình bày thuật toán. PAGEREF _Toc200948505 h 22 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500300035000000
    2.2 KỸ THUẬT LOẠI BỎ NHIỄU SỬ DỤNG CÂY SST (Site Style Tree) CỦA NHÓM LAN YI PAGEREF _Toc200948506 h 26 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500300036000000
    2.2.1 Cây DOM (Document Object Model Tree) PAGEREF _Toc200948507 h 26 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500300037000000
    2.2.2 Cây đặc trưng (Style Tree-ST) PAGEREF _Toc200948508 h 28 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500300038000000
    2.2.3 Khai phá các phần tử nhiễu trong ST. PAGEREF _Toc200948509 h 31 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500300039000000
    2.2.4 Thuật toán xác định vùng nhiễu và vùng thông tin cần thiết PAGEREF _Toc200948510 h 35 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500310030000000
    2.3 KỸ THUẬT TRÍCH RÚT THÔNG TIN DỰA TRÊN SO SÁNH CÂY CỦA NHÓM BING LIU PAGEREF _Toc200948511 h 41 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500310031000000
    2.3.1 Các khái niệm cơ bản. PAGEREF _Toc200948512 h 41 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500310032000000
    2.3.2 Phân vùng thông tin dựa trên khoảng cách soạn thảo cây. PAGEREF _Toc200948513 h 45 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500310033000000
    2.3.3 Tách thông tin bản ghi dựa trên đối sánh cây đơn giản. PAGEREF _Toc200948514 h 55 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500310034000000
    2.3.4 Các bước trích rút thông tin trong bảng. PAGEREF _Toc200948515 h 59 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500310035000000
    CHƯƠNG 3: CÀI ĐẶT THUẬT TOÁN, THIẾT KẾ, XÂY DỰNG CHƯƠNG TRÌNH PAGEREF _Toc200948516 h 63 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500310036000000
    KẾT LUẬN PAGEREF _Toc200948517 h 70 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500310037000000
    TÀI LIỆU THAM KHẢO PAGEREF _Toc200948518 h 71 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F0063003200300030003900340038003500310038000000







    Pham Thu Huong
     

    Các file đính kèm:

Đang tải...