Đồ Án Bài toán trích xuất từ khoá cho trang web áp dụng phương pháp phân tích thẻ html và đồ thị web

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÓM TẮT NỘI DUNG

    Trích xuất từ khoá cho trang web là một bài toán mở rộng của bài toán trích xuất từ khoá cho một văn bản. Ở mức cao hơn, nó là một bài toán con trong hệ thống trích xuất thông tin (Information Retrieval). Trong nhiều năm qua, bài toán này đã được đề cập, quan tâm nhiều ở các hội nghị quốc tế và các công ty lớn. Bài toán trích xuất từ khoá cho trang web là việc kết hợp giữa trích xuất từ khóa trong văn bản nội dung trang web và việc khai phá, đánh giá từ khoá dựa trên các đặc trưng, cấu trúc của Web. Đây cũng là vấn đề khá mới mẻ và được áp dụng trong rất nhiều lĩnh vực khác nhau như: quảng cáo trên máy tìm kiếm, phân cụm các trang web, hỗ trợ tìm kiếm, hỗ trợ gợi ý người dùng

    Trong khoá luận tốt nghiệp này, tác giả đã đề xuất mô hình giải quyết bài toán trên dựa vào các phương pháp: độ quan trọng các thẻ HTML, đồ thị web. Ngoài ra, các phương pháp hỗ trợ là khai phá log và từ điển hỗ trợ cũng được trình bày nhằm nâng cao chất lượng từ khóa. Khóa luận đã áp dụng trên một số miền dữ liệu cụ thể của các trang web tiếng Việt, tiếng Anh và cho kết quả khả quan.




    MỤC LỤC

    TÓM TẮT NỘI DUNG i

    MỤC LỤC ii

    Bảng các kí hiệu và chữ viết tắt iv

    Danh mục hình vẽ v

    Danh mục các bảng biểu vi

    MỞ ĐẦU 1

    Chương 1. Giới thiệu bài toán trích xuất từ khoá cho trang web 3

    1.1. Đặt vấn đề 3

    1.2. Khái niệm và các đặc trưng của từ khóa 4

    1.3. Đánh giá các từ khóa 5

    1.4. Thách thức của bài toán sinh từ khóa cho trang web 5

    1.4.1. Đối với các trang có nội dung tập trung 6

    1.4.2. Đối với các trang có nội dung tổng hợp 6

    1.4.3. Các vấn đề khác 6

    1.5. Ứng dụng của từ khóa trong các lĩnh vực 7

    1.5.1. Vai trò từ khóa trong máy tìm kiếm 7

    1.5.1.1. Quảng cáo trên máy tìm kiếm 7

    1.5.1.2. Hoạt động quảng bá web trong máy tìm kiếm 9

    1.5.3. Vai trò từ khóa trong các trang web tổng hợp thông tin 10

    1.6. Tổng kết chương 12

    Chương 2. Các công trình liên quan 13

    2.1. Các phương pháp trích xuất từ khóa cho văn bản 13

    2.1.1. Phương pháp tần số từ 13

    2.1.2. Phương pháp sử dụng các thông tin khác trong văn bản 14

    2.1.3. Phương pháp sử dụng học máy 15

    2.1.3.1. Trích xuất từ khóa sử dụng phân lớp Naïve Bayes 16

    2.1.3.2. Trích xuất từ khóa sử dụng lexical chain (chuỗi từ vựng) và phân lớp 16

    2.2. Các phương pháp trích xuất từ khóa cho trang web 17

    2.2.1. Tần số từ 17

    2.2.2. Kĩ thuật khai phá log 17

    2.2.3. Kĩ thuật áp dụng máy tìm kiếm và độ tương đồng từ 18

    2.3. Gán từ khóa trong văn bản, web (keyword assignment) 19

    2.4 Tổng kết chương 19

    Chương 3. Hướng giải quyết và đề xuất mô hình bài toán 20

    3.1. Hướng giải quyết 20

    3.1.1. Sử dụng độ quan trọng của các thẻ trong HTML 20

    3.1.2. Sử dụng đồ thị web 23

    3.1.2.1. Định nghĩa đồ thị Web 23

    3.1.2.2 Nội dung của phương pháp 24

    3.1.3. Sử dụng query log 26

    3.1.4. Sử dụng từ điển hỗ trợ 27

    3.2. Đề xuất mô hình bài toán 27

    3.2.1. Mô hình toàn hệ thống 27

    3.2.2. Mô đun Crawler 28

    3.2.3. Mô đun sinh từ khóa 29

    3.2.3.1. Mô đun sử dụng trọng số thẻ HTML 30

    3.2.3.2. Mô đun sử dụng đồ thị web 32

    3.2.3.3. Các phương pháp hỗ trợ 33

    3.2.3.4. Mô đun tổng hợp 35

    3.3. Tổng kết chương 35

    Chương 4. Thực nghiệm và đánh giá 36

    4.1. Giới thiệu bài toán thực nghiệm 36

    4.2. Môi trường, dữ liệu 36

    4.1.1. Môi trường phần cứng 36

    4.1.2. Mô tả chương trình 36

    4.1.3. Công cụ phần mềm 37

    4.1.4. Dữ liệu thử nghiệm 38

    4.3. Kết quả thực nghiệm 40

    4.4. Đánh giá kết quả thực nghiệm 43

    Kết luận 46

    Hướng phát triển tiếp theo 47

    Tài liệu tham khảo. 48




    MỞ ĐẦU

    Trong những năm gần đây, sự bùng nổ của Internet mà đặc biệt là World Wide Web - còn gọi tắt là Web - làm thông tin ngày càng tràn ngập, đa dạng, có sự trùng lặp nhiều. Cùng với sự tăng trưởng và phổ cập của Internet thì việc quảng cáo trên mạng của các doanh nghiệp cũng tăng cao. Sự ra đời của máy tìm kiếm đã phần nào giải quyết được vấn đề tràn ngập thông tin của các trang web. Các máy tìm kiếm chủ yếu vẫn sử dụng những từ khoá và tìm những trang có chứa từ khoá và cho ra kết quả phù hợp. Việc sử dụng máy tìm kiếm làm công cụ quảng cáo đã nở rộ trong những năm gần đây. Nhưng các trang web có nội dung được nhiều người quan tâm lại trùng lặp về từ khoá nhiều, cho nên các doanh nghiệp muốn quảng cáo trên máy tìm kiếm phải cạnh tranh với các doanh nghiệp khác có từ khóa trùng với nó. Đó chính là một trong các động lực để phát triển bài toán trích xuất từ khoá cho trang web. Nhiệm vụ bài toán đặt ra là cần tìm được một tập các từ khoá sao cho các từ khoá này phải sát với nội dung của trang web.

    Một động lực khác làm cho bài toán trích xuất từ khóa cho các trang web được sự quan tâm của nhiều người, doanh nghiệp, đó chính là việc phân loại các tài liệu web vào các thư mục phân cấp, việc tìm kiếm trong các thư mục nhờ đó cũng dễ dàng hơn. Rất nhiều các trang web báo khác nhau, các blog như: vietbao.vn, baomoi.com, flickr.com, ebay.com . đã áp dụng việc sinh từ khóa cho các trang này để người đọc, người xem có thể liên hệ, theo dõi dễ dàng đối với các trang báo, hay các sản phẩm khác có liên quan. Các từ khóa giúp nâng cao sự gợi ý cho người dùng. Không những thế, những từ khóa được tìm kiếm nhiều nhất trong một thời điểm phản ánh được phần nào xu hướng của người dùng, giúp người dùng có cái nhìn tổng quan về các vấn đề đang được quan tâm.

    Một vấn đề quan trọng không kém, đó là với sự phát triển của web thì những chuẩn web càng được chú trọng. Trong đó các trang web cần có những phần giới thiệu tổng quan, các từ khoá để các máy tìm kiếm, các công cụ khác có thể xác nhận dễ dàng. Nó được thể hiện trong các trang web là các thẻ <meta> trong mã HTML. Nó sẽ giúp cho máy tìm kiếm làm việc tốt hơn, các chương trình khác có thể tiếp cận trang web tốt hơn. Đa số các trang web hiện nay đều sinh từ khoá một cách thủ công. Nó sẽ khá là hiệu quả đối với những doanh nghiệp có số lượng trang web nhỏ. Còn đối các máy tìm kiếm, các trang có nhiều văn bản web, thì việc sinh tự động là rất quan trọng. Nó vừa đảm bảo thời gian, công sức vừa có thể tìm ra được những từ khoá mà ngay cả chủ trang web có thể thiếu xót.

    Với thực tế nêu trên, khoá luận đã đề xuất một phương pháp giải quyết bài toán trích xuất từ khoá cho trang web tiếng Việt và tiếng Anh qua đề tài “Bài toán trích xuất từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web”. Mục tiêu của đề tài là nghiên cứu giải quyết bài toán sinh từ khoá theo hai phương pháp chính là: phân tích nội dung trang dựa trên thẻ HTML và đồ thị web. Ngoài ra, khóa luận cũng nêu thêm hai phương pháp khác hỗ trợ để nâng cao chất lượng từ khóa đó là : khai phá log và dùng từ điển hỗ trợ. Với từng loại trang web sẽ có từng loại phương pháp khác nhau. Trong đó phương pháp khai phá nội dung trang dựa trên thẻ HTML là chủ đạo với nhiều trang. Qua thực nghiệm cho thấy các hướng tiếp cận này là khả quan và có triển vọng với độ chính xác khá cao, nếu kết hợp với các từ khoá của chính người quản trị thì tập từ khoá sinh ra là khá đầy đủ và chính xác.

    Ngoài phần MỞ ĐẦU và KẾT LUẬN, kết cấu của khoá luận bao gồm các chương sau:

    - Chương 1: Giới thiệu về bài toán. Nêu các khái niệm cơ bản về bài toán. Các ứng dụng của bài toán. Những thách thức đặt ra cho bài toán.

    - Chương 2: Các công trình liên quan. Giới thiệu sơ lược về các phương pháp đã được áp dụng với các bài toán sinh cho văn bản, cho trang web.

    - Chương 3: Hướng giải quyết và đề xuất mô hình bài toán. Miêu tả hướng giải quyết của tác giả, đề xuất mô hình có thể thực thi.

    -Chương 4 “Kết quả thực nghiệm và đánh giá”. Đưa ra những kết quả đã làm, và đánh giá kết quả.
     

    Các file đính kèm:

Đang tải...