Thạc Sĩ Nghiên cứu một số kỹ thuật lấy tin tự động trên internet

Thúy Viết Bài · 5/12/13

MỞ ĐẦU 

Sự phát triển nhanh chóng của mạng Internet đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web). Các tài liệu siêu văn bản chứa đựng văn bản và thường nhúng các liên kết đến các tài liệu khác phân bố trên Web. Ngày nay, Web bao gồm hàng tỉ tài liệu của hàng triệu tác giả được tạo ra và được phân tán qua hàng triệu máy tính được kết nối qua đường dây điện thoại, cáp quang, sóng radio . Web đang ngày càng được sử dụng phổ biến trong nhiều lĩnh vực như báo chí, phát thanh, truyền hình, hệ thống bưu điện, trường học, các tổ chức thương mại, chính phủ . Chính vì vậy lĩnh vực Web mining hay tìm kiếm tự động các thông tin phù hợp và có giá trị trên Web là một chủ đề quan trọng trong Data Mining và là vấn đề quan trọng của mỗi đơn vị, tổ chức có nhu cầu thu thập và tìm kiếm thông tin trên Internet [2].

Các hệ thống tìm kiếm thông tin hay nói ngắn gọn là các máy tìm kiếm Web thông thường trả lại một danh sách các tài liệu được phân hạng mà người dùng sẽ phải tốn công chọn lọc trong một danh sách rất dài để có được những tài liệu phù hợp. Ngoài ra các thông tin đó thường rất phong phú, đa dạng và liên quan đến nhiều đối tượng khác nhau. Điều này tạo nên sự nhập nhằng gây khó khăn cho người sự dụng trong việc lấy được các thông tin cần thiết.

Có nhiều hướng tiếp cận khác nhau để giải quyết vấn đề này, các hướng này thường chú ý giảm sự nhập nhằng bằng các phương pháp lọc hay thêm các tùy chọn để cắt bớt thông tin và hướng biểu diễn các thông tin trả về bởi các máy tìm kiếm thành từng cụm để cho người dùng có thể dễ dàng tìm được thông tin mà họ cần. Đã có nhiều thuật toán phân cụm tài liệu dựa trên phân cụm ngoại tuyến toàn bộ tập tài liệu. Tuy nhiên việc tập hợp tài liệu của các máy tìm kiếm là quá lớn và luôn thay đổi để có thể phân cụm ngoại tuyến. Do đó, việc phân cụm phải được ứng dụng trên tập các tài liệu nhỏ hơn được trả về từ các truy vấn và thay vì trả về một danh sách rất dài các thông tin gây nhập nhằng cho người sử dụng cần có một phương pháp tổ chức lại các kết quả tìm kiếm một cách hợp lý.

Do những vấn đề cấp thiết được đề cập ở trên nên em chọn đề tài: "Nghiên cứu một số kỹ thuật lấy tin tự động trên internet"

Mục tiêu của đề tài: Nghiên cứu xây dựng giải pháp phát triển hệ thống phần mềm thu thập, đánh giá và phân cụm thông tin tự động trên Internet phục vụ cho việc nghiên cứu, học tập, giảng dạy.

Ngoài phần mở đầu, phần kết luận, mục lục, tài liệu tham khảo, phụ lục, luận văn gồm 3 chương:

- Chương 1: Khái quát về khai phá dữ liệu và phân cụm tài liệu Web Giới thiệu một số khái niệm cơ bản về khai phá dữ liệu, khai phá dữ liệu web, các hướng tiếp cận, ứng dụng của khai phá dữ liệu, và nêu bài toàn phân cụm tài liệu Web.

- Chương 2: Một số thuật toán phân cụm tài liệu Nghiên cứu một số kỹ thuật phân cụm tài liệu liên quan, tư tưởng của các thuật toán đã được nghiên cứu, nghiên cứu đề xuất phương pháp cải tiến.

- Chương 3: Ứng dụng trong lấy tin tự động Ứng dụng xây dựng bài toán Thu thập dữ liệu về Kinh tế trên Internet.

Để hoàn thành được luận văn Cao học, em xin được gửi lời cảm ơn tới các thầy trong Viện Công nghệ thông tin, các thầy trong Khoa Công nghệ thông tin đã tận tình giảng dạy, cung cấp nguồn kiến thức quý giá trong suốt quá trình học tập.

Đặc biệt em xin chân thành cảm ơn TS. Phạm Việt Bình, đã tận tình hướng dẫn, góp ý, tạo điều kiện cho em hoàn thành luận văn này.

Xin chân thành cảm ơn các thầy cô, anh chị em đang công tác tại phòng VRLAB - Viện công nghệ thông tin - Viện khoa học và Công nghệ Việt Nam, các thầy cô đang công tác tại Viện Công nghệ thông tin - Viện khoa học và Công nghệ Việt Nam.

Cảm ơn đồng nghiệp Đỗ Văn Đại đã cung cấp những tài liệu, cùng những kinh nghiệm quý báu đã được làm trong cuốn Đồ án tốt nghiệp đại học của đồng nghiệp Đỗ Văn Đại giúp cho em trong quá trình nghiên cứu giảm bớt được những khó khăn trong việc tiếp cận vấn đề và nghiên cứu tài liệu. Xin được cảm ơn Ban lãnh đạo Khoa Công nghệ thông tin - Đại học Thái Nguyên, lãnh đạo phòng Công nghệ thông tin - Thư viện, cùng toàn thể các đồng nghiệp trong Khoa Công nghệ thông tin - Đại học Thái Nguyên đã giúp đỡ em về thời gian, vật chất và tinh thần giúp em hoàn thành tốt nhiệm vụ học tập, công tác.

Thạc Sĩ Nghiên cứu một số kỹ thuật lấy tin tự động trên internet

Thúy Viết Bài New Member
Thành viên vàng

Các file đính kèm:

trangquynh-net-0021-.pdf

Luận Văn Nghiên cứu về ngôn ngữ WORRDPRESS và các kỹ thuật xây dựng một Website bán hàng trực tuyến

Tiến Sĩ Nghiên cứu một số phương pháp khai phá dữ

Luận Văn Nghiên cứu một số kỹ thuật tạo cảnh trong game. Ứng dụng xây dựng game Sonic Run

Đồ Án Nghiên cứu một số hình thức tấn công Website phổ biến và các giải pháp phòng chống

Luận Văn Nghiên cứu đề xuất một số giải pháp nhằm thúc đẩy ứng dụng công nghệ thông tin tại việt nam

Tải tài liệu

Diễn đàn

Chứng nhận bảo mật

Theo dõi chúng tôi

Tìm kiếm hữu ích

Thạc Sĩ Nghiên cứu một số kỹ thuật lấy tin tự động trên internet

Thúy Viết Bài New Member Thành viên vàng

Các file đính kèm:

trangquynh-net-0021-.pdf

Luận Văn Nghiên cứu về ngôn ngữ WORRDPRESS và các kỹ thuật xây dựng một Website bán hàng trực tuyến

Tiến Sĩ Nghiên cứu một số phương pháp khai phá dữ

Luận Văn Nghiên cứu một số kỹ thuật tạo cảnh trong game. Ứng dụng xây dựng game Sonic Run

Đồ Án Nghiên cứu một số hình thức tấn công Website phổ biến và các giải pháp phòng chống

Luận Văn Nghiên cứu đề xuất một số giải pháp nhằm thúc đẩy ứng dụng công nghệ thông tin tại việt nam

Thúy Viết Bài New Member
Thành viên vàng