Luận Văn Tìm hiểu bài toán khai phá dữ liệu văn bản

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    LỜI NÓI ĐẦU
    Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên mọi lĩnh vực. Mỗi phút trôi qua hàng triệu triệu trang web được đẩy lên nhằm làm giàu nguồn tài nguyên vô tận này. Vấn đề đặt ra là làm sao ta có thể nắm bắt, cập nhật, chia sẻ thông tin một cách tổng quát, nhanh chóng và dễ dàng trong một khối lượng thông tin khổng lồ như vậy. Do đó đòi hỏi phải khai phá nguồn dữ liệu đó để lấy được những thông tin có ích một cách tự động. Trên thế giới hiện nay, rất nhiều website cung cấp tập tin RSS để chia sẻ và cập nhật thông tin một cách dễ dàng và nhanh chóng. Một số website hỗ trợ đọc tin RSS như: Google Reader, Yahoo, và một số phần mềm như: RSSReader, FeedDemon. Còn hiện tại ở Việt Nam, có một số phần mềm hỗ trợ đọc tin như: Vietspider, iCA và website hỗ trợ đọc tin RSS trực tuyến thì chưa nhiều.
    Chính vì vậy đề tài “Tìm hiểu bài toán khai phá dữ liệu văn bản” được đưa ra nhằm ứng dụng khai phá dữ liệu vào việc xây dựng hệ thống thu thập tin tức từ nhiều nguồn website khác giúp cho người dùng có thể nắm bắt thông tin một cách dễ dàng và tiết kiệm thời gian.
    Nội dung đề tài gồm các phần chính sau:
    Chương 1 – Khái quát về khai phá dữ liệu
    Tìm hiểu khái niệm, quá trình và các bài toán trong khai phá dữ liệu.
    Chương 2 - Khai phá dữ liệu trong lấy tin tự động
    Nội dung của chương 2 là tìm hiểu về lấy tin tự động và ứng dụng khai phá dữ liệu trong lấy tin tự động (tìm hiểu ngôn ngữ XML và công nghệ RSS )
    Chương 3 – Phân tích thiết kế chương trình
    Nội dung của chương 3 là quá trình khảo sát, phân tích và thiết kế chi tiết cho chương trình hỗ trợ đọc tin RSS.
    Chương 4 – Xây dựng chương trình
    Nêu ra các lớp, phương thức cơ bản để xây dựng website hỗ trợ đọc tin RSS. Và cuối cùng là đưa một số màn hình giao diện đạt được.
    Kết luận và phương hướng phát triển
    Phần cuối cùng này sẽ là những kết luận về kết quả đạt được và các ưu nhược điểm của đề tài. Bên cạnh đó, phần cùng này cũng nêu ra các phương hướng để có thể tiếp tục phát triển đề tài trong tương lai nhằm ngày một hoàn thiện và đáp ứng được nhu cầu ngày một cao của người sử dụng.





    MỤC LỤC
    228600456" LỜI NÓI ĐẦU
    228600457" CHƯƠNG 1 – KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU
    228600458" 1.1. Khái niệm khai phá dữ liệu.
    228600459" 1.2. Quá trình khai phá dữ liệu.
    228600460" 1.3. Các bài toán thông dụng trong khai phá dữ liệu
    228600481" CHƯƠNG 2 – KHAI PHÁ DỮ LIỆU TRONG LẤY TIN TỰ ĐỘNG
    PHẦN I: Lấy tin tự động
    1. Định nghĩa .
    2. Quy trình lấy tin tự động .
    PHẦN 228600496" II: Khai phá dữ liệu trong lấy tin tự động.
    228600482" 1. Tìm hiểu XML.
    228600483" 1.1. Nguồn gốc và mục đích .
    228600484" 1.2. Đặc điểm
    1.3. 228600485" Cấu trúc.
    228600487" 1.4. Ứng dụng XML.
    228600488" 2. Tìm hiểu RSS.
    228600489" 2.1. Tổng quan RSS.
    228600490" 2.2. Lịch sử ra đời của RSS.
    228600491" 2.3. Quy định của RSS.
    228600493" 2.4. Cú pháp của RSS.
    228600494" 2.5. Các phần tử trong RSS <channel>.
    228600495" 2.6. Các phần tử trong RSS <item>.
    228600497" CHƯƠNG 3: PHÂN TÍCH THIẾT KẾ CHƯƠNG TRÌNH
    228600498" 3.1 Tổng quan về chương trình.
    228600499" 3.2 Khảo sát, phân tích và đánh giá yêu cầu.
    228600500" 3.2.1. Khảo sát một số chương trình hỗ trợ đọc tin tức RSS.
    3.2.2. Tổng hợp yêu cầu người dùng .
    3.2.3. Đánh giá và lựa chọn giải pháp
    3.3. Phân tích chức năng hệ thống .
    3.3.1 Biểu đồ Use Case .
    3.3.2 Đặc tả các Use - case
    3.3.3 Biểu đồ tuần tự (Sequence Diagram)
    3.4. Thiết kế cơ sở dữ liệu
    3.4.1. Đặc tả chi tiết bảng dữ liệu
    3.4.2. Mô hình quan hệ
    CHƯƠNG 4: XÂY DỰNG CHƯƠNG TRÌNH .
    4.1. Quy trình tự động lấy đường dẫn tới tập tin RSS
    4.2. Quy trình đọc tập tin RSS .
    4.3. Một số màn hình giao diện đạt được
    KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .
    TÀI LIỆU THAM KHẢO .
    PHỤ LỤC
     

    Các file đính kèm:

Đang tải...