Báo Cáo Tìm hiểu khai phá dữ liệu bằng cây quyết định

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Lời mở đầuTrong những năm gần đây, việc nắm bắt được thông tin được coi là chìa khóa của kinh doanh. Ai thu thập, phân tích và hiểu được thông tin và hành động được nhờ vào những thông tin đó là kẻ thắng cuộc trong thời đại thông tin này. Chính vì vậy, việc tạo ra thông tin và mức tiêu thụ thông tin ngày nay ngày càng gia tăng.
    Cúng với chức năng khai thác có tính chất tác nghiệp, việc khai thác các cơ sở dữ liệu (CSDL) phục vụ các yêu cầu trợ giúp quyết định ngày càng có ý nghĩa quan trọng và là nhu cầu to lớn trong mọi lĩnh vực hoạt động kinh doanh, quản lý. Dữ liệu được thu thập và lưu trữ ngày càng nhiều nhưng người ra quyết định trong quản lý, kinh doanh lại cần những thông tin bổ ích, những “tri thức” rút ra từ nguồn dữ liệu đó hơn là chính những dữ liệu đó cho việc ra quyết định của mình.
    Các nhu cầu đó đã được biết đến từ lâu nhưng mới thực sự bùng nổ từ thập niên 90 này. Do đó, những năm gần đây đã phát triển mạnh mẽ một loạt các lĩnh vực nghiên cứu về tổ chức các kho dữ liệu và kho thông tin (data warehouse, information warehouse), các hệ trợ giúp quyết định, các phương pháp phát hiện tri thức và khai phá dữ liệu (data mining). Trong đó, khai phá dữ liệu và phát hiện tri thức đã trở thành một lĩnh vực nghiên cứu sôi động, thu hút sự quan tâm của rất nhiều người trên khắp các lĩnh vực khác nhau như các hệ cơ sở dữ liệu, thống kê, chiết xuất thông tin, nhận dạng, học máy, trí tuệ nhân tạo, v.v. Trong phạm vi đề tài báo cáo này, chúng em sẽ trình bày những nội dung sau:
    Chương I. Tổng quan về CSDL và sự xuất hiện của khai phá dữ liệu
    Chương II. Khai phá dữ liệu
    Chương III.Khai phá dữ liệu bằng cây quyết định
    Chương IV. Demo bằng Công cụ WEKA





    CHƯƠNG 1. TỔNG QUAN VỀ CSDL VÀ SỰ XUẤT HIỆN KHAI PHÁ DỮ LIỆU
    1.1. Tổ chức và khai thác CSDL truyền thốngViệc dùng các phương tiện tin học để tổ chức và khai thác các cơ sở dữ liệu đã được phát triển từ những năm 60. Từ đó cho đến nay, rất nhiều cơ sở dữ liệu đã được tổ chức, phát triển và khai thác ở mọi quy mô và ở khắp các lỹnh vực hoạt động của con người và xã hội. Theo như đánh giá cho thấy, lượng thông tin trên thế giới cứ sau 20 tháng lại tăng gấp đôi. Kích thước và số lượng cơ sở dữ liệu thậm chí còn tăng nhanh hơn. Năm 1989, tổng số cơ sở dữ liệu trên thế giới vào khoảng 5 triệu, hầu hết đều là các cơ sở dữ liệu cỡ nhỏ được phát triển trên DBaseIII. Với sự phát triển mạnh mẽ của công nghệ điện tử tạo ra các bộ nhớ có dung lượng lớn, bộ xử lý tốc độ cao cùng với các hệ thống mạng viễn thông, người ta đã xây dựng các hệ thống thông tin nhằm tự động hóa mọi hoạt động kinh doanh của mình. Điều này đã tạo ra một dòng dữ liệu tăng lên không ngừng vì ngay từ các giao dịch đơn giản nhất như một cuộc gọi điện thoại, kiểm tra sức khỏe, sử dụng thẻ tín dụng, v.v đều được ghi vào trong máy tính. Cho đến nay, con số ày đã trở nên khổng lồ, bao gồm các cơ sở dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes lưu trữ các dữ liệu kinh doanh, ví dụ như dữ liệu thông tin khách hàng, dữ liệu lịch sử các giao dịch, dữ liệu bán hàng, dữ liệu các tài khoản, các khoản vay, sử dụng vốn, Nhiều hệ quản trị cơ sở dữ liệu mạnh với các công cụ phong phú và thuận tiện đã giúp con người khai thác có hiệu quả các nguồn tài nguyên dữ liệu. Mô hình cơ sở dữ liệu quan hệ và ngôn ngữ vấn đáp chuẩn (SQL) đã có vai trò hết sức quan trọng trong việc tổ chức và khai thác các cơ sở dữ liệu đó. Cho đến nay, không một tổ chức kinh tế nào là không sử dụng các hệ quản trị cơ sở dữ liệu và các hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác các cơ sở dữ liệu phục vụ cho hoạt động tác nghiệp của mình.
     

    Các file đính kèm:

Đang tải...