Luận Văn Nghiên cứu ứng dụng bộ công cụ business intelligence trong việc xử lý số liệu của hệ quản trị cơ sở

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Khóa luận tốt nghiệp dài 51 trang
    Định dạng file word và PDF

    ĐẠI HỌC QUỐC GIA HÀ NỘI


    TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

    NGHIÊN CỨU ỨNG DỤNG BỘ CÔNG CỤ
    BUSINESS INTELLIGENCE TRONG VIỆC XỬ LÝ
    SỐ LIỆU CỦA HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU
    MYSQL

    KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
    Ngành: Công nghệ thông tin

    Mục lục
    Chương 1 : KHO DỮ LIỆU VÀ HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU MYSQL 1


    1.1. Kho dữ liệu .1

    1.1.1. Khái niệm kho dữ liệu .1

    1.1.2. Các đặc tính của kho dữ liệu .1

    1.1.3. Cấu trúc hệ thống kho dữ liệu .2

    1.1.4. Dòng dữ liệu trong kho dữ liệu .3

    1.1.5. Ứng dụng của kho dữ liệu .4


    1.2. Hệ quản trị cơ sở dữ liệu MySQL .6

    1.2.1. Giới thiệu MySQL .6

    1.2.2. Ưu điểm và nhược điểm của MySQL .6

    Chương 2 : PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 7


    Khái niệm khai phá dữ liệu .7

    Các thành phần của giải thuật khai phá dữ liệu 7

    Cây quyết định 8

    Phát hiện các luật kết hợp .10



    Chương 3 : BỘ CÔNG CỤ BUSINESS INTELLIGENCE .12


    3.1. Business Intelligence 12

    3.1.1. Khái niệm Business Intelligence .12

    3.1.2. Các thành phần chính của hệ Business Intelligence 12

    3.1.3. Lợi ích của Business Intelligence đối với doanh nghiệp .13

    3.1.4. Các công cụ Business Intelligence 15

    3.1.5. Kết hợp Business Intelligence và MySQL 15

    3.2. Kỹ thuật OLAP .16

    3.2.1. Khái niệm OLAP .16

    3.2.2. Các thành phần trong hệ thống OLAP 17


    3.3. Pentaho – Business Intelligence Server 18

    3.3.1. Tổng quan về Pentaho .18

    3.3.2. Khả năng và lợi ích của Pentaho .19


    3.4. Mondrian – OLAP Server .20

    3.4.1. Mondrian .20

    3.4.2. Schema Workbench .20


    3.5. Weka – Khai phá dữ liệu 21

    Chương 4 : ỨNG DỤNG BUSINESS INTELLIGENCE .22


    4.1. Tạo báo cáo sử dụng công cụ BI .22

    4.1.1. Giới thiệu cơ sở dữ liệu .22

    4.1.2. Bài toán 23

    4.1.3. Giải quyết bài toán 23


    4.2. Khai phá dữ liệu 26

    4.2.1. Giới thiệu cơ sở dữ liệu .26

    4.2.2. Bài toán 27

    4.2.3. Tiền xử lý 27

    4.2.4. Thực hiện thuật toán phân lớp .35

    4.2.5. Xây dựng luật kết hợp .36

    4.2.6. Nhận xét kết quả 38

    KẾT LUẬN .40


    TÓM TẮT


    Ngày nay, việc lưu trữ, xử lý dữ liệu để tổng hợp thông tin, hỗ trợ ra quyết định đã
    trở nên phổ biến đối với nhiều tổ chức sản xuất, kinh doanh. Có nhiều phương pháp để
    đáp ứng yêu cầu này, trong đó Business Intelligence(BI- giải pháp quản trị doanh nghiệp
    thông minh) là một giải pháp tiêu biểu, được nhiều tổ chức lựa chọn.

    Khóa luận này giới thiệu một vài nét tổng quan về kho dữ liệu, hệ thống xử lý phân
    tích trực tuyến và bộ công cụ Business Intelligence. Tiếp đó là việc triển khai cài đặt, ứng
    dụng Business Intelligence, cụ thể là sử dụng bộ công cụ Pentaho trong việc xây dựng báo
    cáo và khai phá dữ liệu dựa trên hệ quản trị cơ sở dữ liệu MySQL kết hợp phần mềm
    Weka.

    Chương 1 : KHO DỮ LIỆU VÀ HỆ QUẢN TRỊ CƠ
    SỞ DỮ LIỆU MYSQL

    1.1. Kho dữ liệu


    1.1.1. Khái niệm kho dữ liệu

    Theo William Inmon [12], kho dữ liệu là một bộ dữ liệu có các đặc tính : hướng chủ
    đề, có tính tích hợp, ổn định, dữ liệu gắn với thời gian, thường được sử dụng trong các hệ
    thống hỗ trợ quyết định.

    Kho dữ liệu thường bao gồm :


    Một hoặc nhiều công cụ để chiết xuất dữ liệu từ các dạng cấu trúc dữ liệu khác
    nhau.

    Cơ sở dữ liệu tích hợp hướng chủ đề, ổn định được tổng hợp thông qua việc lập


    các bảng dữ liệu.

    Một kho dữ liệu có thể được coi là một hệ thống thông tin với những thuộc tính sau:

    · Là một cơ sở dữ liệu được thiết kế dành cho nhiệm vụ phân tích, sử dụng các dữ liệu
    từ các ứng dụng khác nhau.

    · Hỗ trợ cho một số người dùng có liên quan, có sử dụng tới các thông tin liên quan.

    · Nội dung được cập nhật thường xuyên, chủ yếu theo hình thức bổ sung thông tin.

    · Chứa các dữ liệu trong lịch sử và hiện tại nhằm cung cấp các xu hướng thông tin.

    · Chứa các bảng dữ liệu có kích thước lớn.

    · Một câu hỏi thường trả về một tập kết quả liên quan đến toàn bộ bảng và các liên kết
    nhiều bảng.


    1.1.2. Các đặc tính của kho dữ liệu

    Hướng chủ đề : Kho dữ liệu có thể chứa lượng dữ liệu lên tới hàng trăm Gigabyte,
    được tổ chức theo những chủ đề chính. Kho dữ liệu không chú trọng vào giao tác và việc
    xử lý giao tác. Thay vào đó, kho dữ liệu tập trung vào việc mô hình hóa, phân tích dữ liệu
    nhằm hỗ trợ cho nhà quản lý ra quyết định. Do đó, các kho dữ liệu thường cung cấp một
    khung nhìn tương đối đơn giản bằng cách loại bớt những dữ liệu không cần thiết trong
    quá trình ra quyết định.

    Tính tích hợp : Kho dữ liệu thường được xây dựng bằng cách tổng hợp dữ liệu từ
    nhiều nguồn khác nhau, ví dụ các cơ sở dữ liệu, những bản ghi giao tác trực tuyến hoặc
    thậm chí là từ những file dữ liệu độc lập. Những dữ liệu này tiếp tục được làm sạch,
    chuẩn hóa để đảm bảo sự nhất quán, sau đó đưa vào kho dữ liệu.

    Ổn định : Dữ liệu trong kho dữ liệu thường được lưu trữ lâu dài, ít bị sửa đổi, chủ
    yếu dùng cho việc truy xuất thông tin nên có độ ổn định cao. Hai thao tác chủ yếu tác
    động tới kho dữ liệu là : nhập dữ liệu vào và truy xuất.

    Dữ liệu gắn với thời gian : Do có tính ổn định, kho dữ liệu thường lưu trữ dữ liệu
    của hệ thống trong khoảng thời gian dài, cung cấp đủ số liệu cho các mô hình nghiệp vụ,
    dự báo, khảo sát những chỉ tiêu cần quan tâm.


    1.1.3. Cấu trúc hệ thống kho dữ liệu

    Hệ thống kho dữ liệu thường bao gồm 3 tầng như trong hình 1:

    Tầng đáy : là nơi lấy dữ liệu từ nhiều nguồn khác nhau sau đó làm sạch, chuẩn hóa,
    lưu trữ tập trung.

    Tầng giữa : thực hiện các thao tác với kho dữ liệu thông qua dịch vụ OLAP (OLAP
    server). Có thể cài đặt bằng Relational OLAP, Multidimensional OLAP hay kết hợp cả
    hai mô hình trên thành mô hình Hybrid OLAP.

    Tầng trên : thực hiện việc truy vấn, khai phá thông tin.


    TÀI LIỆU THAM KHẢO

    Tiếng Việt

    [1] Business Intelligence là gì. http://bis.net.vn/forums/t/121.aspx

    [2] Hà Quang Thụy (chủ biên). Giáo trình khai phá dữ liệu Web. Nxb Giáo dục Việt Nam.
    2009.

    [3] Kho dữ liệu và các ứng dụng. http://web.dongtak.net/spip.php?article11&lang=vi.

    [4] Nguyễn Thành Đạt, Nguyễn Ngọc Anh. Advances Topics in Database Systems. 2009.

    [5] Phạm Văn Quang, Đỗ Thị Luân. Tiểu luận Datamining vs OLAP. 2009.

    [6] Wikipedia về kho dữ liệu.
    http://vi.wikipedia.org/wiki/Kho_d%E1%BB%AF_li%E1%BB%87u.

    Tiếng Anh

    [7] Deduction Engineering and Machine Learning – WEKA. The University of Waikato,
    2003.

    [8] Introducing the Pentaho BI Suite Community Edition.

    [9] Julian Hyde, Lance Walter. OLAP for MySQL using Pentaho’s Mondrian.

    [10] Pentaho homepage. http://www.pentaho.com/

    [11] Remko R. Bouckaert, Eibe Frank, Mark Hall, Richard Kirkby, Peter Reutemann,
    Alex Seeward, David Scuse. Weka Manual for Version 3.7.0. The University of Waikato,
    2009.

    [12] Seth Grimes. MySQL V5 – Ready for Prime Time Business Intelligence. Alta Plana
    Corporation.

    [13] William H. Inmon. Building the Data Warehouse Fourth Edition. Wiley, 2005.

    [14] Zdravko Markov, Ingrid Russell. An Introduction to the WEKA Data Mining
    System.
     
Đang tải...