Luận Văn Nghiên cứu Data Mining trong Microsoft server 2005 với thuật toán Microsoft Association Rule và Micr

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Chương 1: Khái niệm về khai thác dữ liệu

    1. Giới thiệu

    Việc khai thác dữ liệu thường được mô tả như một quá trình lấy các thông tin

    có giá trị, xác thực từ những cơ sở dữ liệu lớn. Nói cách khác, việc khai thác dữ

    liệu bắt nguồn từ các dạng mẫu và khuynh hướng tồn tại trong dữ liệu. Các mẫu và

    khuynh hướng này có thể được gom lại với nhau và được định nghĩa như là một

    mô hình khai thác. Các mô hình này có thể được áp dụng cho các kịch bản nghiệp

    vụ riêng biệt như:

    -

    Dự đoán việc bán hàng.

    -

    Chuyển thư đến các khách hàng được chỉ định.

    -

    Xác định các sản phẩm nào có khả năng được bán với nhau.

    -

    Tìm các trình tự mà khách hàng chọn các sản phẩm.

    Một khái niệm quan trọng là xây dựng mô hình khai thác là một phần của một

    tiến trình lớn hơn bao gồm từ việc xác định các vấn đề cơ bản mà mô hình sẽ giải

    thích, đến việc triển khai mô hình này vào môi trường làm việc. Tiến trình này có thể

    được định nghĩa bằng việc triển khai 6 bước cơ bản sau:

    Bước 1: Xác định vấn đề.

    Bước 2. Chỉnh sửa dữ liệu.

    Bước 3. Thăm dò dữ liệu.

    Bước 4. Xây dựng mô hình.

    Bước 5. Thăm dò và thông qua các mô hình.

    Bước 6. Triển khai và cập nhật các mô hình. Biểu đồ sau mô tả mối quan hệ

    giữa mỗi bước trong tiến trình, và có thể sử dụng công nghệ trong Microsoft SQL

    Server 2005 để hoàn thành từng bước.

    Mặc dù tiến trình được minh họa trong biểu đồ là hình tròn, nhưng mỗi bước

    không trực tiếp dẫn đến bước tiếp theo. Tạo ra một mô hình khai thác dữ liệu là một

    tiến trình động và lặp lại. Sau khi thăm dò dữ liệu, có thể nhận ra rằng dữ liệu không

    đủ để tạo ra mô hình khai thác thích hợp, do đó sẽ phải tìm thêm dữ liệu. Có thể xây

    dựng nhiều mô hình và nhận ra là chúng không giải quyết được các vấn đề đã đưa ra

    khi định nghĩa vấn đề, và do đó phải xác định lại vấn đề đó. Có thể cập nhật các mô

    hình sau khi chúng được triển khai bởi vì nhiều dữ liệu hơn sẽ trở nên hiệu quả. Điều

    này quan trọng để hiểu rằng tạo ra một mô hình khai thác dữ liệu là một tiến trình, và

    mỗi bước trong tiến trình có thể được lập lại nhiều lần khi cần thiết để tạo ra một mô

    hình tốt.

    SQL Server 2005 cung cấp một môi trường hội nhập để tạo ra và làm việc với

    mô hình khai thác dữ liệu, gọi là Business Intelligence Development Studio. Môi

    trường này bao gồm các thuật toán khai thác dữ liệu và các công cụ mà làm cho việc

    xây dựng giải pháp toàn diện cho các dự án khác nhau dễ hơn.

    2. Các bước trong tiến trình khai thác dữ liệu

    2.1. Xác định vấn đề

    Bước đầu tiên trong tiến trình khai thác dữ liệu (được in đậm trong biểu đồ bên

    dưới (Hình 1.2)), là để xác định rõ ràng các vấn đề nghiệp vụ:
     
Đang tải...