Đồ Án Tìm hiểu các giải thuật khai phá dữ liệu trên SQL Server 2005 và ứng dụng_HVKT

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Mai Kul, 26/11/13.

  1. Mai Kul

    Mai Kul New Member

    Bài viết:
    1,299
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    LỜI NÓI ĐẦU

    Sự phát triển nhanh chóng của các ứng dụng công nghệ thông tin (CNTT) và Internet vào nhiều lĩnh vực đời sống xã hội: quản lý kinh tế, khoa học kỹ thuật đã tạo ra nhiều cơ sở dữ liệu (CSDL) khổng lồ. Ví dụ, CSDL của siêu thị Walmart (Mỹ) chứa hơn 20 triệu giao tác; CSDL nhân khẩu của TPHCM với hơn 5 triệu nhân khẩu.
    Sự phong phú của dữ liệu, cùng với việc thiếu vắng một công cụ phân tích dữ liệu mạnh đã được miêu tả như là một hoàn cảnh giàu dữ liệu nhưng nghèo thông tin. Hậu quả là, các quyết định quan trọng thường được đưa ra không dựa trên dữ liệu giàu thông tin được lưu trữ trong cơ sở dữ liệu mà dựa trên cảm tính cả nhà đưa ra quyết định, đơn giản là vì người đưa ra quyết định không có công cụ để triết ra tri thức có giá trị được nhúng trong lượng lớn dữ liệu. Theo đánh giá của IBM, các phương pháp khai phá thông tin truyền thống chỉ thu được khoảng 80% thông tin từ CSDL, phần còn lại bao gồm các thông tin mang tính khái quát, thông tin có tính qui luật vẫn còn tiềm ẩn trong CSDL. Lượng thông tin này tuy nhỏ nhưng là những thông tin cốt lõi và cần thiết cho quá trình ra quyết định.
    Từ đó, SQL Server 2005 đã ra đời với dịch vụ phân tích dữ liệu Analysis Service tích hợp sẵn các kỹ thuật khai phá dữ liệu (KPDL) được cập nhật và năng cấp từ phiên bản SQL Server 2000. Giúp cho việc KPDL trở nên dễ dàng và hiệu quả hơn, đó là nền tảng để xây dựng các ứng dụng thương mại thông minh.
    Để chúng ta hiểu rõ hơn về vấn đề này, tôi sẽ trình bày chi tiết trong nội dung đề tài của mình:
    Tìm hiểu các giải thuật khai phá dữ liệu trên SQL Server 2005 và ứng dụng.
    Do đây là lĩnh vực mới nên còn nhiều hạn chế về tài liệu, kiến thức nên không tránh khỏi những thiếu sót. Rất mong được sự đóng góp ý kiến của các thầy cô giáo và các bạn.
    Và tôi xin chân thành cảm ơn thầy giáo TS.Nguyễn Mạnh Hùng đã giúp đỡ tôi hoàn thành nội dung này.





    MỤC LỤC

    TOC \o "1-4" \h \z \u LỜI NÓI ĐẦU PAGEREF _Toc231873487 \h 3 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300340038003700000000
    Chương I. Giới thiệu PAGEREF _Toc231873488 \h 5 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300340038003800000000
    1. Khai phá dữ liệu. PAGEREF _Toc231873490 \h 5 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300340039003000000000
    2. Các bài toán thông dụng trong khai phá dữ liệu. PAGEREF _Toc231873491 \h 6 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300340039003100000000
    3. Ứng dụng của khai phá dữ liệu. PAGEREF _Toc231873492 \h 6 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300340039003200000000
    4. Những thách thức trong khai phá dữ liệu. PAGEREF _Toc231873493 \h 7 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300340039003300000000
    5. Các bước khai phá dữ liệu. PAGEREF _Toc231873494 \h 7 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300340039003400000000
    Chương II. Các giải thuật khai phá dữ liệu trên SQL Server 2005 PAGEREF _Toc231873495 \h 9 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300340039003500000000
    1. Thuật toán Microsoft Naive Bayes. PAGEREF _Toc231873497 \h 9 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300340039003700000000
    a. Giới thiệu. PAGEREF _Toc231873498 \h 9 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300340039003800000000
    b. Nguyên tắc cơ bản của giải thuật PAGEREF _Toc231873499 \h 9 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300340039003900000000
    c. Các tham số của thuật toán. PAGEREF _Toc231873500 \h 14 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350030003000000000
    2. Thuật toán Microsoft Decision Tree. PAGEREF _Toc231873501 \h 15 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350030003100000000
    a. Gới thiệu. PAGEREF _Toc231873502 \h 15 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350030003200000000
    b. Nguyên tắc cơ bản của giải thuật PAGEREF _Toc231873503 \h 16 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350030003300000000
    c. Các tham số của thuật toán. PAGEREF _Toc231873504 \h 25 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350030003400000000
    3. Thuật toán Microsoft Time Series. PAGEREF _Toc231873505 \h 27 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350030003500000000
    a. Giới thiệu. PAGEREF _Toc231873506 \h 27 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350030003600000000
    b. Nguyên lý cơ bản của thuật toán. PAGEREF _Toc231873507 \h 28 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350030003700000000
    c. Các tham số của thuật toán. PAGEREF _Toc231873508 \h 32 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350030003800000000
    Chương III. Thực hiện khai phá dữ liệu bằng wizard trên môi trường Business Intelligence Development Studio (BIDS) PAGEREF _Toc231873510 \h 34 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350031003000000000
    1. Giới thiệu Business Intelligence Development Studio. PAGEREF _Toc231873511 \h 34 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350031003100000000
    a. Immediate Mode. PAGEREF _Toc231873512 \h 34 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350031003200000000
    b. Offline Mode. PAGEREF _Toc231873513 \h 35 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350031003300000000
    c. Thiết lập Data sources và Data Source View PAGEREF _Toc231873514 \h 37 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350031003400000000
    2. Tạo và huấn luyện mô hình khai phá dữ liệu. PAGEREF _Toc231873515 \h 39 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350031003500000000
    a. Khái niệm mô hình khai phá dữ liệu. PAGEREF _Toc231873516 \h 39 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350031003600000000
    b. Tạo mô hình bằng wizard. PAGEREF _Toc231873517 \h 40 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350031003700000000
    c. Tạo mô hình bằng các câu lệnh truy vấn DMX. PAGEREF _Toc231873518 \h 45 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350031003800000000
    Chương IV. Xây dựng ứng dụng khai phá dữ liệu. PAGEREF _Toc231873519 \h 53 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350031003900000000
    I. Ứng dụng dự đoán giá cổ phiểu của tập đoàn Microsoft PAGEREF _Toc231873521 \h 53 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350032003100000000
    1. Định nghĩa vấn đề. PAGEREF _Toc231873522 \h 53 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350032003200000000
    2. Chuẩn bị dữ liệu. PAGEREF _Toc231873523 \h 53 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350032003300000000
    3. Khám phá dữ liệu. PAGEREF _Toc231873524 \h 56 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350032003400000000
    4. Xây dựng mô hình. PAGEREF _Toc231873525 \h 57 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350032003500000000
    5. Khai thác và đánh giá mô hình. PAGEREF _Toc231873526 \h 58 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350032003600000000
    6. Xây dựng ứng dụng Predict Stock Microsoft PAGEREF _Toc231873527 \h 62 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350032003700000000
    II. Ứng dụng xác định khách hàng cho công ty Adventrure Work. PAGEREF _Toc231873528 \h 64 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350032003800000000
    1.Định nghĩa vấn đề. PAGEREF _Toc231873529 \h 64 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350032003900000000
    2. Chuẩn bị dữ liệu. PAGEREF _Toc231873530 \h 65 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350033003000000000
    3. Khám phá dữ liệu. PAGEREF _Toc231873531 \h 66 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350033003100000000
    4. Xây dựng mô hình. PAGEREF _Toc231873532 \h 66 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350033003200000000
    5. Khai thác và đánh giá mô hình. PAGEREF _Toc231873533 \h 67 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350033003300000000
    6. Xây dựng ứng dụng Adventure Work. PAGEREF _Toc231873534 \h 67 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350033003400000000
    Chương V. Kết luận. PAGEREF _Toc231873535 \h 69 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350033003500000000
    TÀI LIỆU THAM KHẢO PAGEREF _Toc231873537 \h 69 08D0C9EA79F9BACE118C8200AA004BA90B02000000080000000E0000005F0054006F006300320033003100380037003300350033003700000000
     

    Các file đính kèm:

Đang tải...