Tiểu Luận Tiểu luận môn nghiên cứu một số thuật toán ứng dụng data mining

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    167
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC​ 280000856" MỞ ĐẦU 3
    280000857" CHƯƠNG 1: TỔNG QUAN PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 4
    280000858" 1.1 Giới thiệu chung. 4
    280000859" 1.2. Khái niệm khai phá dữ liệu. 4
    280000860" 1.3. Khai phá dữ liệu dự đoán. 6
    280000861" 1.3.1. Phân loại6
    280000862" 1.3.2. Hồi quy. 7
    280000863" 1.4. Khai phá dữ liệu mô tả. 7
    280000864" 1.4.1. Phân cụm 7
    280000865" 1.4.2. Luật kết hợp. 8
    280000866" 1.5. Học máy (Machine Learning). 9
    280000867" 1.6. Các ứng dụng của KDD 9
    280000868" 1.7. Những thách thức đối với KDD 9
    280000869" CHƯƠNG 2: KỸ THUẬT PHÂN LOẠI TRONG KHAI PHÁ DỮ LIỆU 11
    280000870" 2.1 Phân loại là gì?. 11
    280000871" 2.2 Các vấn đề quan tâm của phân loại13
    280000872" 2.2.1 Chuẩn bị dữ liệu để phân loại:13
    280000873" 2.2.2 So sánh các phương pháp phân loại:14
    280000874" 2.3 Phân loại bằng cây quyết định quy nạp. 14
    280000875" 2.3.1 Cây quyết định quy nạp. 15
    280000876" 2.3.1.1 Chiến lược cơ bản của ID3:15
    280000877" 2.3.1.2 Phép đo lựa chọn thuộc tính: .16
    280000878" CHƯƠNG 3: KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU 20
    280000879" 3.1 Phân cụm là gì20
    280000880" 3.2 Các kiểu dữ liệu trong phép phân cụm 21
    280000881" 3.2.1 Độ không tương đồng và tương đồng:22
    280000882" 3.3 Phân loại các phương pháp phân cụm chính. 23
    280000883" 3.1. Các phương pháp phân chia:23
    280000884" 3.2. Các phương pháp phân cấp:24
    280000885" 3.3. Các phương pháp dựa trên mật độ:25
    280000886" 3.4. Các phương pháp dựa trên lưới:25

    MỞ ĐẦU
    · Giới thiệu​ Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giá trị nhất định nào đó. Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng từ 5% đến 10%) là luôn được phân tích, số còn lại họ không biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó. Mặt khác, trong môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Với những lý do như vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discovery and Data Mining).
    Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng. Bước quan trọng nhất của quá trình này là Khai phá dữ liệu (Data Mining - **), giúp người sử dụng thu được những tri thức hữu ích từ những CSDL hoặc các nguồn dữ liệu khổng lồ khác. Rất nhiều doanh nghiệp và tổ chức trên thế giới đã ứng dụng kĩ thuật khai phá dữ liệu vào hoạt động sản xuất kinh doanh của mình và đã thu được những lợi ích to lớn. Nhưng để làm được điều đó, sự phát triển của các mô hình toán học và các giải thuật hiệu quả là chìa khoá quan trọng. Vì vậy, trong luận văn này, tác giả sẽ đề cập tới hai kỹ thuật thường dùng trong Khai phá dữ liệu, đó là Phân loại (Classification) và Phân cụm (Clustering hay Cluster Analyse).
     

    Các file đính kèm:

Đang tải...