Đồ Án Áp dụng thuật toán Microsoft Decision Tree vào quản lý cơ sở dữ liệu cán bộ Hải Quan

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Trang
    MỤC LỤC
    LỜI CAM ĐOAN . 1
    MỤC LỤC . 3
    DANH MỤC HÌNH VẼ MINH HỌA . .5
    MỞ ĐẦU . .7
    CHƯƠNG 1. TỔNG QUAN . .10
    1.1. Ý nghĩa: . 10
    1.2.Các yêu cầu đặt ra trong công tác quản lý nguồn nhân lực: . 11
    1.2.1 Yêu cầu chung . 11
    1.2.2 Yêu cầu cụ thể: . .12
    1.2.3. Thông tin quản lý : . .12
    1.2.4. Khảo sát thực trạng yêu cầu vấn đề quản lý nguồn nhân lực của cơ quan Hải quan: .15
    1.2.5. Thực trạng dữ liệu, đề xuất yêu cầu cần đạt được và kiến trúc của hệ thống: . 27
    Kết luận chương 1 . 31
    CHƯƠNG 2. NGHIÊN CỨU CÔNG NGHỆ, KỸ THUẬT VÀ CÔNG CỤ
    PHỤC VỤ YÊU CẦU . .32
    2.1. Khai phá dữ liệu: . .32
    2.1.1. Khái niệm . 32
    2.1.2. Ưu thế khai phá dữ liệu . 33
    2.2. Các kỹ thuật khai phá dữ liệu: . .34
    2.3. Cây quyết định: . .37
    2.3.1. Sức mạnh của cây quyết định: . .37
    2.3.2.Nhược điểm của cây quyết định: . .38
    2.4. Các phần mềm công cụ khai phá dữ liệu: . .38
    2.4.1. Phân tích số liệu bằng R: . .38
    2.4.2. Phân tích số liệu bằng phần mềm weka . 40
    2.4.3 Phân tích số liệu bằng See5/C5.0 . .43
    2.4.4. Phân tích số liệu bằng DTREG1 . .44
    2.4.5.Phân tích số liệu sử dụng công cụ của Microsoft: . 45
    2.5. Công cụ lựa chọn: . 47
    Kết luận chương 2 . 52
    CHƯƠNG 3.PHÂN LỚP DỮ LIỆU SỬ DỤNG CÂY QUYẾT ĐỊNH . .53
    3.1. Tổng quan về phân lớp dữ liệu trong khai phá dữ liệu . .53


    3.1.1.Phân lớp dữ liệu . .53
    3.1.2. Các vấn đề liên quan đến phân lớp dữ liệu . .56
    3.1.3 Các phương pháp đánh giá độ chính xác của mô hình phân lớp . .58
    3.2 Cây quyết định ứng dụng trong phân lớp dữ liệu . .59
    3.2.1.Định nghĩa: . .59
    3.2.2. Các vấn đề trong khai phá dữ liệu sử dụng cây quyết định . 60
    3.2.3.Xây dựng cây quyết định . .62
    Kết luận chương 3 . 63
    CHƯƠNG 4. THỰC NGHIỆM . .64
    4.1.Giới thiệu về mô hình xây dựng: . 64
    4.1.1.Sơ đồ luồng dữ liệu thông tin nhân sự: . .64
    4.1.2. Giải quyết vấn đề: . 65
    4.1.3.Các mô hình được xây dựng: . .66
    4.2. Minh họa kết quả hỗ trợ thu được từ mô hình xây dựng . .68
    4.2.1 Minh họa hỗ trợ công tác tuyển lựa và đào tạo-cây lựa chọn cán bộ đào tạo quản lý
    nhà nước . .68
    4.2.2. Minh họa công tác kiểm tra thông tin hồ sơ nhập máy-cây phân lớp vị trí công tác
    (lãnh đạo, nhân viên) . .71
    4.2.3.Minh họa công tác hoạch định mô hình tổ chức . 74
    4.2.4.Minh họa mô hình giám sát theo dõi công việc phục vụ công tác đánh giá: . .77
    4.2.5. Minh họa hỗ trợ xây dựng các quy trình quản lý nguồn nhân lực: . 78
    Kết luận chương 4 . 80
    KẾT LUẬN . .81
    TÀI LIỆU THAM KHẢO . .83
    PHỤ LỤC 1: MÔ TẢ BẢNG DỮ LIỆU SỬ DỤNG . .84
    PHỤ LỤC 2: THÔNG TIN VỀ QUẢN LÝ QUÁ TRÌNH CÁ NHÂN CỦA
    CHỨC NĂNG HỒ SƠ HIỆN TẠI . .85



    - 7 -
    MỞ ĐẦU
    Quản lý cán bộ là mảng công tác quan trọng phối hợp một cách tổng thể các
    hoạt động hoạch định, tuyển mộ, tuyển chọn, duy trì, phát triển, động viên
    và tạo điều kiện thuận lợi cho tài nguyên nhân sự trong tổ chức, nhằm đạt
    được mục tiêu chiến lược và định hướng viễn cảnh của tổ chức. Một số công tác
    cán bộ điển hình là tổ chức, sắp xếp cán bộ, đánh giá cán bộ, quy hoạch cán bộ,
    lựa chọn cán bộ, bồi dưỡng quản lý, hoạch định mô hình tổ chức [4], trong đó,
    công tác đánh giá hồ sơ cán bộ là công tác đầu tiên quan trọng xuyên xuốt trong
    công tác cán bộ. Chỉ khi có đánh giá đúng cán bộ thì mới có thể sắp xếp đúng và
    người cán bộ có điều kiện phát huy được hết khả năng. Về phía người quản lý
    cán bộ thì họ cần đưa ra những quyết định đúng: lựa chọn đúng để đào tạo, để đề
    bạt, bổ nhiệm Công tác quản lý hồ sơ cán bộ phổ biến là quản lý theo mô hình
    thủ công; đánh giá cán bộ dựa vào cảm tính và tự đánh giá của cá nhân để xem
    xét đã phát sinh nhiều tiêu cực làm suy giảm sức mạnh của bộ máy quản lý. Từ
    thực trạng đó, lộ trình tin học hóa dữ liệu nhân sự đã được tiến hành theo hướng
    số hóa hồ sơ nhân sự để xây dựng ứng dụng khai thác dữ liệu nhanh chóng hiệu
    quả phục vụ cho công tác nghiệp vụ.
    Trong quá trình quản lý, cập nhật, bổ sung, thay đổi thông tin trong hồ sơ
    thì dữ liệu được tích lũy đã tăng trưởng ngày càng nhiều, và có thể chứa nhiều
    thông tin ẩn dạng những quy luật chưa được khám phá. Dữ liệu nhân sự là một
    cơ sở dữ liệu có nhiều thông tin cần quản lý, với mỗi trường hợp có nhiều thuộc
    tính (Biểu mẫu 2C/TCTW-98 hồ sơ cán bộ Bộ nội vụ đã quy định thông tin quản
    lý gồm 31 thuộc tính) và đặc tính phải phân loại đánh giá một trường hợp dựa
    trên các thuộc tính. Chính vì vậy, kho dữ liệu nhân sự hình thành đặt ra nhu cầu
    cần tìm cách trích rút ra các luật trong dữ liệu hay dự đoán những xu hướng mới
    của dữ liệu tương lai. Yêu cầu phương pháp khai thác kho dữ liệu này một cách
    khoa học hiệu quả và thuận tiện để có cơ sở thông tin hỗ trợ công tác quản lý
    nguồn nhân lực, đánh giá một con người cụ thể từ những thông tin đã được lưu
    trữ.
    J. Han và M. Kamber [6] đã trình bày quá trình tiến hóa của lĩnh vực công
    nghệ cơ sở dữ liệu, mà trong đó, công nghệ khai phá dữ liệu (Data Mining) đã
    trở thành dạng tiến hóa mới của công nghệ cơ sở dữ liệu. Một quan niệm khác
    về công nghệ khai phá dữ liệu của Fayyad, Piatetsky-Shapiro là việc nghiên cứu
    phát triển lĩnh vực khai phá dữ liệu nhằm giải quyết tình trạng “ngập tràn thông
    tin mà thiếu thốn tri thức”. Khai phá dữ liệu có nhiều ứng dụng là một phương
    pháp đơn vị Able Danger của Quân đội Mỹ đã dùng để xác định kẻ đứng đầu
    cuộc tấn công ngày 11/9, Mohamed Atta, và ba kẻ tấn công ngày 11/9 khác là
    các thành viên bị nghi ngờ thuộc lực lượng al Qaeda hoạt động ở Mỹ hơn một
    năm trước cuộc tấn công [7]. Đối với dữ liệu nhân sự, khi cập nhật một hồ sơ
    nhân sự mới vào cơ sở dữ liệu thì việc phân lớp nhân sự đó một cách tự động
    thực sự có ý nghĩa hỗ trợ cho việc đánh giá ban đầu. Những nghiên cứu công
    nghệ thông tin và những sản phẩm phần mềm về quản lý nhân sự, quản lý nguồn
    nhân lực hiện có mới chỉ đạt được mức độ thu thập hồ sơ lý lịch cán bộ và in ra
    các biểu mẫu báo cáo phục vụ quản lý, chưa có sản phẩm nào áp dụng kỹ thuật
    để phát hiện những thông tin tiếm ẩn trong dữ liệu nhân sự. Minh chứng cho
    việc này có thể kể đến một loạt các sản phẩm quản lý hồ sơ nhân sự như chương
    trình “Quản lý cán bộ phiên bản 4.0” của công ty sản xuất công nghệ phần mềm
    CSE, sản phẩm đã được sử dụng Hệ quản trị Oracle phiên bản 9i để cập nhật,
    quản lý hồ sơ nhân sự của Bộ Nội vụ, Bộ Tài chính và các cơ quan trực thuộc
    Bộ Tài chính trong đó có Tổng cục Hải quan Vì vậy, việc nghiên cứu các giải
    pháp khai thác các thông tin tiềm ẩn trong các kho dữ liệu nhân sự là hết sức cần
    thiết.
    Luận văn nghiên cứu tổng quan về đặc tính công nghệ khai phá dữ liệu,
    các kỹ thuật khai phá dữ liệu (phân cụm, phân lớp ), các phần mềm thông dụng
    khai phá dữ liệu và giải pháp phân lớp dựa trên cây quyết định. Luận văn tập
    trung vào thuật toán tiêu biểu ứng dụng cho phạm vi phân tích dữ liệu là
    Microsoft Decision Tree”, sử dụng công cụ phân tích dữ liệu của Microsoft.
    Đây là công cụ rất thuận tiện trong việc kết nối với cơ sở dữ liệu nhân sự dùng
    phần mềm Hệ quản trị SQL Server của Microsoft, công cụ có khả năng phân
    tích trực tuyến qua mạng (có quyền truy cập hợp pháp có thể phân tích từ bất kỳ
    máy tính nào có trong mạng) và là một công cụ mạnh khai thác nhanh đáp ứng
    được phân tích theo mô hình tăng trưởng dữ liệu. Ta biết rằng các tập dữ liệu
    được bổ sung và tăng trưởng theo thời gian, do vậy các tập thường xuyên và các
    luật kết hợp đã được tính toán không còn giá trị trên tập dữ liệu mới. Ngoài ra,
    với một dữ liệu ổn định, khi cần tìm các tập thường xuyên với độ hỗ trợ khác,
    công việc phải tính lại từ đầu.
    Luận văn đã chạy thực nghiệm trên bộ dữ liệu nhân sự thử nghiệm tại
    Tổng cục Hải quan (việc sử dụng dữ liệu này chấp hành đúng quy tắc bảo quản
    thông tin hồ sơ cán bộ). Dữ liệu đầu vào của bài toán là cơ sở dữ liệu thử
    nghiệm hồ sơ lý lịch của 6978 nhân sự. Kết quả đầu ra là mô hình phân lớp và
    đặc tính hỗ trợ của mô hình trong công tác quản lý nguồn nhân lực. Quá trình
    chạy thử nghiệm đã thu được các mô hình phân lớp trực quan với kết quả khích
    lệ. Trên cơ sở đó, luận văn đề xuất những cải tiến để hoàn thiện quan điểm quản
    lý nguồn nhân lực của ngành Hải quan và cấu trúc tổng thể cho hệ thống ứng
    dụng quản lý nguồn nhân lực. Phương pháp của luận văn đã nêu ra một hướng đi
    mới trong phân tích số liệu khác không chỉ phục vụ cho công tác thống kê nhà
    nước về hải quan mà còn phục vụ cho việc hình thành hệ hỗ trợ ra quyết định
    trong tương lai.
    Bài toán phân lớp dữ liệu nhân sự để hỗ trợ quyết định đánh giá cán bộ
    nhằm khám phá được những đặc tính ẩn là rất có ý nghĩa. Đây là hướng giải
    pháp có hiệu quả cho việc phân tích thông tin phục vụ cho công tác đánh giá
    nhân sự nói riêng và công tác quản lý nguồn nhân lực nói chung.
    Phạm vi nội dung nghiên cứu của đề tài:
    Sử dụng phân lớp dữ liệu dựa trên cây quyết định để xây dựng các mô
    hình phân lớp hỗ trợ việc thực hiện các công việc quản lý nguồn nhân lực: giám
    sát công việc của nhân viên, hoạch định mô hình tổ chức, theo dõi giám sát số
    liệu của hồ sơ, hỗ trợ việc ra quyết định lựa chọn cán bộ tham gia chương trình
    đào tạo.
    Luận văn gồm có 4 chương chính:
    Chương 1: Tổng quan đề cập tới bối cảnh thực tiễn định hình hướng
    nghiên cứu của luận văn.
    Chương 2: Yêu cầu và nghiên cứu các kỹ thuật, công cụ liên quan để
    chọn kỹ thuật, công cụ sử dụng.
    Chương 3: Luận văn đi sâu vào nghiên cứu kỹ thuật phân lớp dựa trên
    cây quyết định.
    Chương 4: Thực nghiệm trên bộ dữ liệu nhân sự và đưa ra kết quả minh
    họa cho phương pháp.
    Kết luận định hướng phát triển kết quả nghiên cứu.
     

    Các file đính kèm:

Đang tải...