Thạc Sĩ Kỹ thuật phân lớp dữ liệu và ứng dụng trong phát hiện mã độc

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Phí Lan Dương, 5/1/16.

  1. Phí Lan Dương

    Phí Lan Dương New Member
    Thành viên vàng

    Bài viết:
    18,524
    Được thích:
    18
    Điểm thành tích:
    0
    Xu:
    0Xu
    Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

    MỤC LỤC
    ĐẶT VẤN ĐỀ 1
    CHƯƠNG 1: TỔNG QUAN VỀ MÃ ĐỘC HẠI 2
    1.1. Các loại mã độc 2
    1.1.1. Virus 2
    1.1.2. Worm . 3
    1.1.3. Trojan Horse 3
    1.1.4. Malicious Mobile Code . 5
    1.1.5. Tracking Cookie 6
    1.1.6. Phần mềm gián điệp (Spyware) 6
    1.1.7. Attacker Tool 7
    1.1.8. Phishing . 9
    1.2. Phương pháp phát hiện mã độc hại 9
    1.2.1. Phần mềm phát hiện mã độc . 9
    1.2.2. Kỹ thuật phát hiện phần mềm mã độc 10
    1.2.3. Kỹ thuật phát hiện dựa mẫu nhận dạng 10
    1.2.4. Phát hiện dựa trên đặc điểm 12
    1.2.5. Phát hiện dựa trên hành vi . 12
    1.2.6. Kỹ thuật gây nhiễu 13
    1.2.7. Phân tích sự tương tự 14
    1.2.8. Chuẩn hóa mã độc . 15
    CHƯƠNG 2: MỘT SỐ KỸ THUẬT PHÂN LỚP 16
    2.1. Tổng quan về khai phá dữ liệu 16
    2.1.1. Khái niệm về khai phá dữ liệu. . 16
    2.1.2. Ứng dụng trong khai phá dữ liệu. . 16
    2.1.3. Các bài toán chính trong khai phá dữ liệu. . 17
    2.1.4. Tiến trình khai phá dữ liệu. 20
    Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

    2.2. Một số kỹ thuật phân lớp dữ liệu. 22
    2.2.1. Khái niệm phân lớp. . 22
    2.2.2. Mục đích của phân lớp 24
    2.2.3. Các tiêu chí để đánh giá thuật toán phân lớp. 24
    2.2.4. Các phương pháp đánh giá độ chính xác của mô hình phân lớp
    phương pháp holdout. . 25
    2.3. Phân lớp dựa trên phương pháp học Naïve bayes. 26
    2.3.1 Giới thiệu . 26
    2.3.2. Bộ phân lớp Naïve Bayes. 28
    2.4. Phân lớp dựa trên câu quyết định (Decision Tree) 29
    2.4.1. Khái niệm cây quyết định: . 29
    2.4.2. Các vấn đề cần xem xét khi phân lớp dựa cây quyết định. 42
    2.5. Kỹ thuật phân loại máy vector hỗ trợ. . 44
    2.5.1. Giới thiệu 44
    2.5.2. SVM với tuyến tính. . 46
    CHƯƠNG 3: ỨNG DỤNG KỸ THUẬT PHÂN LỚP TRONG PHÁT
    HIỆN MÃ ĐỘC 52
    3.1. Mô hình bài toán. . 52
    3.1.1. Thu thập dữ liệu 52
    3.1.2 Tiền xử lý dữ liệu . 53
    3.1.3 Lựa chọn thuộc tính . 54
    3.1.4. Xây dựng bộ phân lớp 58
    3.2. Tiến hành thực nghiệm 59
    3.2.1. Phân lớp cây quyết định . 59
    3.2.2. Phân lớp SVM . 60
    3.3 Phân tích và bình luận. 61
    KẾT LUẬN . 63
    TÀI LIỆU THAM KHẢO . 64
    Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

    DANH MỤC BẢNG
    Bảng 3.1. Bảng kết quả độ chính xác cây quyết định bộ phân lớp đa lớp . 60
    Bảng 3.2 Bảng kết quả độ chính xác cây quyết định bộ phân lớp nhị phân . 60
    Bảng 3.3. Bảng kết quả xây dựng bộ phân lớp SVM: . 61


    Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

    DẠNH MỤC HÌNH

    Hình 1.1. Mô tả về Phishing . 9
    Hình 1.2. Kiểu phần mềm mã độc cơ bản 10
    Hình 1.3. Mã độc đa hình . 11
    Hình 1.4. Phần mềm độc hại siêu đa hình 11
    Hình 1.5. Bộ phát hiện mã độc dựa trên hành vi 13
    Hình 1.6. Kỹ thuật gây nhiễu 14
    Hình 2.1. Quy trình phát hiện tri thức 20
    Hình 2.2. Ước lượng độ chính xác của mô hình phân lớp với phương pháp
    holdout. . 25
    Hình 3.1. Các bước xây dựng mô hình phát hiện mã độc . 52
    Hình 3.2 Quá trình trích rút các hàm API . 56
    Hình 3.3 Chi tiết quá trình xây dựng mô hình phát hiện mã độc 58
    Hình3.4 Biểu đồ so sánh độ chính xác (%) của hai thuật toán 62
    1
    ĐẶT VẤN ĐỀ

    Khi nhu cầu về việc sử dụng internet của con người ngày càng tăng thì
    cũng là lúc mối đe dọa xuất hiện ngày càng nhiều, nổi bật là đe dọa của mã
    độc hại. Mã độc là một loại phần mềm hệ thống do các tin tặc hay các kẻ
    nghịch ngợm tạo ra nhằm gây hại cho máy tính. Tùy theo cách thức mà tin tặc
    dung, sự nguy hại của các loại phần mềm khác nhau từ chỗ chỉ hiển thị các
    cửa sổ thông báo cho đến việc tấn công chiếm máy và lây lan sang máy khác
    như virut. Xuất hiện bất kỳ đâu trên môi trường của các thiết bị điện tử như
    các dĩa mềm, usb, đến môi trường Internet trong các webside, trong các tin
    nhắn, trong hòm thư điện tử của người dùng, trong các phần mềm tiện
    ích Khi mã độc hại đã nhiễm vào một máy tính nào đó thì nó sẽ lây lan
    sang máy tính khác là khá nhanh và khó lường trước được.
    Công nghệ thông tin liên tục phát triển và thay đổi, nhiều phần mềm
    mới ra đời mang đến cho con người nhiều tiện ích hơn. Do vậy để chống lại
    các loại mã độc hại người ta thường sử dụng các chương trình phát hiện và
    loại bỏ mã độc hại. Tuy nhiên việc phát hiện mã độc hại của các chương trình
    hiện nay thường dựa trên các thuật toán đối sánh mẫu và quan trọng là một cơ
    sở dữ liệu đầy đủ và cập nhật thường xuyên những mẫu mới. Để có một cơ sở
    dữ liệu như đã nêu cần một chương trình quản lý một cách hiệu quả và tốt rất
    nhiều công sức để tạo ra các mẫu mã độc hại. Một phương pháp mới hiện nay
    là dựa trên các mô hình toán học để phát hiện ra các mã độc hại mới mà
    không sử dụng các cơ sở dữ liệu mẫu, trong đó khai phá dữ liệu là một
    phương pháp quan trọng và đang được nhiều người quan tâm. Chính vì vậy
    luận văn này tiến hành nghiên cứu, tìm hiểu các kỹ thuật phân lớp dữ liệu và
    ứng dụng trong phát hiện mã độc. Nhằm xấy dựng ra các mô hình, thuật toán
    để phát hiện và đánh giá các mô hình đó.
     
Đang tải...