Thạc Sĩ Nghiên cứu và ứng dụng kỹ thuật học máy vào bài toán phát hiện mã độc

Thảo luận trong 'Khoa Học Công Nghệ' bắt đầu bởi Quy Ẩn Giang Hồ, 21/6/17.

  1. Quy Ẩn Giang Hồ

    Quy Ẩn Giang Hồ Administrator
    Thành viên BQT

    Bài viết:
    3,084
    Được thích:
    23
    Điểm thành tích:
    38
    Xu:
    0Xu
    MỞ ĐẦU

    Ngày nay song song với sự bùng nổ mạnh mẽ của công nghệ thông tin và sự phát triển của Internet toàn cầu là các nguy cơ mất an toàn thông tin đang trở nên trầm trọng và nguy hiểm hơn, trong đó mã độc hại đang là các hiểm họa hàng đầu bởi khả năng có thể lây lan phát tán trên các hệ thống máy tính và thực hiện các hành vi tấn công bất hợp pháp. Mã độc đang ngày càng tiến hóa với những biết thể đa dạng, với những cách thức che dấu ngày càng tinh vi hơn. Có thể nói phát hiện và ngăn chặn mã độc đang là một thách thức được đặt ra trong lĩnh vực An toàn thông tin. Các phương pháp phát hiện mã độc thông thường chủ yếu sử dụng kĩ thuật so sánh mẫu dựa trên cơ sở dữ liệu mã độc được xây dựng và định nghĩa từ trước, tuy nhiên phương pháp này bộc lộ nhiều nhược điểm đó là không có khả năng phát hiện ra các mẫu mã độc mới, số lượng dữ liệu mã độc ngày càng gia tăng làm cho cơ sở dữ liệu mẫu trở nên ngày càng lớn. Hiện nay hướng nghiên cứu dựa vào các mô hình học máy để phân loại và phát hiện mã độc đang tỏ ra là phương pháp tiềm năng và hiệu quả khi có thể cải thiện được các nhược điểm đã nêu ở trên so với phương pháp truyền thống. Tuy nhiên, một trong những vấn đề được quan tâm là làm sao để xây dựng được mô hình học máy tốt nhất đạt hiệu quả chính xác và hiệu suất cao. Trong đó một yếu tố quan trọng được xem là quyết định chính là giải pháp trích chọn đặc trưng. Trong các phần nghiên cứu của luận văn này tôi trình bày về phương pháp ứng dụng học máy vào xây dựng các mô hình phát hiện mã độc trong đó các thực nghiệm dựa trên phương pháp phân tích tĩnh mã độc, tiền xử lý dữ liệu bằng kỹ thuật dịch ngược đưa các file dữ liệu mẫu về dạng mã hex và thực hiện khai phá dữ liệu text sử dụng các mã n-gram byte là các đặc trưng ban đầu .Sau đó các dữ liệu đặc trưng này sẽ được trích chọn ra một bộ dữ liệu đặc trưng tốt nhất để xây dựng mô hình trên cơ sở giải pháp trích chọn đặc trưng mà trong luận văn này tôi đã tập trung nghiên cứu và đề xuất. Các kết quả của luận văn được thực nghiệm trên khoảng 4698 file mẫu thực thi trên nền Windows trong đó 2373 file mã thông thường và 2325 file mẫu mã độc với nhiều thể loại đa dạng như Backdoor, Virus, Trojan, Worm .
    Nội dung luận văn được chia ra làm 4 phần như sau:
    Chương 1: Chương này nghiên cứu tổng quan về mã độc trình bày các kiến thức chung nhất liên quan đến mã độc, phân loại mã độc cũng như các kỹ thuật phân tích và phát hiện mã độc hiện nay.
    Chương 2: Nghiên cứu một số thuật toán phân lớp dữ liệu điển hình trong kỹ thuật học máy giám sát trong đó 2 thuật toán phân lớp dữ liệu tiêu biểu được trình bày là cây quyết định (DT) và máy véc tơ hỗ trợ (SVM)
    Chương 3: Chương này trình bày giải pháp ứng dụng kỹ thuật học máy vào phát hiện mã độc bao gồm quá trình tiền xử lý dữ liệu, xây dựng các mô hình học máy để phát hiện mã độc. Trong đó trọng tâm là trình bày một đề xuất giải pháp chọn đặc trưng cải thiện và nâng cao hiệu quả cho các thuật toán phân lớp đối với bài toán phát hiện mã độc.
    Chương 4: Trình bày về quá trình thực nghiệm và đánh giá, các kết quả được thực nghiệm và so sánh trên các tập đặc trưng được chọn dựa trên giải pháp đã đề xuất, các kết quả cũng được so sánh giữa 2 thuật toán phân lớp đã trình bày là cây quyết định và máy véc tơ hỗ trợ.

    MỤC LỤC
    LỜI CAM ĐOAN .i
    LỜI CẢM ƠN . ii
    MỤC LỤC . iii
    DANH MỤC CÁC KÍ HIỆU VIẾT TẮT v
    DANH MỤC CÁC BẢNG BIỂU .vi
    DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vii
    MỞ ĐẦU .1
    CHƯƠNG 1 TỔNG QUAN VỀ MÃ ĐỘC .3
    1.1. Giới thiệu về mã độc máy tính .3
    1.2. Phân loại mã độc 3
    1.2.1. Virus máy tính 4
    1.2.1.1. Phân loại virus dựa vào các hình thức lây nhiễm: .6
    1.2.1.2. Phân loại virus dựa trên các chiến lược ẩn náu: 11
    1.2.2. Logic Bomb 15
    1.2.3. Trojan Horse: 15
    1.2.4. Back Door .16
    1.2.5. Sâu máy tính (Worm): 17
    1.3. Các kỹ thuật phát hiện mã độc .18
    1.3.1. Các kỹ thuật phát hiện dựa trên phân tích tĩnh .18
    1.3.1.1. Kỹ thuật dò quét (scanner): .18
    1.3.1.2. Kỹ thuật Static Heuristics 19
    1.3.1.3. Kỹ thuật kiểm tra sự toàn vẹn (Integrity Checkers) 20
    1.3.2. Các kỹ thuật phát hiện dựa trên phân tích động .21
    1.3.2.1. Kỹ thuật Behavior Monitors/Blockers 21
    1.3.2.2. Kỹ thuật Emulation .22
    CHƯƠNG 2 MỘT SỐ THUẬT TOÁN PHÂN LỚP DỮ LIỆU ĐIỂN HÌNH TRONG
    KỸ THUẬT HỌC MÁY GIÁM SÁT .24
    2.1. Thuật toán cây quyết định 24
    2.1.1. Giới thiệu thuật toán .24
    2.1.2. Xây dựng cây quyết định dựa trên thuật toán ID3 .24
    2.1.3. Ví dụ minh họa: 27
    2.1.4. Nhận xét: .30
    2.2. Thuật toán SVM .31
    2.2.1. Giới thiệu thuật toán .31
    2.2.2. Bài toán tìm siêu phẳng tối ưu cho dữ liệu tuyến tính và không có nhiễu: 32
    2.2.3. Bài toán tìm siêu phẳng tối ưu cho dữ liệu tuyến tính và có xảy ra nhiễu: 33
    2.2.4. Bài toán tìm siêu phẳng tối ưu cho dữ liệu không tuyến tính: .34
    2.2.5. Hàm nhân (Kernel) .35
    CHƯƠNG 3 GIẢI PHÁP ỨNG DỤNG KỸ THUẬT HỌC MÁY VÀO PHÁT HIỆN
    MÃ ĐỘC .37
    3.1. Tổng quan về phương pháp thực hiện 37
    3.2. Tiền xử lý dữ liệu .39
    3.2.1. Sử dụng các kỹ thuật phân tích mã độc 39
    3.2.2. Phương pháp n-gram 40
    iv
    3.2.3. Tính tần số xuất hiện ( Term Frequency ) 40
    3.3. Đề xuất giải pháp chọn đặc trưng cho thuật toán phân lớp 41
    3.3.1. Mô tả giải pháp .41
    3.3.2. Ví dụ: 43
    3.4. Xây dựng mô hình dự đoán dựa trên các thuật toán phân lớp .46
    CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 48
    4.1. Dữ liệu thực nghiệm .48
    4.2. Chương trình thực nghiệm .48
    4.3. Đánh giá dựa trên phương pháp ma trận nhầm lẫn 52
    4.4. Kết quả thực nghiệm 53
    KẾT LUẬN .55
    DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN
    VĂN .56
    TÀI LIỆU THAM KHẢO .57
     
Đang tải...