Thạc Sĩ [TS] Tiếp cận Máy học và Hệ chuyên gia để nhận dạng, phát hiện virus máy tính

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    1.1. Giới thiệu đề tài

    1.1.1. Lý do chọn đề tài

    Ngày nay công nghệ thông tin trở thành một lĩnh vực mũi nhọn trong công cuộc phát triển kinh tế xã hội. Cùng với công nghệ sinh học và năng lượng mới, công nghệ thông tin (CNTT) vừa là công cụ, vừa là động lực thúc đẩy quá trình công nghiệp hóa, hiện đại hóa đất nước. Trong giai đoạn hội nhập quốc tế, CNTT giữ vai trò đặc biệt quan trọng trong việc xử lý tính toán dữ liệu, kết nối thông tin liên lạc của các đơn vị tổ chức trong và ngoài nước. Bảo vệ an toàn dữ liệu cho các hệ thống tính toán, giữ vững an ninh mạng, đảm bảo liên lạc thông suốt, duy trì chất lượng phục vụ luôn là vấn đề quan tâm hàng đầu của các nhà quản trị hệ thống.

    Sự phát triển của Internet tạo điều kiện cho các loại hình xâm nhập luận lý trái phép vào các hệ thống CNTT cả chiều rộng (lây lan trên quy mô toàn thế giới) và chiều sâu (can thiệp vào hạt nhân hệ thống đích). Mỗi ngày các hệ thống mạng phải đối phó với hàng loạt đợt tấn công bằng mã độc (malicious, harmful code) của tin tặc, khiến nhiều hệ thống bị đình trệ, tắc nghẽn và tê liệt; gây thiệt hại không nhỏ. Dự án nghiên cứu về sự phát triển toàn cầu của Viện Hàn lâm Công nghệ Quốc gia Mỹ (National Academy of Engineering, USA - 2008) nhận định vấn đề an ninh thông tin và virus máy tính là một trong 14 thách thức công nghệ lớn nhất của thế kỷ 21 mà nếu giải quyết được, cuộc sống con người sẽ được cải thiện đáng kể [92].

    Virus máy tính (từ đây gọi tắt là virus, phân biệt với từ “virút” trong y học) thực sự trở thành mối đe dọa thường xuyên và cấp bách của các hệ thống CNTT hiện nay.

    Trong bối cảnh đó, đề tài “Tiếp cận Máy học và Hệ chuyên gia để nhận dạng, phát hiện virus máy tính” được tiến hành nhằm góp phần giải quyết vấn đề bảo vệ an toàn dữ liệu cho các hệ thống CNTT ở Việt Nam.

    1.1.2. Mục tiêu của đề tài

    Để phòng chống virus máy tính, các hệ thống CNTT sử dụng các phần mềm chống virus (anti-virus, gọi tắt là AV). Qua khảo sát, phần lớn các AV chỉ phát huy tác dụng trên các mẫu virus xác định, khả năng dự đoán virus mới còn hạn chế nên thường bị động khi có dịch virus bùng phát.

    Trên cơ sở xác định loại hình nghiên cứu của đề tài là nghiên cứu ứng dụng, mục tiêu của đề tài là tìm giải pháp cho bài toán nhận dạng virus máy tính và lựa chọn mô hình thích hợp để xây dựng Hệ Phòng chống virus máy tính hướng tiếp cận Máy học và Hệ chuyên gia MAVES - Machine Learning Approach to Anti-Virus Expert System (gọi tắt là MAV) với các chỉ tiêu cơ bản:

    - Nhận dạng nhanh, phát hiện chính xác các trường hợp lây nhiễm, tiềm ẩn của các virus đã biết trên hệ thống đích.

    - Có khả năng dự báo biến thể virus; ngăn chận kịp thời, chủ động phòng tránh các tình huống lây nhiễm khi hệ thống chưa cập nhật mẫu virus mới.


    MỤC LỤC

    DANH MỤC BẢNG BIỂU vi

    DANH MỤC HÌNH ẢNH vii

    KÝ HIỆU VÀ VIẾT TẮT ix

    CHƯƠNG 1 - MỞ ĐẦU 1

    1.1. Giới thiệu đề tài 1

    1.1.1. Lý do chọn đề tài 1

    1.1.2. Mục tiêu của đề tài 2

    1.1.3. Các giai đoạn thực hiện đề tài 2

    1.2. Đối tượng, phạm vi nghiên cứu của đề tài 3

    1.2.1. Virus máy tính và các hệ thống đích 3

    1.2.2. Các hệ học và khám phá tri thức 3

    1.2.3. Các hệ chuyên gia 4

    1.3. Ý nghĩa khoa học và thực tiễn của đề tài 4

    1.4. Cấu trúc của luận án 5

    CHƯƠNG 2 – CÁC CƠ CHẾ CHẨN ĐOÁN VIRUS MÁY TÍNH VÀ MỘT

    SỐ VẤN ĐỀ LIÊN QUAN 7

    2.1. Khảo sát virus máy tính 7

    2.2. Các cơ chế chẩn đoán virus máy tính 9

    2.2.1. Phát hiện virus dựa vào chuỗi nhận dạng 11

    2.2.2. Phát hiện virus dựa vào hành vi 11

    2.2.3. Phát hiện virus dựa vào ý định 12

    2.3. Các hệ phòng chống virus máy tính 12

    2.3.1. Các sản phẩm trong nước 12

    2.3.2. Các sản phẩm nước ngoài 13

    2.4. Tình hình nghiên cứu virus máy tính 13

    2.4.1. Tình hình nghiên cứu, ứng dụng trong nước 14

    2.4.2. Tình hình nghiên cứu, ứng dụng ở nước ngoài 15

    2.4.3. Các vấn đề mở của công nghệ anti-virus 15

    2.5. Hướng giải quyết của đề tài 16

    2.5.1. Các luận điểm của đề tài 17

    2.5.2. Giải pháp của đề tài 18

    2.6. Các hệ cơ sở tri thức 19

    2.6.1. Các Hệ chuyên gia 19

    2.6.1.1. Cơ sở tri thức 20

    2.6.1.2. Động cơ suy diễn 20

    2.6.2. Các hệ Khám phá tri thức từ cơ sở dữ liệu 20

    2.6.2.1. Giới thiệu 20

    2.6.2.2. Tiến trình khám phá tri thức 21

    2.6.3. Các Hệ học 22

    2.6.3.1. Học giám sát 23

    2.6.3.2. Học không giám sát 23

    2.6.3.3. Các hình thức học 24

    2.6.4. Các nghiên cứu máy học nhận dạng virus máy tính 25

    2.6.5. Các nghiên cứu hệ chuyên gia nhận dạng virus máy tính 27

    2.7. Tổng kết chương 29

    CHƯƠNG 3 – CƠ CHẾ MÁY HỌC CHẨN ĐOÁN VIRUS MÁY TÍNH 30

    3.1. Phân hoạch bài toán chẩn đoán virus máy tính 30

    3.2. Các độ đo chất lượng chẩn đoán 31

    3.3. Cơ chế máy học chẩn đoán virus máy tính 31

    3.3.1. Bài toán 1: Chẩn đoán lớp virus C-class 31

    3.3.1.1. Phát biểu bài toán 31

    3.3.1.2. Tổ chức cơ sở dữ liệu và trích chọn đặc trưng 32

    3.3.1.3. Thuật toán chẩn đoán lớp C-class 32

    3.3.1.4. Phân tích, đánh giá thuật toán chẩn đoán lớp C-class 33

    3.3.2. Bài toán 2: Chẩn đoán lớp virus D-class 34

    3.3.2.1. Phát biểu bài toán 34

    3.3.2.2. Tổ chức cơ sở dữ liệu 35

    3.3.2.3. Tổ chức không gian tìm kiếm 36

    3.3.2.4. Trích chọn đặc trưng 37

    3.3.2.5. Luật nhận dạng virus lớp D-class 37

    3.3.2.6. Thực nghiệm bài toán chẩn đoán lớp D-class 38

    3.3.3. Bài toán 3: Chẩn đoán lớp virus B-class 39

    3.3.3.1. Phát biểu bài toán 39

    3.3.3.2. Tạo lập cơ sở tri thức 40

    3.3.3.3. Tổ chức cơ sở dữ liệu 41

    3.3.3.4. Trích chọn đặc trưng 41

    3.3.3.5. Xây dựng không gian trạng thái 42

    3.3.3.6. Cơ chế phân tích 43

    3.3.3.7. Đánh giá độ phức tạp và kết quả thực nghiệm 44

    3.3.4. Bài toán 4: Chẩn đoán lớp virus E-class 45

    3.3.4.1. Phát biểu bài toán 45

    3.3.4.2. Tổ chức cơ sở dữ liệu virus, trích chọn đặc trưng 45

    3.3.4.3. Xây dựng cơ sở tri thức 46

    3.3.4.4. Tổ chức cơ sở dữ liệu thông tin hệ thống 46

    3.3.4.5. Thiết kế động cơ suy diễn 47

    3.3.4.6. Giải thích thuật toán SID 47

    3.3.4.7. Các tác tử hoạt động 49

    3.3.4.8. Kết quả thực nghiệm 50

    3.3.4.9. Đánh giá phương pháp chẩn đoán lớp virus E-class 51

    3.3.5. Bài toán 5: Chẩn đoán lớp virus A-class 52

    3.3.5.1. Lược sử vấn đề nhận dạng mã độc 52

    3.3.5.2. Phát biểu bài toán 54

    3.3.5.3. Tổ chức cơ sở dữ liệu virus 54

    3.3.5.4. Biểu diễn dữ liệu virus bằng mô hình không gian vectơ 55

    3.3.5.5. Rút trích đặc trưng 55

    3.3.5.6. Ước lượng tỷ lệ mã độc 56

    3.3.5.7. Ví dụ minh họa bài toán A-class 57

    3.3.5.8. Kết quả thực nghiệm 59

    3.3.5.9. Bàn luận về phương pháp chẩn đoán lớp A-class 59

    3.4. Tổng kết chương 60

    CHƯƠNG 4 – THIẾT KẾ XÂY DỰNG HỆ THỐNG VÀ THỰC NGHIỆM .62

    4.1. Mô hình tổng quát của hệ 62

    4.2. Tổ chức cơ sở tri thức 62

    4.2.1. Mô tả đối tượng 62

    4.2.2. Luật nhận dạng virus 64

    4.3. Giai đoạn Học dữ liệu 65

    4.3.1. Trích chọn dữ liệu 65

    4.3.2. Phân cụm dữ liệu 65

    4.3.2.1. Tổ chức cấu trúc dữ liệu 66

    4.3.2.2. Thuật toán ACV gom cụm trên V-Tree 67

    4.3.2.3. Đánh giá thuật toán ACV 71

    4.3.3. Rút luật phân bố trị thuộc tính 73

    4.3.3.1. Rút luật phân cụm trên V-Tree 73

    4.3.3.2. Rút luật phân cụm trên ma trận dữ liệu 74

    4.4. Giai đoạn Xử lý dữ liệu 76

    4.4.1. Phân loại dữ liệu chẩn đoán 79

    4.4.1.1. Phân loại đối tượng 79

    4.4.1.2. So khớp luật phân nhóm 82

    4.4.2. Chẩn đoán virus bằng kỹ thuật hợp nhất dữ liệu 83

    4.4.2.1. Tinh chế dữ liệu trong tiến trình khám phá tri thức 83

    4.4.2.2. Tinh chế dữ liệu NULL bằng kỹ thuật hợp nhất dữ liệu 83

    4.4.2.3. Virus lạ và dữ liệu NULL 84

    4.4.2.4. Dự báo virus lạ bằng kỹ thuật hợp nhất dữ liệu 86

    4.4.2.5. Kết quả thực nghiệm 88

    4.4.2.6. Bàn luận về kỹ thuật DF2RV 90

    4.5. Kết quả thực nghiệm 90

    4.5.1. Đánh giá hiệu quả nhận dạng virus của MAV 91

    4.5.2. Đánh giá tốc độ thực thi của MAV 92

    4.6. Tổng kết chương 94

    CHƯƠNG 5 - KẾT LUẬN 95

    5.1. Những đóng góp mới của đề tài 96

    5.2. Hạn chế của đề tài, cách khắc phục 97

    5.3. Hướng phát triển tương lai 98

    5.4. Đề nghị về các nghiên cứu tiếp theo 99

    CÔNG TRÌNH ĐÃ CÔNG BỐ 100

    TÀI LIỆU THAM KHẢO 102

    PHỤ LỤC 1 – KHẢO SÁT VIRUS MÁY TÍNH 108

    PHỤ LỤC 2 – CÁC ĐỊNH DẠNG DỮ LIỆU NHIỄM VIRUS 117

    PHỤ LỤC 3 – CÁC TÁC TỬ HOẠT ĐỘNG VÀ THUẬT TOÁN SID 128

    PHỤ LỤC 4 - PHÂN TÍCH HỆ THỐNG PHẦN MỀM MAV 133

    PHỤ LỤC 5 - PHÂN HỆ MÁY CHỦ MAVSR 137

    PHỤ LỤC 6 - PHÂN HỆ MÁY TRẠM MAVCL 148
     
Đang tải...