Thạc Sĩ Theo dõi đối tượng dựa trên giải thuật di truyền và tối ưu hoá bầy đàn

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Quy Ẩn Giang Hồ, 21/6/17.

  1. Quy Ẩn Giang Hồ

    Quy Ẩn Giang Hồ Administrator
    Thành viên BQT

    Bài viết:
    3,084
    Được thích:
    23
    Điểm thành tích:
    38
    Xu:
    0Xu
    ĐẶT VẤN ĐỀ

    Trong thập niên đầu của thế kỷ 21, học máy được nghiên cứu và phát triển mạnh mẽ, đánh dấu bước ngoặt quan trọng thay đổi nền tảng nghiên cứu của Trí tuệ nhân tạo. Học máy liên quan đến việc xây dựng các chương trình máy tính có thể tự động thu thập tri thức, cải thiện khả năng của mình thông qua các kinh nghiệm, và việc nghiên cứu các nguyên lý của quá trình học [1]. Các kết quả và công nghệ của học máy được thể hiện qua các ứng dụng đa dạng trong thực tế trong các lĩnh vực như: xử lý ngôn ngữ tự nhiên, thị giác máy tính, tìm kiếm và nhận dạng, robotics, khai phá dữ liệu, v.v.

    Thị giác máy tính, một lĩnh vực nghiên cứu liên ngành, liên quan đến việc nghiên cứu các lĩnh vực khoa học và công nghệ về các hệ thống máy móc có khả năng nhìn và hiểu như hệ thống thị giác con người [2]. Đây là một lĩnh vực được quan tâm nghiên cứu rộng rãi trong một vài thập niên gần đây bởi những ứng dụng thực tế đa dạng của nó. Một số ứng dụng có thể kể đến là: tự động hóa trong dây chuyền sản xuất công nghiệp, viễn thám, giám sát giao thông, bảo mật bằng sinh trắc học, y học, an ninh, web 3D, giải trí, v.v.
    Vấn đề phát hiện, nhận dạng, phân tách và hiểu ngữ nghĩa của đối tượng trong ảnh/video đã được nghiên cứu rộng rãi trong trong lĩnh vực thị giác máy tính hàng thập kỷ qua [2]. Các nghiên cứu được nhanh chóng phát triển nhờ những tiến bộ trong một số lĩnh vực liên quan như: việc phát triển các mô hình toán học phức tạp, các nghiên cứu chuyên sâu về nhận thức tri giác (cognitive vision), năng lực của các hệ thống tính toán, các giải thuật thông minh, cũng như đòi hỏi của kiểm thử trên các bộ dữ liệu lớn.

    Tuy nhiên vấn đề này vẫn còn khá mới mẻ ở Việt Nam bởi thiếu các thiết bị hỗ trợ và nghiên cứu làm chủ công nghệ. Và đây cũng là một hướng phát triển mở nhiều hứa hẹn và đồng thời cũng nhiều thách thức. Hiện nay ở Việt Nam các hệ thống theo dõi – giám sát hầu hết là không tự động, chủ yếu vẫn dựa vào con người. Tuy nhiên trong tương lai không xa, khi kinh tế và khoa học kỹ thuật phát triển thì các hệ thống giám sát này cũng sẽ phát triển theo. Với mong muốn tham gia vào hướng nghiên cứu còn mới này và giúp các hệ thống giám sát đạt hiệu quả cao hơn và giảm được chi phí con người chúng tôi thực hiện đề tài “Theo dõi đối tượng dựa trên giải thuật di truyền và tối ưu hoá bầy đàn”.

    Vấn đề phát hiện đối tượng đang được nghiên cứu và có nhiều ứng dụng trong cuộc sống. Các đối tượng được phát hiện nhờ những thông tin trong một khung hình ảnh. Có rất nhiều hướng tiếp cận để giải quyết vấn đề trên. Các tác giả Alper Yilmaz, Omar Javed và Mubarak Shah đã phân loại các hướng tiếp cận này được trình bày trong [3]. Có thể phân loại các giải thuật phát hiện đối tượng thành các hướng tiếp cận như: phát hiện điểm quan trọng (interest point detector) [4] [5], phân đoạn ảnh (segmentation) [6] [7] [8], mô hình nền (background modeling) [9] [10] [11] và phân loại có giám sát (supervised classifier) [12] [13]. Việc lựa chọn phương pháp áp dụng phải dựa vào tình huống cụ thể, đối với trường hợp có ảnh nền không thay đổi việc phát hiện đối tượng chuyển động có thể bằng các phương pháp trừ nền. Các giải thuật này sẽ được trình bày sau đây. Hướng giải quyết là xây dựng mô hình nền, sau đó sử dụng mô hình này cùng với khung hình hiện tại để rút ra được các vật thể chuyển động. Để có thể tiếp cận cần phải xây dựng được mô hình nền. Có nhiều phương pháp được xây dựng dựa trên mô hình nền bởi các tác giả. Anurag Mittal [12] dùng mô hình ước lượng mật độ nhân thích ứng (Adaptive Kernel Density Estimation) cho kết quả tốt tuy nhiên khó khăn về không gian lưu trữ, tính toán phức tạp, tốc độ không đáp ứng thời gian thực. Stauffer sử dụng mô hình trộn Gaussian (Mixture of Gaussian) [14] để xây dựng mô hình nền, nhằm phát hiện được các đối tượng chuyển động, xác định xem những đối tượng này có đúng là những đối tượng ta cần phát hiện hay không. Đây là các khó khăn cần khắc phục. Trong các lĩnh vực về phát hiện phần đầu của người thì Wei Qu, Nidhal Bouaynaya và Dan Schonfeld [15] đề ra hướng tiếp cận bằng cách kết hợp mô hình màu da cùng với mô hình màu tóc (skin and hair color model). Những màu này được phát hiện dựa vào mô hình Gauss. Sau đó bằng cách áp dụng phương pháp so khớp mẫu (template matching) để đạt được mục đích phát hiện phần đầu người đáp ứng thời gian thực. Khó khăn trong hướng tiếp cận này thường gặp ở việc thu thập dữ liệu huấn luyện màu da và màu tóc, độ chính xác dể bị ảnh hưởng bởi độ sáng của môi trường.

    Việc phát hiện đối tượng có thể được thực hiện bằng các phương pháp học máy. Các phương pháp này có thể kể đến như: mạng nơ-ron (Neural Network), cây quyết định (Decision Tree), máy hỗ trợ vectơ (Support Vector Machine - SVM). Điểm chung của các phương pháp này đều phải trải qua giai đoạn huấn luyện trên một tập dữ liệu. Tập dữ liệu này phải đủ lớn, bao quát hết được các trạng thái của đối tượng. Sau đó các đặc trưng sẽ được rút trích ra trên bộ dữ liệu huấn luyện này. Việc lựa chọn đặc trưng sử dụng đóng vai trò quan trọng ảnh hưởng đến hiệu quả của các phương pháp học máy. Một số đặc trưng thường được sử dụng như: đặc trưng về màu sắc, đặc trưng về góc cạnh, đặc trưng histogram, v.v. Sau khi đã có được đặc trưng, ta sẽ đánh nhãn lớp cụ thể cho các đặc trưng đó để sử dụng trong việc huấn luyện. Trong quá trình huấn luyện, các phương pháp học máy sẽ sinh ra một hàm để ánh xạ những đặc trưng đầu vào tương ứng với nhãn lớp cụ thể. Sau khi đã huấn luyện xong thì các phương pháp học máy trên sẽ được dùng để phân lớp cho những đặc trưng mới. Đặc điểm của phương pháp này là độ chính xác cao. Tuy nhiên nó gặp phải khó khăn trong việc thu thập dữ liệu huấn luyện ban đầu, tốn thời gian và chi phí cho quá trình học máy. Luận văn này nhằm mục đích nghiên cứu, xây dựng giải thuật theo dõi tựđộng các đối tượng có trong video. Giải thuật theo dõi cần có độ chính xác tốt, đồng thời chi phí tính toán thấp phục vụ các ứng dụng thời gianthực. Do đó, luận văn tập trung đi sâu vào việc khảo sát các đặc trưng của video, đặc trưng ảnh, đặc trưng của đối tượng chuyển động, đặc trưng nền, v.v. từ đó áp dụng các thuật toán phù hợp, kết hợp với các thuật toán học máy phù hợp để đưa ra kết quả tối ưu, rút ngắn thời gian tính toán và chi phí bộ nhớ, để từ đó hệ thống phù hợp với thời gian thực hơn. Đầu vào của bài toán theo dõi đối tượng là các khung hình video. Qua quá trình xử lý phát hiện đối tượng chuyển động (Object Detection ) sẽ đưa ra các đối tượng trong khung hình. Khối phát hiện đối tượng chuyển động có thể coi là quyết định độ chính xác của hệ thống giám sát thông minh bằng hình ảnh, vì hiệu quả, tính chính xác của khối xử lý này sẽ ảnh hưởng đến đầu vào và đầu ra của khối xử lý tiếp theo. Luận văn này sẽ đưa và các kỹ thuật tối ưu hiệu quả như giải thuật di truyền và tối ưu bày đàn để tăng độ chính xác và hiệu quả của bước phát hiện đối tượng. Và cuối cùng là quá trình xử lý để theo dõi đối tượng (Object Tracking) đó là việc tìm rađường chuyển động của đối tượng, dự đoán chuyển động, xử lý nhập nhằng trong chuyển động.

    Hiện nay, trên thế giới các hệ thống theo dõi - giám sát thông minh bằnghình ảnh đã được phát triển và đã chứng minh được hiệu quả nhất định trên một số lĩnh vực như giám sát hoạt động con người, giám sát giao thông, v.v. Từ các hình ảnh thu được từ những nơi được quan sát, ta có thể phát hiện được chuyển động của các đối tượng trong các khung hình, xác định được đối tượng đó là người, phương tiện hay vật thể gì. Nhiều hệ thống đã được nghiên cứu và phát triển. Chẳng hạn, với bài toán giám sát giao thông có thể cho chúng ta biết được số lượng phương tiện lưu thông qua đoạn đường được theo dõi, đưa ra thông tin về tốc độ chuyển động, đường đi của đối tượng được theo dõi v.v. Tuy nhiên, các hệ thống vẫn gặp phải một số tồn tại như hiệu quả của việc quan sát luôn phụ thuộc vàođiệu kiện môi trường quan sát, kiểu chuyển động của đối tượng hay các lý do khách quan khác. Vì vậy, với khả năng cá nhân, tôi mong muốn làm chủ các công nghệ theo dõi đối tượng, từ đó xây dựng các ứng dụng phù hợp với môi trường Việt Nam, phục vụ an ninh - quốc phòng, đem lại các lợi ích về kinh tế cho đất nước.

    Luận văn này được cấu trúc các phần như sau. Chương 2 tiếp theo là mộtđịnh nghĩa cơ bản được sử dụng trong luận văn, bao gồm: lý thuyết trích xuất đặc trưng, giải thuật phân hoạch mờ, giải thuật di truyền và giải thuật tối ưu bầy đàn. Chương 3 trình bày cách tiếp cận giải quyết bài toán theo dõi đối tượng của luận văn. Cách tiếp cận này được ứng dụng giải quyết với đối tượng cụ thể là phương tiện giao thông chụp từ ảnh UAV, các kết quả thử nghiệm chỉ ra ở chương 4. Cuối cùng là các kết luận, định hướng mở rộng được đưa ra ở chương 5 và danh sách các tài liệu tham khảo.

    MỤC LỤC
    LỜI CẢM ƠN .ii
    LỜI CAM ĐOAN . iii
    DANH MỤC HÌNH VẼ iv
    DANH MỤC THUẬT NGỮ v
    CHƯƠNG 1: ĐẶT VẤN ĐỀ .1
    CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 6
    2.1. Phân hoạch mờ .6
    2.2. Giải thuật di truyền .9
    2.3. Giải thuật tối ưu bầy đàn 14
    CHƯƠNG 3: ÁP DỤNG GIẢI THUẬT DI TRUYỀN VÀ TỐI ƯU BẦY
    ĐÀN TRONG BÀI TOÁN THEO DÕI ĐỐI TƯỢNG 18
    3.1. Histogram màu .19
    3.2. Phát hiện đối tượng dựa trên giải thuật di truyền và tối ưu bầy đàn 20
    3.3. Theo dõi đối tượng .26
    CHƯƠNG 4: CÀI ĐẶT THỬ NGHIỆM .32
    4.1. Công cụ hỗ trợ 32
    4.2. Dữ liệu thử nghiệm .34
    4.3. Kết quả thử nghiệm 35
    CHƯƠNG 5: KẾT LUẬN .41
    TÀI LIỆU THAM KHẢO 43
     
Đang tải...