Thạc Sĩ Xây dựng hệ thống truy vấn ảnh dựa vào văn bản ngoại cảnh

Thảo luận trong 'Khoa Học Công Nghệ' bắt đầu bởi Bích Tuyền Dương, 21/12/12.

  1. Bích Tuyền Dương

    Bài viết:
    2,590
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    Mở đầu


    Trong bối cảnh lượng dữ liệu ảnh ngày càng tăng và không ngừng phát triển như hiện nay, con người đang tốn nhiều công sức để quản lý và vẫn đang tìm kiếm phương pháp để khai thác và truy vấn dạng dữ liệu này một cách hiệu quả. Phương pháp chú thích ảnh thủ công không thể đáp ứng được vì tốn nhiều thời gian, đồng thời không thể mô tả hết các thông tin ẩn chứa trong ảnh. Thông tin được lưu trữ trên ảnh bao gồm phần nội dung thị giác và phần nội dung ngữ nghĩa. Phần nội dung thị giác bao gồm các thuộc tính như màu sắc, cường độ, hình dáng, vân. Phần nội dung ngữ nghĩa bao gồm các đối tượng, sự kiện và mối quan hệ giữa chúng. Việc khai thác phần nội dung ngữ nghĩa đến nay vẫn còn là một vấn đề thách thức. Văn bản trong ảnh là một trong những đối tượng mang đến thông tin ngữ nghĩa quan trọng giúp chúng ta hiểu được nội dung ảnh. Việc khai thác được nội dung văn bản trong ảnh có thể mang lại những lợi ích và các ứng dụng phong phú, bao gồm:
     Cung cấp các thông tin về ngữ nghĩa bổ sung hữu ích cho việc lập chỉ mục hay truy vấn ảnh.
     Áp dụng vào các hệ thống truy vấn ảnh theo nội dung mong muốn từ những từ khóa được rút trích từ văn bản trong ảnh.
     Sàng lọc, phân loại ảnh, hoặc ngăn chặn được các ảnh có nội dung xấu.
     Nội dung văn bản trong ảnh có thể được dịch sang nhiều ngôn ngữ khác giúp người dùng hiểu được nội dung ảnh đa ngôn ngữ.
     Áp dụng vào các hệ thống phát hiện các biển chỉ dẫn, bằng lái xe, các thiết bị hỗ trợ người dùng khiếm thị, hệ thống giao tiếp người máy, hệ thống giao thông thông minh,
    Một cách tổng quát, văn bản trong ảnh được chia thành hai loại: văn bản ngoại cảnh (scene text) và văn bản nhân tạo (artificial text). Văn bản nhân tạo là loại văn bản do con người tạo ra với mục đích giải thích, bổ sung, nhấn mạnh hoặc chú thích cho nội dung và ý nghĩa của ảnh. Chúng thường xuất hiện trong các bản tin, phụ đề phim, tỉ số của các trận đấu (Hình 0.1) . Loại văn bản này thường được thể hiện
    2
    một cách có tổ chức. Về màu sắc, hình dáng, kích thước, phương hướng thường có xu hướng thống nhất và văn bản không bị biến dạng. Ngược lại với văn bản nhân tạo, văn bản ngoại cảnh (hay còn gọi là văn bản tự nhiên) là văn bản tồn tại một cách tự nhiên trong ảnh. Nó xuất hiện trong ảnh chụp các bảng quảng cáo, áp phích, tên đường, tên cửa hàng, bảng hiệu, nhãn hiệu của các sản phẩm, trong ảnh (Hình 0.2) . Văn bản ngoại cảnh có cách thể hiện không giới hạn, chúng có thể xuất hiện với bất cứ hình dáng, màu sắc, kích thước, độ nghiêng nào, trong điều kiện ánh sáng bất kỳ, với các bề mặt phẳng hay lượn sóng, Do đó, nhiều nhà nghiên cứu nhận thấy văn bản ngoại cảnh khó phát hiện hơn văn bản nhân tạo. Mặc dù đã có nhiều kết quả đạt được trong lĩnh vực này, nhưng một số khó khăn vẫn còn tồn tại.
    Hình 0.1 Minh họa văn bản nhân tạo trong ảnh
    Hình 0.2 Minh họa văn bản ngoại cảnh trong ảnh
    Các hệ thống truy vấn ảnh hiện có chủ yếu vẫn dựa vào các đặc trưng thị giác và chưa khai thác nhiều phần nội dung ngữ nghĩa trong ảnh. Đặc biệt, chưa có hệ
    3
    thống truy vấn ảnh nào khai thác đối tượng văn bản trong ảnh. Trong bối cảnh như trên, luận văn này tập trung trình bày hai vấn đề chính:
     Xây dựng mô hình phát hiện và rút trích văn bản ngoại cảnh trong ảnh.
     Xây dựng mô hình truy vấn ảnh dựa vào văn bản ngoại cảnh.
    Trong mô hình phát hiện và rút trích văn bản ngoại cảnh trong ảnh, chúng tôi xây dựng mô hình nhằm giải quyết các vấn đề về sự thay đổi kích thước, kiểu chữ, màu sắc, của văn bản ngoại cảnh, cũng như sự phức tạp của vùng nền xung quanh. Đối với mô hình phát hiện văn bản, chúng tôi sử dụng phép reconstruction để loại bỏ phần lớn các đối tượng thuộc vùng nền. Các toán tử hình thái học cũng được sử dụng để phát sinh các vùng văn bản ứng viên và các ký tự ứng viên được tạo thành từ một đặc trưng đủ mạnh. Cuối cùng, chúng tôi dùng bộ phân lớp dựa vào Support Vector Machines (SVM) được huấn luyện bằng đặc trưng Histogram of Oriented Gradient (HOG) để phân loại các từ ứng viên đã phát sinh. Một phương pháp nhị phân hóa vùng ảnh chứa văn bản được áp dụng để rút trích các ký tự từ ảnh nhằm giúp quá trình nhận dạng đạt kết quả tốt hơn.
    Trong mô hình truy vấn ảnh dựa vào văn bản ngoại cảnh, chúng tôi tiến hành rút trích và nhận dạng các vùng văn bản trong ảnh từ tập dữ liệu ảnh. Sau đó, các chuỗi ký tự nhận dạng được sẽ được gom thành các nhóm khác nhau với phần tử đại diện cho nhóm. Từ tập dữ liệu ảnh ban đầu, ta thu được các nhóm chuỗi ký tự với phần tử đại diện. Các nhóm chuỗi ký tự và phần tử đại diện được sử dụng để so khớp trong giai đoạn truy vấn.
    Tóm lại, với những thông tin ngữ nghĩa hữu ích được cung cấp từ văn bản trong ảnh, chúng tôi mong muốn xây dựng mô hình rút trích được đối tượng quan trọng này từ các ảnh. Từ đó, áp dụng vào bài toán truy vấn ảnh dựa vào văn bản ngoại cảnh với hy vọng có thể kết hợp với các hệ thống truy vấn thông tin thị giác hiện có để tạo thành một mô hình truy vấn thực sự hiệu quả và hữu dụng.

    MỤC LỤC

    LỜI CẢM ƠN i
    MỤC LỤC . ii
    DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT iv
    DANH MỤC CÁC BẢNG v
    DANH MỤC CÁC HÌNH VẼ . vi
    Mở đầu . 1
    Chương 1 Tổng quan 4

    1.1 Động lực nghiên cứu . 4
    1.2 Phát biểu bài toán 5
    1.3 Các đóng góp của luận văn 6
    1.4 Tổ chức luận văn . 6
    Chương 2 Tình hình nghiên cứu và hướng tiếp cận của luận văn 7
    2.1 Những khó khăn trong bài toán phát hiện văn bản ngoại cảnh trong ảnh . 7
    2.1.1 Văn bản trong ảnh có sự thay đổi về màu sắc, kiểu chữ, kích thước, hướng, vị trí, điều kiện chiếu sáng . 7
    2.1.2 Văn bản được nhúng trên nền phức tạp 8
    2.1.3 Ảnh có độ tương phản thấp . 9
    2.2 Tình hình nghiên cứu trong lĩnh vực phát hiện văn bản trong ảnh . 10
    2.3 Các phương pháp rút trích văn bản 13
    2.4 Tình hình nghiên cứu trong lĩnh vực truy vấn ảnh 14
    2.5 Hướng tiếp cận 15
    Chương 3 Mô hình phát hiện và rút trích văn bản ngoại cảnh trong ảnh . 17
    3.1 Sơ đồ chung . 17
    3.2 Tiền xử lý . 18
    3.3 Phát sinh vùng văn bản ứng viên . 22
    3.3.1 Phát sinh các ký tự ứng viên bằng SWT . 23
    3.4 Gom nhóm các thành phần liên kết . 27
    3.4.1 Nhóm các ký tự thành dòng văn bản 27
    iii
    3.4.2 Tách dòng văn bản thành các từ . 29
    3.5 Tinh lọc các từ ứng viên bằng bộ phân lớp SVM 30
    3.5.1 Đặc trưng HOG . 30
    3.5.2 Bộ phân lớp SVM . 32
    3.5.3 Huấn luyện và phân lớp từ bằng bộ phân lớp SVM . 34
    3.6 Rút trích văn bản 36
    3.7 Hiệu chỉnh kết quả nhận dạng ký tự bằng phần mềm OCR 38
    Chương 4 Mô hình truy vấn ảnh dựa vào văn bản ngoại cảnh 44
    4.1 Mô hình tổ chức dữ liệu . 44
    4.1.1 Phát hiện, rút trích và nhận dạng văn bản . 45
    4.1.2 Gom nhóm văn bản . 45
    4.1.3 Trích chọn phần tử đại diện nhóm văn bản 47
    4.2 Mô hình truy vấn ảnh dựa vào văn bản ngoại cảnh . 48
    Chương 5 Kết quả thực nghiệm . 52
    5.1 Kết quả phát hiện và rút trích văn bản . 52
    5.1.1 Tập dữ liệu thử nghiệm và phương pháp đánh giá . 52
    5.1.2 Kết quả thực nghiệm . 53
    5.2 Đánh giá hiệu quả phương pháp hiệu chỉnh kết quả nhận dạng bằng phần mềm OCR 57
    5.3 Kết quả truy vấn ảnh 59
    5.3.1 Kết quả truy vấn ảnh bằng từ khóa . 59
    5.3.2 Kết quả truy vấn ảnh bằng ảnh chứa văn bản tự nhiên . 61
    Chương 6 Kết luận và hướng phát triển . 65
    6.1 Kết luận 65
    6.2 Hướng phát triển 66
    Tài liệu tham khảo
     

    Các file đính kèm:

Đang tải...