Luận Văn Xây dựng phần mềm quản lý công văn dựa trên kĩ thuật OCR

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Quy Ẩn Giang Hồ, 26/9/14.

  1. Quy Ẩn Giang Hồ

    Quy Ẩn Giang Hồ Administrator
    Thành viên BQT

    Bài viết:
    3,084
    Được thích:
    23
    Điểm thành tích:
    38
    Xu:
    0Xu
    TÓM TẮT
    Phân tích bố cục văn bản là một bước rất quan trọng trong hệ thống OCR. Do nhiều yếu tố như kích cỡ chữ, kiểu chữ, khoảng cách giữa các dòng và bố cục của một số văn bản khá phức tạp, cùng với sự xuất hiện của nhiễu và dấu (đặc biệt trong các văn bản tiếng Việt), đã ảnh hưởng rất lớn đến kết quả của quá trình phân tích và nhận dạng.
    Quá trình nhận dạng ảnh văn bản bao gồm nhiều bước: xám hóa ảnh đầu vào, nhị phân ảnh, chỉnh nghiêng văn bản, tách khối, tách dòng, tách từ, tách ký tự và cuối cùng là nhận dạng văn bản. Trong nội dung của đề tài này, chúng tôi sẽ trình bày quá trình nhị phân ảnh, xác định góc nghiêng, tách khối văn bản cho các ảnh công văn tiếng Việt, sau đó tiến hành tách dòng, tách từ, tách ký tự rồi nhận dạng, hơn thế nữa chúng tôi còn xây dựng Ground truth để đánh giá độ chính xác của thuật toán tách khối, và đồng thời chúng tôi cũng xây dựng cách kết xuất ra kết quả dưới dạng file XML và file MS Word. Đối với giai đoạn nhị phân, chúng tôi áp dụng phương pháp Otsu. Đối với giai đoạn xác định góc nghiêng của văn bản, chúng tôi đề xuất một phương pháp mới dựa trên các phép biến đổi Morphology để xác định góc nghiêng văn bản rồi áp dụng phép quay theo block để chỉnh nghiêng cho văn bản đầu vào. Tiếp đó, quá trình tách khối văn bản được thực hiện dựa trên việc phân tích các projection profile theo chiều dọc và chiều ngang. Từ những kết quả thu được sau quá trình tách khối, chúng tôi tiến hành tách dòng bằng cách tô lem những dòng văn bản, sau đó chiếu phổ ngang để tìm ra những đường cắt hợp lý, phân biệt các dòng trong cùng một khối. Trong bước xác định các từ trong mỗi dòng, chúng tôi đề nghị phương pháp mới mà nó dựa vào phương pháp của Otsu để tìm ra ngưỡng phù hợp dùng trong việc tách các từ trên cùng một dòng, và tạo cơ sở cho tách ký tự. Trong giai đoạn tách ký tự, chúng tôi xem như một ký tự sẽ bao gồm cả dấu đi kèm với nó, chúng bước này chúng tôi sẽ xử lý vấn đề tách những ký tự dính với nhau thành những ký tự riêng biệt dựa vào lược đồ hình chiếu theo trục x, sau đó xác định những vị trí nào có mật độ pixel thấp để tiến hành tách ký tự. Sau khi văn bản đã được tách ký tự, chúng tôi xây dựng một mạng Neural nhân tạo hoạt động theo cơ chế back-propagation để tiến hành nhận dạng văn bản. Việc kết xuất kết quả của quá trình phân tích, xây dựng bố cục văn bản và nhận dạng có thể được tiến hành theo hai cách, hoặc kết xuất ra file XML hoặc kết xuất ra file MS Word. Trong lĩnh vực nhận dạng và xử lý ảnh việc kết xuất kết quả ra file XML là một chuẩn được công nhận hiện nay. Tuy nhiên, trong đề tài này, chúng tôi cũng cho phép kết xuất kết quả nhận dạng thành file MS Word, giúp người sử dụng có thể thao tác dễ dàng hơn trong việc chỉnh sửa cũng như tìm kiếm về mặt nội dung. Trong nội dung đề tài này, chúng tôi cũng đã tiến hành xây dựng thuật toán đánh giá độ chính xác của thuật toán tách khối.
    Khi thực hiện đề tài này, chúng tôi đã tiến hành kiểm nghiệm phương pháp chỉnh nghiêng trên cơ sở dữ liệu gồm 1080 ảnh bao gồm 900 ảnh thuộc ngữ hệ Latin và 180 ảnh thuộc các ngôn ngữ khác như Trung Quốc, Thái, Ả rập, và trên cơ sở dữ liệu ảnh UW English I, một cơ sở dữ liệu chuẩn, với độ chính xác là 99% đối với 900 ảnh văn bản Latin, 96.67% đối với cơ sở dữ liệu gồm 1080 ảnh và 96.63% đối với cơ sở dữ liệu UW English I. Đối với thuật toán tách khối văn bản, chúng tôi đã tiến hành xây dựng ground truth và kiểm nghiệm phương pháp tách khối trên cơ sở dữ liệu gồm 100 ảnh thu được từ các công văn gửi đến (đi) của Khoa Công nghệ Thông tin, Đại học Nông Lâm Tp.HCM, và đạt được độ chính xác là 90,54%, hiệu suất tìm được khối đúng là 84, 20%. Đối với việc tách dòng, tách từ cũng như tách ký tự và nhận dạng, chúng tôi chưa thể tiến hành kiểm nghiệm và đưa ra các kết quả thực nghiệm. Nhưng kết quả của các quá trình này là khá tốt, nó có thể đáp ứng được nhu cầu của quá trình xây dựng bố cục văn bản và nhận dạng trong toàn bộ đề tài.

    MỤC LỤC
    Trang
    DANH MỤC CÁC HÌNH VI
    DANH MỤC CÁC BẢNG X
    DANH SÁCH CHỮ VIẾT TẮT XI
    TÓM TẮT XII
    CHƯƠNG 1: GIỚI THIỆU 1
    CHƯƠNG 2: NHỊ PHÂN HÓA 5
    2.1. ĐẶT VẤN ĐỀ 5
    2.2. PHƯƠNG PHÁP OTSU 5
    CHƯƠNG 3: CHỈNH NGHIÊNG ẢNH VĂN BẢN 8
    3.1. SỬ DỤNG CÁC PHÉP BIẾN ĐỔI MORPHOLOGY TRONG ƯỚC LƯỢNG NGHIÊNG VĂN BẢN 8
    3.1.1. ĐẶT VẤN ĐỀ 8
    3.1.2. MỘT SỐ HƯỚNG TIẾP CẬN HIỆN CÓ: 9
    3.1.3. MÔ TẢ PHƯƠNG PHÁP. 16
    3.1.3.1. BƯỚC TIỀN XỬ LÝ 16
    3.1.3.2. ƯỚC LƯỢNG THÔ 17
    3.1.3.3. ÁP DỤNG CÁC PHÉP BIẾN ĐỔI MORPHOLOGY 19
    3.1.3.4. ƯỚC LƯỢNG TINH 25
    3.1.4. KẾT QUẢ THỰC NGHIỆM 28
    3.2. PHƯƠNG PHÁP QUAY ẢNH VĂN BẢN NHỊ PHÂN 33
    3.2.1. ĐẶT VẤN ĐỀ 33
    3.2.2. MÔ TẢ PHƯƠNG PHÁP 34
    3.2.2.1. TẠO VÀ LƯU TRỮ CÁC PMPs 34
    3.2.2.2. CHIA ẢNH THÀNH CÁC BLOCK 35
    3.2.2.3. THỰC HIỆN QUAY ẢNH 36
    3.2.3. KẾT LUẬN 38
    3.3. TỔNG KẾT 38
    CHƯƠNG 4: TÁCH KHỐI VĂN BẢN 40
    4.1. ĐẶT VẤN ĐỀ: 40
    4.2. MỘT SỐ PHƯƠNG PHÁP TÁCH KHỐI HIỆN CÓ 43
    4.3. MÔ TẢ PHƯƠNG PHÁP 45
    4.3.1. TÁCH KHỐI THEO CHIỀU NGANG 45
    4.3.2. TÁCH KHỐI THEO CHIỀU DỌC 51
    4.3.3. TÁCH KHỐI THEO CHIỀU NGANG LẦN 2 51
    4.4. KẾT LUẬN VÀ NHẬN XÉT TỪ KẾT QUẢ THỰC NGHIỆM: 53
    CHƯƠNG 5:TÁCH DÒNG VĂN BẢN 55
    5.1. ĐẶT VẤN ĐỀ 55
    5.2. MÔ TẢ PHƯƠNG PHÁP 55
    5.2.1. DÙNG CÁC PHÉP BIẾN ĐỔI MORPHOLOGY ĐỂ TÔ LEM DÒNG VĂN BẢN 55
    5.2.2. LẤY LƯỢC ĐỒ CHIẾU ĐỐI VỚI MỖI KHỐI VĂN BẢN THEO TRỤC OY 57
    5.2.3. XÁC ĐỊNH DÒNG VĂN BẢN TRONG MỖI KHỐI 59
    5.3. KẾT LUẬN 60
    CHƯƠNG 6: TÁCH TỪ VĂN BẢN 62
    6.1. ĐẶT VẤN ĐỀ 62
    6.2. MỘT SỐ HƯỚNG TIẾP CẬN KHÁC 62
    6.3. MÔ TẢ PHƯƠNG PHÁP 63
    6.3.1. NỐI DẤU VÀ KÝ TỰ 63
    6.3.2. NỐI KÝ TỰ TRONG TỪ 65
    6.4. TỔNG KẾT 67
    CHƯƠNG 7: TÁCH KÍ TỰ 68
    7.1. ĐẶT VẤN ĐỀ 68
    7.2. MÔ TẢ PHƯƠNG PHÁP 69
    7.3. KẾT LUẬN VÀ MỘT SỐ KẾT QUẢ THỰC NGHIỆM 70
    CHƯƠNG 8: XÂY DỰNG GROUND TRUTH VÀ CÔNG CỤ ĐÁNH GIÁ ĐỘ CHÍNH XÁC CỦA THUẬT TOÁN PHÂN VÙNG VĂN BẢN 71
    8.1. XÂY DỰNG GROUND TRUTH VÀ CÔNG CỤ ĐÁNH GIÁ ĐỘ CHÍNH XÁC CỦA THUẬT TOÁN PHÂN VÙNG VĂN BẢN 71
    8.2. KẾT XUẤT KẾT QUẢ 76
    8.2.1. KẾT XUẤT KẾT QUẢ DƯỚI DẠNG FILE XML 77
    8.2.2. KẾT XUẤT KẾT QUẢ DƯỚI DẠNG FILE MS WORD 80
    CHƯƠNG 9: ỨNG DỤNG MẠNG NEURAL NHÂN TẠO TRONG NHẬN DẠNG KÍ TỰ IN TIẾNG VIỆT 83
    9.1. ĐẶT VẤN ĐỀ 83
    9.2. CƠ SỞ LÝ THUYẾT MẠNG NEURAL NHÂN TẠO VÀ GIẢI THUẬT LAN TRUYỀN NGƯỢC 84
    9.2.1. NHỮNG THÀNH PHẦN CHÍNH CỦA MỘT MẠNG NEURAL 85
    9.2.2. MÔ HÌNH MẠNG NEURAL NHÂN TẠO 87
    9.2.3. CÁC HÀM KÍCH HOẠT THƯỜNG ĐƯỢC DÙNG 87
    9.2.4. CẤU TRÚC MẠNG FEED-FORWARD 88
    9.2.5. GIẢI THUẬT LAN TRUYỀN NGƯỢC (BACK – PROPAGATION ALGORITHM) 89
    9.3. MÔ TẢ PHƯƠNG PHÁP 94
    CHƯƠNG 10: TỔNG KẾT 96
    TÀI LIỆU THAM KHẢO 99
    PHỤ LỤC A 103
     

    Các file đính kèm:

Đang tải...