Luận Văn Phân tích bố cục và nhận dạng ảnh công văn tiếng Việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    167
    Điểm thành tích:
    0
    Xu:
    0Xu
    Phân tích bố cục văn bản là một bước rất quan trọng trong hệ thống OCR. Do nhiều yếu tố như kích cỡ chữ, kiểu chữ, khoảng cách giữa các dòng và bố cục của một số văn bản khá phức tạp, cùng với sự xuất hiện của nhiễu và dấu (đặc biệt trong các văn bản tiếng Việt), đã ảnh hưởng rất lớn đến kết quả của quá trình phân tích và nhận dạng.

    Quá trình nhận dạng ảnh văn bản bao gồm nhiều bước: xám hóa ảnh đầu vào, nhị phân ảnh, chỉnh nghiêng văn bản, tách khối, tách dòng, tách từ, tách ký tự và cuối cùng là nhận dạng văn bản. Trong nội dung của đề tài này, chúng tôi sẽ trình bày quá trình nhị phân ảnh, xác định góc nghiêng, tách khối văn bản cho các ảnh công văn tiếng Việt, sau đó tiến hành tách dòng, tách từ, tách ký tự rồi nhận dạng, hơn thế nữa chúng tôi còn xây dựng Ground truth để đánh giá độ chính xác của thuật toán tách khối, và đồng thời chúng tôi cũng xây dựng cách kết xuất ra kết quả dưới dạng file XML và file MS Word
     

    Các file đính kèm:

Đang tải...