Đồ Án Nghiên cứu về nhận dạng chữ in tiếng việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Tóm tắt








    Nhận dạng chữ in nói chung và nhận dạng chữ in tiếng Việt nói riêng đã và
    đang là những bài toán thu hút nhiều sự quan tâm và nghiên cứu.


    Bài toán nhận dạng chữ in tiếng Việt gồm ba công đoạn chủ yếu: Phân đoạn ảnh, nhận dạng kí tự và hậu xử lý. Trong luận văn này tôi tập trung chủ yếu vào giai đoạn Phân đoạn ảnh, nhằm đưa ra những cải tiến để đẩy nhanh tốc độ xử lý. Đồng thời chúng tôi cũng sử dụng môdul nhận dạng để xây dựng thành một hệ thống hoàn chỉnh.


    Với bài toán nhận dạng chữ tiếng Việt có sự khó khăn do hệ thống dấu tiếng Việt làm số kí tự cần nhận dạng tăng lên rất nhiều, đồng thời làm tăng khả năng giao nhau giữa các dòng, các ký tự. Để giải quyết vấn đề đó, trong khóa luận này chúng tôi sử dụng phương pháp tách dòng dựa vào khoảng trắng, thành phần liên thông.


    Trong phần thực nghiệm của luận văn, chúng tôi cũng thực nghiệm các văn bản với nhiều cỡ chữ và font chữ khác nhau. Kết quả của việc phân đoạn ảnh và nhận dạng là tương đối tốt, có thể chấp nhận được.


    Từ khóa: Xác định góc nghiêng văn bản, Tách dòng văn bản, Thành phần liên thông, Biểu đồ Histogram, Mạng Neural, Nhận dạng kí tự quang học, trích trọn đặc trưng.













    MỤC LỤC






    Chương 1 Giới thiệu 1


    1.1 Đặt vấn đề .1
    1.2 Nội dung nghiên cứu của khóa luận 3
    1.3 Cấu trúc khóa luận 3


    Chương 2 Cơ sở lý thuyết cho phân đoạn ảnh 5


    2.1 Khái niệm ảnh số 5
    2.2 Nhị phân hóa 6
    2.3 Biểu đồ sắc thái của hình ảnh (Histogram) 8
    2.4 Thành phần liên thông 8
    2.4.1 Khái niệm điểm lân cận .9
    2.4.2 Thành phần liên thông: Liên thông bốn và liên thông tám 9


    Chương 3 Phân đoạn ảnh cho nhận dạng văn bản


    11


    3.1 Tiền xử lý ảnh 11
    3.1.1 Nhị phân hóa .11
    3.1.2 Lọc nhiễu 11
    3.1.3 Xoay lại ảnh 12
    3.2 Tách đoạn .14
    3.3 Tách dòng 14
    3.3.1 Tách dòng dựa vào các đường kẻ ngang .14
    3.3.2 Tách dòng dựa vào thành phần liên thông 15
    3.3.3 Tách dòng dựa vào khoảng trắng giữa các dòng .16
    3.4 Tách từ .17
    3.4 Tách ký tự 18


    Chương 4 Trích chọn đặc trưng 20


    4.1 Khái niệm cơ bản .20
    4.1.1 Đặc trưng ảnh – Image Features .20
    4.1.2 Trích chọn đặc trưng – Feature Extraction .20
    4.2 Vai trò của trích chọn đặc trưng 20
    4.3 Một số phương pháp trích chọn đặc trưng .21
    4.3.1 Phương pháp trích chọn đặc trưng GSC .21







    4.3.1 Trích chọn đặc trưng theo hướng hình học .22
    4.3.2 Trích chọn đặc trưng theo cấu trúc .25
    4.3.3 Trích chọn đặc trưng theo tính lồi lõm .27


    Chương 5: Phân lớp và mô hình học máy 30


    5.1 Cấu trúc hoạt động của mạng neuron 30
    5.1.1 Cấu trúc và hoạt động của một neuron .30
    5.1.2 Cấu trúc và hoạt động của mạng neuron .31
    5.1.3 Hàm truyền 33
    5.2 Quá trình huấn luyện mạng và các thuật toán học mạng 34
    5.2.1 Mạng neuron và bài toán phân loại mẫu .34
    5.2.2 Đặc trưng của mạng neuron .34
    5.2.3 Các phương pháp huấn luyện mạng .34
    5.2.4 Mạng lan truyền ngược nhiều tầng (Back-propagation Neural Network) .35
    5.3 Ứng dụng mô hình nhận dạng cho tiếng Việt 38
    5.3.1 Khó khăn và giải pháp đề xuất cho nhận dạng kí tự 38
    5.3.2 Phân nhóm kí tự 40


    Chương 6 Thực nghiệm 42


    6.1 Môi trường thực nghiệm .42
    6.2 Thực nghiệm về phân đoạn ảnh 42
    6.2.1 Tách dòng 42
    6.2.3 Tách từ 43
    6.2.4 Tách ký tự .43
    6.2.5 Thực nghiệm nhận dạng .44


    Chương 7: Kết Luận 45
     

    Các file đính kèm:

Đang tải...