Thạc Sĩ Nghiên cứu phương pháp nhận dạng chữ việt in chất lượng thấp

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Phí Lan Dương, 21/12/15.

  1. Phí Lan Dương

    Phí Lan Dương New Member
    Thành viên vàng

    Bài viết:
    18,524
    Được thích:
    18
    Điểm thành tích:
    0
    Xu:
    0Xu
    iii
    MMỤỤCC LLỤỤCC
    LỜI CAM ĐOAN .i
    LỜI CẢM ƠN .ii
    MỤC LỤC iii
    HÌNH VẼ v
    BẢNG vi
    MỞ ĐẦU 1
    CHƯƠNG 1 - TỔNG QUAN VỀ BÀI TOÁN NHẬN DẠNG CHỮ VIỆT .4
    1.1 Qui trình chung của một hệ nhận dạng chữ .4
    1.1.1 Phân lớp mẫu .4
    1.1.2 Nhận dạng văn bản 11
    1.2 Chữ Việt và các đặc trưng của chữ Việt 14
    1.2.1 Bảng chữ cái tiếng Việt 14
    1.2.2 Các nguyên âm trong tiếng Việt .14
    1.2.3 Cấu trúc thanh điệu 15
    1.3 Những tồn tại trong nhận dạng văn bản chất lượng thấp 16
    1.3.1 Chữ bị dính, nhòe 17
    1.3.2 Văn bản bị đứt hoặc mất nét .18
    1.3.3 Văn bản bị nhiễu 19
    1.3.4 Văn bản được in với các kiểu font chữ đặc biệt 20
    1.3.5 Cỡ chữ quá lớn hoặc quá nhỏ .21
    1.4 Kết luận 22
    CHƯƠNG 2 - MỘT SỐ VẤN ĐỀ TRONG NHẬN DẠNG KÝ TỰ CHẤT LƯỢNG
    THẤP .23
    2.1 Trích chọn đặc trưng .24
    2.1.1 Các đặc trưng sử dụng trong huấn luyện mô hình 26
    2.1.2 Các đặc trưng sử dụng trong quá trình nhận dạng 28
    2.2 Nhận dạng ký tự dựa vào đặc tr ưng trích chọn. .29iv
    2.2.1 Phân cụm tập đặc trưng 30
    2.2.2 Thuật toán phân lớp ký tự 44
    2.3 Kết luận 50
    CHƯƠNG 3 - THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .51
    3.1 Bài toán 51
    3.2 Cài đặt chương trình thử nghiệm .51
    3.3 Đánh giá thực nghiệm .60
    3.3.1 Độ đo đánh giá .60
    3.3.2 Dữ liệu thực nghiệm 61
    3.3.3 Kết quả thực nghiệm 62
    3.4 Kết luận 65
    KẾT LUẬN .67
    I. TÓM TẮT CÁC KẾT QUẢ ĐẠT ĐƯỢC CỦA LUẬN VĂN .67
    II. NHỮNG VẤN ĐỀ CHƯA ĐƯỢC GIẢI QUYẾT BỞI LUẬN VĂN 67
    III. HƯỚNG PHÁT TRIỂN 68
    DANH MỤC TÀI LIỆU THAM KHẢO .69v
    HÌNH VẼ
    Hình 1.1: Qui trình chung của một hệ thống nhận dạng chữ 11
    Hình 1.2: Trường hợp văn bản in đậm .17
    Hình 1.3: Một số hình ảnh bị biến dạng của các ký tự 18
    Hình 1.4: Hình ảnh các ký tự tiếng Việt bị nhập nhằng phần dấu .18
    Hình 1.5: Trường hợp văn bản bị đứt và mất nét 19
    Hình 1.6: Hình ảnh của ký tự bị biến dạng do lỗi đứt nét .19
    Hình 1.7: Một số dạng nhiễu thường gặp trên văn bản .20
    Hình 1.8: Văn bản bị các nhiễu đánh dấu .20
    Hình 1.9: Văn bản bị nhiễu do bị chồng chữ ký/con dấu 20
    Hình 1.10: Văn bản được in với kiểu font chữ đặc biệt 21
    Hình 2. 1: Các đặc trưng để huấn luyện mô hình .27
    Hình 2.2: Trích chọn các đặc trưng để nhận dạng 29
    Hình 2.3: Đặc trưng của một dòng ảnh 29
    Hình 2.4: Một cấu trúc cây K-D 33
    Hình 2.5: Cấu trúc dữ liệu lưu các đặc trưng đầu vào 34
    Hình 2.6: Cấu trúc dữ liệu cây K-D .35
    Hình 2.7: Cấu trúc CLUSTER .36
    Hình 2.8: Cấu trúc DIM_DESC mô tả mỗi chiều của cây K-D .37
    Hình 2.9: Một số mẫu đại diện cho lớp kí tự ‘ộ’ 44
    Hình 2.10: Thuật toán phân lớp ký tự 46
    Hình 2.11: Kết quả thực hiện của thuật toán 49
    Hình 3.1: Quy trình thực hiện của chương trình thử nghiệm 52
    Hình 3.2: Các tập dữ liệu thử nghiệm 62vi
    BBẢẢNNGG
    Bảng 1.1: Cấu trúc thanh điệu trong tiếng Việt 16
    Bảng 3.1: Các lớp ký tự huấn luyện thuật toán .53
    Bảng 3.2: Kết quả thực nghiệm .631
    MỞ ĐẦU
    1. Tính cấp thiết của luận văn
    Nhận dạng chữ là quá trình chuyển đổi từ dạng hình ảnh của một hay
    nhiều trang ảnh chứa các thông tin văn bản thành tệp văn bản thực sự có thể
    soạn thảo được trên máy tính. Khi đề cập đến bài toán nhận dạng chữ, người
    ta thường phân biệt hai loại là chữ in (optical character) và chữ viết tay
    (handwritten character) [2], [6], [7], [9]. Các kết quả ứng dụng của bài toán
    nhận dạng chữ in đã và đang được sử dụng rộng rãi trong qui trình tự động
    hóa các hoạt động văn phòng, mang lại lợi ích thực sự cho con người.
    Ngày nay cùng với sự phát triển về mặt lý thuyết, công nghệ, có rất
    nhiều hướng đi cho việc giải quyết bài toán này như: Hiện tại có rất nhiều
    phương pháp phân lớp sử dụng trong nhận dạng chữ như: phân loại Bayes, K-
    láng giềng gần nhất (k-NN), mạng Neural (ANNs), mô hình Markov ẩn
    (HMM), Những phương pháp này đã cho kết quả chấp nhận được và có nhiều
    ứng dụng trong thực tế.
    Trên thế giới hiện nay có nhiều chương trình nhận dạng chữ viết (chữ in
    và viết tay), như các hệ OMNIPAGE, READ-WRITE, WORD-SCAN, . Ở
    Việt Nam cũng có một số hệ như WORC của công ty 3C, VIET-IN của công
    ty SEATIC, VNDOCR của Viện Công Nghệ Thông Tin, Image Scon của
    Trung Tâm Tự Động Hóa Thiết Kế, hệ WINGIS của công ty DolfSoft [2].
    Đối với bài toán nhận dạng văn bản tiếng Việt, có thể nói cho đến thời
    điểm hiện tại, việc nhận dạng các văn chữ in bản chất lượng thấp vẫn là một
    vấn đề thách thức. Vì lý do đó, luận văn này sẽ tập trung nghiên cứu một số
    phương pháp phân lớp mẫu và trích chọn đặc trưng nhằm lựa chọn được một
    phương pháp thích hợp cho việc nhận dạng chữ Việt in chất lượng thấp, thử2
    nghiệm xây dựng chương trình nhận dạng ký tự chữ Việt một văn bản mà
    trong văn bản đó xuất hiện nhiều ký tự bị dính, biến dạng, bị đứt hay mất
    nét . với mong muốn sẽ làm ra một sản phẩm nhận dạng văn bản chữ in
    tiếng Việt chất lượng thấp hoàn chỉnh trong tương lai.
    2. Mục tiêu của luận văn
    Luận văn tập trung nghiên cứu một số phương pháp phân lớp mẫu và
    trích chọn đặc trưng nhằm lựa chọn được một phương pháp thích hợp cho
    việc nhận dạng các ảnh chữ cái và chữ số tiếng Việt chất lượng thấp.
    Ảnh chất lượng thấp ở đây bao gồm các ảnh kí tự bị lỗi do nhiễu, do bị
    đứt nét, bị thiếu hoặc thừa ra một phần nào đó do dính vào kí tự bên cạnh, do
    các thành phần của kí tự bị dính với nhau chẳng hạn như phần mũ, dấu dính
    với phần chữ đối với kí tự tiếng Việt.
    3. Bố cục của luận văn
    Các nội dung trình bày trong luận văn được chia thành 3 chương:
    Chương I: Tổng quan về bài toán nhận dạng chữ Việt.
    Chương này trình bày tổng quan về các vấn đề liên quan đến nhận dạng,
    các đặc trưng của chữ Việt và chữ Việt chất lượng thấp, những vấn đề tồn tại
    trong bài toán nhận dạng ảnh văn bản chất lượng thấp, đưa ra mô hình chung
    của hệ thống nhận dạng, các hướng tiếp cận nhận dạng, các yếu tố ảnh hưởng
    đến hệ thống nhận dạng.
    Chương II: Một số vấn đề trong nhận dạng ký tự chất lượng thấp
    Chương này trình bày những khái niệm cơ bản về ảnh ký tự chất lượng
    thấp, một số hướng tiếp cận trong phân lớp và trích chọn đặc trưng ký tự và
    lựa chọn một phương pháp nhận dạng ảnh ký tự chất lượng thấp.
    Chương III: Thực nghiệm và đánh giá kết quả3
    Chương này mô tả chi tiết quá trình thử nghiệp phân lớp và một số
    phương pháp trích chọn đặc trưng, đồng thời đưa ra đánh giá hiệu quả của quá
    trình nhận dạng.
    Phần kết luận
    Phần này sẽ nêu lên các vấn đề đã giải quyết được, chưa giải quyết được
    và hướng phát triển trong tương lai của luận văn.
     
Đang tải...