Thạc Sĩ Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    167
    Điểm thành tích:
    0
    Xu:
    0Xu

    CHưƠNG 1: MỞ ĐẦU



    Nhận dạng và xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ. Ở Việt Nam Nhận dạng và xử lý ảnh là một ngành khoa học mới mẻ so với nhiều ngành khoa học khác nhưng tốc độ phát triển của nó rất nhanh. Sự ra đời của nó đã tạo ra các kỹ thuật quan trọng ảnh hưởng trực tiếp đến các lĩnh vực như: Tivi, truyền thông, kỹ xảo đồ hoạ
    Cùng với sự phát triên đo co nhưng nhu câu thưc tê đăt ra thách thức các nhà khoa học máy tính càng nhiều . Nhưng công viêc , nhưng bai toan đươc xư ly theo lôi cô truyên không theo kip tôc đô phat triên cua công nghê ngày nay . Một trong nhưng bai toan đo chinh la các tài liệu đươc lưu trư trên các chất liệu cổ truyền như giây, gô, vải vơi khôi lương không lô , chưa đưng rât nhiêu tri thưc cua nhân loai nhưng lai không co đô bên vinh cưu , khó xử lý và lưu trữ . Môt bai toan khac la ngay nay công viêc văn phong liên quan nhiêu đên cac tai liêu không đơn thuân la tai liêu chư ma tai liêu co nhiêu thành phần như bảng biểu , ảnh. Tât ca cac tai liêu đo nêu tiêp tuc lưu trư theo phương phap cô truyên thi rât phưc tap va kho xư ly . Vây lam thê nao đê chuyên đôi nhưng kho tang tri thưc trên vao may tinh đê lưu trư , xư ly dê dàng, thuân tiên va nhanh gon . Môt linh vưc của khoa học nhâ n dang la Phân tích tài liệu ảnh đã ra đơi nhăm biêu diên thông tin trong cac tai liêu anh dươi dạng có cấu trúc .
    Hệ phân tích và nhận dạng tài liệu ảnh có mục đích là chuyển đổi tự động những thông tin lưu trữ trong tài liệu giấy thành biểu diễn dưới dạng những cấu trúc mà có thể truy xuất, thay đổi được bằng máy tính. Quy trình xử lý của một hệ phân tích tài liệu bắt đầu bằng việc lấy dữ liệu, các tài liệu từ giấy in sẽ được quét qua máy quét để lưu trữ trong máy tính dưới dạng các tệp dữ liệu ảnh.

    Một tài liệu ảnh là một cách biểu diễn trực quan của các trang tài liệu được in như một bài tạp chí, một lá thư, một trang báo, một mẩu thư hay một bản vẽ kỹ thuật, .v.v Một tài liệu ảnh có thể bao gồm các chuỗi ký tự, các hình vẽ, các bức ảnh, .v.v Bên cạnh việc chuyển toàn bộ nội dung của tài liệu sang tài liệu điện tử cũng cần phải bảo toàn cấu trúc và định dạng của tài liệu. Mục tiêu cơ bản của một hệ phân tích tài liệu ảnh hoàn chỉnh đó là chuyển một tài liệu lưu trữ bằng giấy sang dạng biểu diễn có thứ tự cấu trúc và nội dung của nó. Tài liệu được chuyển sang phải có khả năng thay đổi, soạn thảo và lưu trữ bởi vì nội dung của tài liệu có thể truy cập bởi cấu trúc của nó thay vì phải truy cập dưới dạng những mẫu ảnh. Có một số lượng lớ n ứng dụng của hệ phân tích tài liệu ảnh được ứng dụng trong các lĩnh vực như: dịch vụ bưu chính, Chính phủ, chăm sóc y tế, thư viện, .v.v.
    Mục đích của luận văn là nghiên cưu ky thuât nhân dang bang va trich chọn ra đối tượng của tài liệu ảnh. Kỹ thuật “Phân tích bảng – T-Recs” là nghiên cưu chinh .
    Với tư tưởng chính của “Phương pháp phân tích bảng” đó là không xem xét đến bất cứ một loại đường phân cách nào để xác định cấu trúc bảng. Thay vào đó phương pháp sẽ tập trung vào việc nhận biết các từ trong cùng một khối logic (chẳng hạn các từ trong cùng một cột dữ liệu sẽ được cho vào trong cùng một khối). Phương pháp sẽ không đi tìm những đặc trưng để phân biệt hai vùng dữ liệu (hai cột) khác nhau mà tìm những đặc trưng để tìm ra các từ trong cùng một khối logic và từ đó xây dựng cấu trúc riêng theo phương pháp tiếp cận bottom - up.


    1.1. Cơ sở nghiên cứu và mục đích của luận văn

    Ảnh là một đối tượng khá phức tạp về đường nét, dung lượng điểm ảnh, độ sáng tối, môi trường để thu nhận ảnh phong phú kéo theo nhiễu. Trong nhiều khâu phân tích ảnh ngoài việc đơn giản hoá các phương pháp toán học đảm bảo tiện lợi cho xử lý, người ta mong muốn bắt chước quy trình tiếp nhận và xử ảnh theo cách của con người. Trong các bước xử lý đó nhiều khâu hiện nay đã xử lý theo các phương pháp trí tuệ của con người. Những hệ thống nhận dạng cấu trúc không chỉ đơn giản là chuyển một tài liệu in thành một tài liệu điện tử mà hơn thế nữa còn là xây dựng những quá trình xử lý kết hợp chẳng hạn như: tự động chép nội dụng, đánh chỉ mục và phân loại. Do đó việc quan trọng là kèm theo nội dung của tài liệu cũng phải trích chọn ra những cấu trúc đi kèm với từng nội dung đó.
    Nhận dạng bảng là bài toán nhận dạng ra cấu trúc bảng có trong trang tài liệu ảnh, bao gồm việc nhận dạng các cột, các dòng và các ô có chứa dữ liệu trong bảng. Nhận dạng đối tượng ảnh là bài toán nhằm phân tách các đối tượng ảnh trong những trang tài liệu ảnh có chứa hỗn hợp các đối tượng là chuỗi ký tự và các đối tượng ảnh như: các sơ đồ, hình vẽ, bức ảnh v.v.
    Mặc dù đã có nhiều kỹ thuật trong hệ thống nhận dạng cấu trúc. Tuy nhiên những nghiên cứu trên những vấn đề đó vẫn còn tiếp tục phát triển bởi vì chất lượng, độ chính xác, tính hiệu quả của những phương pháp được công bố trước đây vẫn còn chưa hoàn chỉnh và cần phải cải tiến chúng. Luận văn này trình bày kỹ thuật nhận dạng cấu trúc bảng bên trong tài liệu ảnh T-Recs và đề xuất một số phương pháp khắc phục hạn chế thuật toán T-Recs để hoàn thiện hiện hơn phương pháp phân tích bảng.


    1.2. Tổ chức của luận văn

    Luận văn được trình bày thành 5 chương và 1 phụ lục.

    Chương 1 Trình bày tóm tắt cơ sở nghiên cứu và mục đích cũng như

    cách tổ chức của luận văn.

    Chương 2 Tông quan vê hê phân tich tai liêu anh va cac thanh phân chính trong hê phân tich tai liêu anh : Lây dư liêu , xư ly anh , trích chọn đặc trưng, nhân dang đôi tương anh va nhân dang văn ban .
    Chương 3 trình bày bài toán phân tách văn bản và ảnh một cách riêng rẽ. Trong chương này một thuật toán phân tách văn bản và ảnh cũng sẽ được trình bày dựa vào việc phân tích các thành phần liên thông (CCs).
    Chương 4 trình bày phương pháp phân tích bảng ( T-Recs) dựa trên những hình chữ nhật bao quanh một từ và đầu ra là cấu trúc logic của khối văn bản, cụ thể với những bảng nhận dạng được sẽ là cấu trúc các cột và các ô của bảng dữ liệu. Phân tích những mặt hạn chế của thuật toán - trường hợp nhận dạng chưa chính xác các cột dữ liệu trong bảng luận văn đưa ra thuật toán khắc phục những mặt hạn chế đó.
    Chương 5 Chương trình thử nghiệm và minh họa phân tích bảng trong trang tài liệu ảnh.



    MỤC LỤC



    Trang phụ bìa
    Lời cảm ơn
    MỤC LỤC -------------------------------------------------------------------------------i

    THUẬT NGỮ TIẾNG ANH:---------------------------------------------------------
    DANH MUC CAC HINH VE --------------------------------------------------------iv
    CHưƠNG I: MỞ ĐẦU ----------------------------------------------------------------1
    1.1. Cơ sở nghiên cứu và mục đích của luận văn ----------------------------3
    1.2. Tổ chức của luận văn: --------------------------------------------------------4
    CHưƠNG II: TỔNG QUAN VỀ HỆ PHÂN TÍCH TÀI LIỆU ẢNH ---------5

    2.1. Tài liệu ảnh ---------------------------------------------------------------------5
    2.2. Hệ phân tích trang tài liệu --------------------------------------------------5

    2.3. Thu thập dữ liệu ảnh ---------------------------------------------------------6
    2.4. Tiền xử lý điểm ảnh-----------------------------------------------------------9
    2.4.1. Xử lý nhị phân ----------------------------------------------------------10
    2.4.2. Giảm nhiễu---------------------------------------------------------------11
    2.4.3. Phân đoạn ảnh -----------------------------------------------------------12

    2.4.4. Làm mảnh và xác định vùng -----------------------------------------12
    2.4.5. Mã hóa CC và véctơ hóa ----------------------------------------------13

    2.5. Phân tich đăc trưng cua tai liêu anh -------------------------------------15
    2.6. Phân tich đôi tương văn ban trong tai liêu -----------------------------15
    2.6.1. Xác định góc nghiêng của văn bản ----------------------------------16

    2.6.2. Phân tich bô cuc cua trang ta i liêu anh ------------------------------18
    2.7. Nhận dạng ký tự quang học (OCR) ---------------------------------------19
    2.7.1. Thuât toan OCR -----------------------------------------------------20
    2.7.1.1. Trích chọn đặc trưng ---------------------------------------20
    2.7.1.2. Phân loại------------------------------------------------------21

    2.7.2. Nhận dạng ký tự dựa trên ngữ cảnh------------------------------21

    2.8. Phân tích các đối tượng ảnh trong tài liệu ------------------------------22


    CHưƠNG 3: THUẬT TOÁN TÁCH VĂN BẢN - ẢNH TỪ TRANG TÀI LIỆU ẢNH ------------------------------------------------------------------------------24
    3.1. Tông quan vê phân tach văn ban – ảnh ---------------------------------24
    3.2. Những đặc trưng chung của một tệp tài liệu ảnh ---------------------27
    3.3. Thuật toán phân tách văn bản - ảnh--------------------------------------30
    3.3.1. Xoá bỏ các đối tượng tuyến tính ---------------------------------31
    3.3.2. Phân tích các thành phần liên thông của nét bút ---------------32

    3.3.3. Kết hợp các nét ký tự tạo thành các chuỗi văn bản ------------34
    3.3.4. Thực hiện các phép toán hình thái -------------------------------35
    3.3.5. Phân tích các thành phần liên thông mới -----------------------35
    3.3.6. Biểu diễn cấu trúc thông tin của các chuỗi văn bản -----------36

    CHưƠNG IV: PHưƠNG PHÁP PHÂN TÍCH BẢNG T-RECS TRONG

    TRANG TAI LIÊU ANH------------------------------------------------------------39
    4.1. Giới thiệu--------------------------------------------------------------------39
    4.2. Thuật toán phân đoạn khởi tạo ----------------------------------------41
    4.2.1. Trường hợp thuật toán nhận dạng sai cột -----------------------42

    4.2.2. Cải tiến các bước của thuật toán phân đoạn khởi tạo T - Recs++ 44
    4.2.3. Những ưu điểm của thuật toán -----------------------------------46
    4.2.4. Những mặt hạn chế của thuật toán khởi tạo --------------------47

    4.3. Các bước xử lý khối sau khi phân đoạn------------------------------48
    4.3.1. Trộn các khối phân đoạn sai --------------------------------------48
    4.3.2. Phân tách các cột bị trộn vào một khối --------------------------49

    4.3.3. Nhóm các từ bị phân tách -----------------------------------------52

    4.4. Phân tích khối --------------------------------------------------------------53
    4.5. Xác định cấu trúc các cột, hàng ----------------------------------------54
    CHưƠNG 5 CHưƠNG TRINH THư NGHIỆM VA MINH HOA THUÂT TOÁN T-RECS++ ---------------------------------------------------------------------56
    5.1. Mô tả chương trình -------------------------------------------------------56
    5.2. Môt sô kêt qua -------------------------------------------------------------58
    KÊT LUÂN VA ĐÊ XUÂT ----------------------------------------------------------61


    3 – D 3 Dimensions

    CAD Computer Aided Design

    CAM Computer Aided Manufacturing

    CC Chain Code

    CCs Connected Components CPU Control Processing Unit DP Dynamic Programming HWRatio Heigh Width Ratio
    K – NNR K – Nearest Neighbor Rule

    LC Linear Component

    LSD Local Stroke Density

    NCCs New Connected Components

    NNR Nearest Neighbour Rule

    OCR Optical Character Recognition T-Recs Table Recognition System WBRatio White Black Ratio
    WDG White-space Density Graphs


    Hình 2.1 Sơ đô qua trinh xư ly tai liêu
    Hình 2.2 Sơ đô qua trinh phân tich trang tai liêu


    Hình 2.3 Phương pháp nhị phân ảnh. (a) Histogram của ảnh đa cấp xám nguyên
    bản, (b) chọn ngưỡng thấp, (c) chọn ngưỡng hợp lý, (d) chọn ngưỡng
    quá cao.
    Hình 2.4 Ảnh nguyên bản(Vân tay) bên trái và ảnh sau khi làm mảnh bên phải.


    Hình 2.5 Tài liệu ảnh trước và sau các bước tiền xử lý. Ảnh (a) gốc, ảnh (b) ảnh
    sau khi chuyển về ảnh nhị phân, ảnh (c) ảnh sau khi chỉnh nghiêng, ảnh
    (d) ảnh sau khi lọc nhiễu.
    Hình 2.6 văn ban bi nghiêng sau khi đươc quet qua may quet.
    Hình 2.7 Ví dụ minh họa kết quả phân tích bố cục của trang tài liệu ảnh
    Hình 2.8 Chư viêt tay co thê gây nhâm lân
    Hình 3.1 Ví dụ về các đối tượng văn bản và đối tượng ảnh
    Hình 3.2 Biểu diễn các điểm ảnh giao nhau
    Hình 3.3 Một số trường hợp ngoại lệ
    Hình 3.4 Sơ đô thuât toan phân tach văn ban
    Hình 3.5 Hình 3.5 Nhân dang đương ke nghiêng vơi phep toan keo dan
    Hình 4.1 Ví dụ minh họa tư tưởng của thuật toán khởi tạo
    Hình 4.2 thuật khơi tao đôi vơi môt đoan văn ban
    Hình 4.3 Trường hợp thuật toán nhận dạng sai cột
    Hình 4.4 Trường hợp giữa các dòng của một cột trong bảng có ô trắng
    Hình 4.5 Mô phỏng việc thực hiện các bước đã cải tiến của thuật toán
    Hình 4.7 Quá trình phân đoạn các cột của bảng
    Hình 4.8 Trường hợp một ô của bảng chiếm nhiều dòng
    Hình 4.9 Những mặt hạn chế của thuật toán
    Hinh 4.10 Trộn hai khối bị phân tách
    Hình 4.11 Tách các cột bị trộn
    Hình 4.12 Trôn lai cac khôi con bi tach
    Hình 4.14 Tách các khối loại 1 thành các ô của bảng
    Hình 4.15 Tách các khối loại 2 thành các hàng trong bảng
    Hình 5.1 Giao diên chương trinh T-Recs
    Hình 5.2 Nhân dang khôi văn ban vơi T-Recc++
    Hình 5.3 Nhân dang tai liêu anh la bang quy chê vơi T-Recs++
     

    Các file đính kèm:

Đang tải...