Thạc Sĩ Nghiên cứu và xây dựng công cụ tách từ tự động trong tiếng jrai

Thảo luận trong 'Khoa Học Công Nghệ' bắt đầu bởi Bích Tuyền Dương, 16/12/12.

  1. Bích Tuyền Dương

    Bài viết:
    2,590
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỞ ĐẦU

    1. Lý do chọn đề tài
    Trong thời đại bùng nổ thông tin như hiện nay, công nghệ thông tin đóng một vai trò hết sức quan trọng trong quá trình nâng cao đời sống vật chất tinh thần, gìn giữ và phát huy nền văn hoá tiên tiến, đậm đà bản sắc dân tộc của vùng đồng bào dân tộc thiểu số và miền núi nước ta.
    Việt Nam có khoảng 54 dân tộc anh em. Hầu như mỗi dân tộc đều có ngôn ngữ của riêng mình, dân tộc người Jrai cũng không ngoại lệ. Dân tộc Jrai là một trong những dân tộc có dân số khá đông, ngôn ngữ chính thức của họ là tiếng Jrai. Họ sẽ ít nhiều gặp khó khăn trong việc tiếp nhận thông tin, tri thức tiếng Việt do sự trở ngại về mặt ngôn ngữ. Cho nên, việc từng bước xây dựng các công đoạn xử lý ngôn ngữ Jrai – Việt là rất cần thiết để góp phần giúp cho dân tộc người Jrai có thể dễ dàng trong việc tiếp cận tiếng Việt hơn, tạo thuận lợi cho công tác nghiên cứu, dịch thuật, tra cứu, quản lý, đào tạo tiếng dân tộc, cũng như góp phần vào việc giữ gìn và phát huy bản sắc văn hóa dân tộc thiểu số trong thời đại công nghệ thông tin.
    Công đoạn tách các đơn vị từ vựng tự động là khâu đầu tiên không thể thiếu đối với hầu hết các lĩnh vực xử lý tự động ngôn ngữ tự nhiên. Tiếng Jrai có khá nhiều từ phức nên ranh giới giữ các từ không chỉ là khoảng trắng, dẫn đến tách từ tự động sẽ tương đối phức tạp. Giải quyết bài toán tách từ tự động trong tiếng Jrai sẽ là bước tiền xử lý tạo điều kiện để tiếp tục nghiên cứu và xây dựng các hệ thống xử lý tiếng Jrai như dịch thuật tự động, tìm kiếm thông tin .
    2. Mục đích nghiên cứu
    Mục đích của đề tài tập trung nghiên cứu các hướng tiếp cận, các phương pháp tách từ tự động hiện nay và một số đặc trưng của ngôn ngữ Jrai, qua đó ứng dụng phương pháp tách từ tự động để xây dựng công cụ tách từ tự động trong tiếng Jrai.
    3. Đối tượng và phạm vi nghiên cứu
    Nghiên cứu về tiếng Jrai cũng như các đặc điểm của ngôn ngữ này thông qua các tài liệu tiếng Jrai, từ điển Jrai . Các phương pháp và công cụ tách từ tự động mang lại hiệu quả cao.
    4. Phương pháp nghiên cứu
    Nghiên cứu lý thuyết: Các tài liệu lý thuyết về tách từ, các báo cáo kết quả công trình nghiên cứu khoa học về tách từ, các bài báo trên các tạp chí khoa học trong và ngoài nước. Tìm hiểu các tài liệu về tiếng Jrai.
    Nghiên cứu thực nghiệm: Xây dựng công cụ tách từ tự động trong tiếng Jrai. Đánh giá kết quả đạt được của đề tài.
    5. Ý nghĩa khoa học và thực tiễn của đề tài
    Đề tài xây dựng công cụ tách từ tự động trong tiếng Jrai là bước tiền xử lý ngôn ngữ Jrai trên máy tính. Có thể ứng dụng công cụ tách từ tự động tiếng Jrai để xây dựng các hệ thống xử lý tiếng Jrai như dịch thuật tự động, tìm kiếm thông tin
    6. Cấu trúc của luận văn
    Luận văn gồm có phần mở đầu, kết luận và ba chương.
    Chương 1 – Tổng quan về tách từ tự động: Trình bày các nội dung tổng quan về bài toán tách từ tự động.
    Chương 2 – Tách từ tự động trong tiếng Jrai: Trình bày một cách khái quát về dân tộc và ngôn ngữ Jrai, các đặc điểm của loại hình ngôn ngữ này, sau đó lựa chọn phương pháp tách từ thích hợp để áp dụng cho tiếng Jrai.
    Chương 3 – Cài đặt và thử nghiệm: Từ những lý thuyết đã nghiên cứu ở các chương trước, tiến hành xây dựng ứng dụng tách từ tự động trong tiếng Jrai.


    MỤC LỤC

    LỜI CAM ĐOAN ii
    MỤC LỤC iii
    DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT v
    DANH MỤC CÁC HÌNH VẼ vi
    MỞ ĐẦU 1
    CHƯƠNG 1 - TỔNG QUAN VỀ TÁCH TỪ TỰ ĐỘNG 3
    1.1. GIỚI THIỆU 3
    1.2. TỔNG QUAN VỀ TÁCH TỪ TỰ ĐỘNG 4
    1.2.1. Bài toán tách từ tự động 4
    1.2.2. Bối cảnh tách từ tự động hiện nay 4
    1.2.2.1. Hướng tiếp cận dựa trên từ vựng 5
    1.2.2.2. Hướng tiếp cận dựa trên âm tiết 7
    1.2.3. Một số phương pháp tách từ tự động hiện nay 8
    1.2.3.1. Phương pháp Maximum Matching kết hợp với luật khử nhập nhằng 9
    1.2.3.2. Phương pháp tách từ tiếng Việt bằng FnTBL 13
    1.2.3.3. Phương pháp tách từ bằng mô hình WFST và mạng Neural 16
    1.2.3.4. Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và giải thuật di truyền – IGATEC 21
    1.3. KẾT LUẬN 24
    CHƯƠNG 2 - TÁCH TỪ TỰ ĐỘNG TRONG TIẾNG JRAI 25
    2.1. GIỚI THIỆU VỀ DÂN TỘC JRAI 25
    2.1.1. Về người Jrai 25
    2.1.2. Sự khác nhau giữa các nhóm phương ngữ Jrai 27
    2.2. NGÔN NGỮ JRAI 28
    2.2.1. Lịch sử hình thành chữ viết 28
    2.2.2. Giới thiệu về bộ chữ cái, hệ thống âm, vần tiếng Jrai 30
    2.2.2.1. Bộ chữ cái 30
    2.2.2.2. Hệ thống âm 30
    2.2.2.3. Vị trí của phụ âm trong từ 31
    2.2.2.4. Vần 32
    2.2.2.5. Tiền âm tiết 32
    2.2.2.6. Dấu 32
    2.2.3. Đặc điểm của tiếng Jrai 32
    2.3. HIỆN TRẠNG TIẾNG JRAI TRÊN MÁY TÍNH 33
    2.4. TÁCH TỪ TRONG TIẾNG JRAI 36
    2.4.1. Áp dụng thuật toán Maximum Matching và các luật khử nhập nhằng để tách từ tiếng Jrai 37
    2.4.1.1. Lý do chọn phương pháp dùng thuật toán Maximum Matching và các luật khử nhập nhằng 37
    2.4.1.2. Áp dụng cho tiếng Jrai 38
    2.4.2. Vấn đề khi tách từ tự động tiếng Jrai 39
    2.5. KẾT LUẬN 41
    CHƯƠNG 3 - CÀI ĐẶT VÀ THỬ NGHIỆM 42
    3.1. GIỚI THIỆU 42
    3.1.1. Chương trình ứng dụng 42
    3.1.2. Các công nghệ và công cụ sử dụng trong khi xây dựng ứng dụng 43
    3.1.2.1. Lập trình ứng dụng trên nền tảng .NET Framework 43
    3.1.2.2. Ngôn ngữ lập trình C# 44
    3.1.2.3. Thư viện mã nguồn mở VietkeyInput.dll, VnkeyInput.dll 45
    3.1.2.4. Bộ phông chữ Vnk 45
    3.1.2.5. Môi trường phát triển ứng dụng 46
    3.2. THIẾT KẾ VÀ XÂY DỰNG CHƯƠNG TRÌNH 46
    3.2.1. Công cụ tách từ tự động tiếng Jrai 46
    3.2.1.1. Hàm hỗ trợ xử lý chuỗi 46
    3.2.1.2. Các hàm xử lý chính trong công cụ tách từ 47
    3.2.2. Chương trình hỗ trợ chỉnh sửa câu sau khi tách từ 57
    3.3. THỬ NGHIỆM 57
    3.4. ĐÁNH GIÁ 59
    3.5. KẾT LUẬN 60
    KẾT LUẬN 62
    DANH MỤC TÀI LIỆU THAM KHẢO 63
     

    Các file đính kèm:

Đang tải...