Luận Văn Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt

Thảo luận trong 'Chưa Phân Loại' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC
    MỤC LỤC 1
    LỜI NÓI ĐẦU 2
    Chương 1. Giới thiệu chung xử lý ngôn ngữ tự nhiên và phân tích văn bản tiếng Việt 5

    1.1. Tổng quan về xử lý ngôn ngữ tự nhiên 5
    1.2. Một số bài toán cơ bản phân tích văn bản 7
    1.2.1. Một số phương pháp giải các bài toán cơ bản: tách câu, tách từ, gán nhãn từ loại và phân tích cú pháp 8
    1.2.1.1. Bài toán tách câu 8
    1.2.1.2. Bài toán tách từ 9
    1.2.1.3. Bài toán gán nhãn từ loại 11
    1.2.1.4. Bài toán phân tích cú pháp 12
    1.3. Kho ngữ liệu 13
    Chương 2. Các công cụ phân tích văn bản tiếng Việt 14
    2.1. Bài toán tách câu và công cụ vnSentDetector 14
    2.2. Bài toán tách từ và công cụ vnTokenizer 15
    2.3. Bài toán gán nhãn từ loại và công cụ vnQtag 17
    2.4. Bài toán phân tích cú pháp và công cụ vnParser 20
    Chương 3. Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt 24
    3.1. Giới thiệu 24
    3.2. Nội dung và quy trình dựng kho ngữ liệu có chú giải cú pháp (treebank) 25
    3.3. Mô hình chú giải cú pháp SynAF 29
    3.3.1. Một số mô hình mã hóa cấu trúc cú pháp 29
    3.3.2. Mô hình chú giải cú pháp SynAF 33
    3.3.3 Mô hình chú giải cú pháp tiếng Việt - vnSynAF 35
    3.4. Bộ công cụ hỗ trợ xây dựng kho ngữ liệu tiếng Việt - vnSynAF 36
    KẾT LUẬN 41

    LỜI NÓI ĐẦU

    Ngày nay cùng với sự bùng nổ thông tin trên Internet mà trong đó văn bản là một trong những dạng chủ yếu thì nhu cầu xử lý ngôn ngữ tự nhiên trên máy tính là rất lớn. Làm thế nào để máy tính có thể hiểu được ngôn ngữ của con người vẫn là một trong những câu hỏi thách thức các nhà khoa học trong suốt lịch sử nửa thế kỷ của ngành trí tuệ nhân tạo.
    Những năm gần đây, với sự tiến bộ về năng lực tính toán và khả năng lưu trữ của máy tính, các tiếp cận mới về xử lý ngôn ngữ tự nhiên đã thu được những thành công đáng khích lệ, đặc biệt là cách tiếp cận sử dụng phương pháp thống kê trên kho ngữ liệu lớn.
    Xử lý ngôn ngữ tự nhiên là xử lý ngôn ngữ nói và ngôn ngữ viết của con người nên nó mang nét đặc thù riêng cho mỗi ngôn ngữ, mỗi quốc gia. Ngành xử lý ngôn ngữ tiếng Việt mới được quan tâm nghiên cứu. So với nhiều nước thì sau họ rất nhiều năm. Tuy nhiên người đi sau cũng có những thuận lợi, chúng ta có thể nhanh chóng học hỏi công nghệ, kinh nghiệm từ các nước đi trước, định hướng được mục tiêu, cách thức tiến hành để sớm tiếp cận được trình độ công nghệ tiên tiến một cách nhanh nhất.
    Trong xử lý ngôn ngữ tự nhiên, kho ngữ liệu là một nguồn tài nguyên quan trọng. Một mặt nó được dùng để huấn luyện các mô hình phân tích ngôn ngữ như tách câu, tách từ, gán nhãn từ loại, phân tích cú pháp. Mặt khác, nó còn được dùng để kiểm chứng độ tin cậy của các mô hình ngôn ngữ đó. Trong khuôn khổ làm luận văn tốt nghiệp hệ cao học em xin trình bày đề tài nghiên cứu “Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt”. Đây cũng là một phần việc trong đề tài cấp Nhà nước về xử lý ngôn ngữ và tiếng nói tiếng Việt giai đoạn 2007-2009.
    Bài luận văn trình bày một số nội dung nghiên cứu sau:
    Chương 1 - Giới thiệu tổng quan một số vấn đề trong xử lý ngôn ngữ tự nhiên nói chung và xử lý ngôn ngữ tiếng Việt nói riêng. Tìm hiểu khái quát một số bài toán liên quan tới việc xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt, các hướng tiếp cận để giải các bài toán đó.
    Chương 2 – Giới thiệu một số công cụ trong xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt.
    ã Công cụ cho bài toán tách từ
    ã Công cụ cho bài toán gán nhãn từ loại
    ã Công cụ cho bài toán phân cụm
    ã Công cụ cho bài toán phân tích cú pháp
    Chương 3 – Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt vnSynAF.
    ã Giới thiệu về kho ngữ liệu có chú giải ngữ pháp
    ã Giới thiệu về mô hình SynAF - mô hình chuẩn quốc tể chú giải cú pháp, mã hoá dựa trên định dạng XML có thể định dạng và mã hoá kho ngữ liệu tiếng Việt.
    ã Bộ công cụ vnSynAF
    Thực hiện được đề tài này, em đã vận dụng những kiến thức học được trong giai đoạn học đại học, học cao học, những kiến thức tích luỹ trong quá trình công tác thực tế, đồng thời học hỏi và nghiên cứu thêm về lĩnh vực ngôn ngữ học, tiếng Việt. Những công việc em đã thực hiện là sản phẩm bước đầu của quá trình nghiên cứu, song do kiến thức bản thân còn có hạn chế, thời gian thực hiện đề tài ít mà công việc thì lại tương đối nhiều nên không tránh được những hạn chế thiếu sót. Em rất mong muốn các thầy cô giáo, các nhà chuyên môn hỗ trợ chỉ bảo thêm.
    Em xin được tỏ lòng cảm ơn sâu sắc tới TS.Nguyễn Thị Minh Huyền đã tân tình hướng dẫn và giúp đỡ, tạo mọi điều kiện về phương tiện và tài liệu để em hoàn thành bài luận văn này. Em cũng xin chân thành cảm ơn tới các thầy cô, các anh chị trong bộ môn Tin học đã ủng hộ, động viên giúp đỡ em trong suốt quá trình học tập và làm luận văn.
    Và cuối cùng em cũng xin được cảm ơn tới bạn bè, toàn thể gia đình và người thân đã ủng hộ động viên em trong thời gian nghiên cứu học tập tại trường Đại học Khoa học Tự nhiên.
    Em xin chân thành cảm ơn!
     

    Các file đính kèm:

Đang tải...