Luận Văn Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt

Thúy Viết Bài · 5/12/13

LỜI NÓI ĐẦU

Ngày nay cùng với sự bùng nổ thông tin trên Internet mà trong đó văn bản là một trong những dạng chủ yếu thì nhu cầu xử lý ngôn ngữ tự nhiên trên máy tính là rất lớn. Làm thế nào để máy tính có thể hiểu được ngôn ngữ của con người vẫn là một trong những câu hỏi thách thức các nhà khoa học trong suốt lịch sử nửa thế kỷ của ngành trí tuệ nhân tạo.

Những năm gần đây, với sự tiến bộ về năng lực tính toán và khả năng lưu trữ của máy tính, các tiếp cận mới về xử lý ngôn ngữ tự nhiên đã thu được những thành công đáng khích lệ, đặc biệt là cách tiếp cận sử dụng phương pháp thống kê trên kho ngữ liệu lớn.

Xử lý ngôn ngữ tự nhiên là xử lý ngôn ngữ nói và ngôn ngữ viết của con người nên nó mang nét đặc thù riêng cho mỗi ngôn ngữ, mỗi quốc gia. Ngành xử lý ngôn ngữ tiếng Việt mới được quan tâm nghiên cứu. So với nhiều nước thì sau họ rất nhiều năm. Tuy nhiên người đi sau cũng có những thuận lợi, chúng ta có thể nhanh chóng học hỏi công nghệ, kinh nghiệm từ các nước đi trước, định hướng được mục tiêu, cách thức tiến hành để sớm tiếp cận được trình độ công nghệ tiên tiến một cách nhanh nhất.

Trong xử lý ngôn ngữ tự nhiên, kho ngữ liệu là một nguồn tài nguyên quan trọng. Một mặt nó được dùng để huấn luyện các mô hình phân tích ngôn ngữ như tách câu, tách từ, gán nhãn từ loại, phân tích cú pháp. Mặt khác, nó còn được dùng để kiểm chứng độ tin cậy của các mô hình ngôn ngữ đó. Trong khuôn khổ làm luận văn tốt nghiệp hệ cao học em xin trình bày đề tài nghiên cứu “Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt”. Đây cũng là một phần việc trong đề tài cấp Nhà nước về xử lý ngôn ngữ và tiếng nói tiếng Việt giai đoạn 2007-2009.

Bài luận văn trình bày một số nội dung nghiên cứu sau:

Chương 1 - Giới thiệu tổng quan một số vấn đề trong xử lý ngôn ngữ tự nhiên nói chung và xử lý ngôn ngữ tiếng Việt nói riêng. Tìm hiểu khái quát một số bài toán liên quan tới việc xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt, các hướng tiếp cận để giải các bài toán đó.

Chương 2 – Giới thiệu một số công cụ trong xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt.

ã Công cụ cho bài toán tách từ

ã Công cụ cho bài toán gán nhãn từ loại

ã Công cụ cho bài toán phân cụm

ã Công cụ cho bài toán phân tích cú pháp

Chương 3 – Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt vnSynAF.

ã Giới thiệu về kho ngữ liệu có chú giải ngữ pháp

ã Giới thiệu về mô hình SynAF - mô hình chuẩn quốc tể chú giải cú pháp, mã hoá dựa trên định dạng XML có thể định dạng và mã hoá kho ngữ liệu tiếng Việt.

ã Bộ công cụ vnSynAF

Thực hiện được đề tài này, em đã vận dụng những kiến thức học được trong giai đoạn học đại học, học cao học, những kiến thức tích luỹ trong quá trình công tác thực tế, đồng thời học hỏi và nghiên cứu thêm về lĩnh vực ngôn ngữ học, tiếng Việt. Những công việc em đã thực hiện là sản phẩm bước đầu của quá trình nghiên cứu, song do kiến thức bản thân còn có hạn chế, thời gian thực hiện đề tài ít mà công việc thì lại tương đối nhiều nên không tránh được những hạn chế thiếu sót. Em rất mong muốn các thầy cô giáo, các nhà chuyên môn hỗ trợ chỉ bảo thêm.

Em xin được tỏ lòng cảm ơn sâu sắc tới TS.Nguyễn Thị Minh Huyền đã tân tình hướng dẫn và giúp đỡ, tạo mọi điều kiện về phương tiện và tài liệu để em hoàn thành bài luận văn này. Em cũng xin chân thành cảm ơn tới các thầy cô, các anh chị trong bộ môn Tin học đã ủng hộ, động viên giúp đỡ em trong suốt quá trình học tập và làm luận văn.

Và cuối cùng em cũng xin được cảm ơn tới bạn bè, toàn thể gia đình và người thân đã ủng hộ động viên em trong thời gian nghiên cứu học tập tại trường Đại học Khoa học Tự nhiên.

Luận Văn Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt

Thúy Viết Bài New Member
Thành viên vàng

Các file đính kèm:

luanvan-.doc

Luận Văn Phát triển ứng dụng cho mạng xã hội facebook

Luận Văn Nghiên cứu và phát triển hệ thống xây dựng và vận hành tự động webbot thu thập thông tin trên intern

Luận Văn Nghiên cứu và phát triển hệ thống Botnet tracking theo dõi và giám sát các mạng Botnet

Đồ Án Đồ án tốt nghiệp: Nghiên cứu, phát triển các bộ nguồn DC-DC dựa trên nguyên lý cộng hưởng

Luận Văn Nghiên cứu và xây dựng bộ công cụ phát triển phần mềm nhúng e-studio, phần bare project

Tải tài liệu

Diễn đàn

Chứng nhận bảo mật

Theo dõi chúng tôi

Tìm kiếm hữu ích

Luận Văn Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt

Thúy Viết Bài New Member Thành viên vàng

Các file đính kèm:

luanvan-.doc

Luận Văn Phát triển ứng dụng cho mạng xã hội facebook

Luận Văn Nghiên cứu và phát triển hệ thống xây dựng và vận hành tự động webbot thu thập thông tin trên intern

Luận Văn Nghiên cứu và phát triển hệ thống Botnet tracking theo dõi và giám sát các mạng Botnet

Đồ Án Đồ án tốt nghiệp: Nghiên cứu, phát triển các bộ nguồn DC-DC dựa trên nguyên lý cộng hưởng

Luận Văn Nghiên cứu và xây dựng bộ công cụ phát triển phần mềm nhúng e-studio, phần bare project

Thúy Viết Bài New Member
Thành viên vàng