Luận Văn Xử lý các văn bản tiếng Việt

Thảo luận trong 'Văn Học' bắt đầu bởi Bích Tuyền Dương, 25/1/13.

  1. Bích Tuyền Dương

    Bài viết:
    2,590
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    LỜI NÓI ĐẦU

    Xử lý ngôn ngữ tự nhiên nói chung và phân tích cú pháp ngôn ngữ tự nhiên nói riêng là những vấn đề quan trọng của trí tuệ nhân tạo, được nhiều nhà khoa học trên thế giới quan tâm nghiên cứu trong suốt 50 năm qua. Các ứng dụng trong lĩnh vực này rất phong phú. Ta có thể điểm qua một số ứng dụng chính như dịch máy, kiểm tra và chữa lỗi văn bản, chuyển giao diện người – máy sang ngôn ngữ tự nhiên, nhận dạng chữ viết, thiết kế người máy có khả năng hiểu và nói được tiếng của con người
    Bài toán phân tích cú pháp ngôn ngữ tự nhiên bằng máy tính là bài toán lớn và phức tạp. Với tiếng Việt - một ngôn ngữ rất phức tạp thì dường như bài toán này lại càng khó khăn hơn. Chúng ta đã có một số công trình nghiên cứu về xử lý tiếng Việt và đã đạt được một số thành công nhất định. Tuy nhiên, cho đến nay bài toán phân tích cú pháp tiếng Việt vẫn chưa được giải quyết triệt để. Một trong những lý do chính là vì chúng ta chưa nghiên cứu một cách có hệ thống ngữ pháp tiếng Việt và cơ sở lý thuyết về xây dựng những trình phân tích cú pháp cho tiếng Việt còn tương đối ít và chưa hoàn chỉnh.
    Các mô hình văn phạm phi ngữ cảnh và mạng chuyển được sử dụng rộng rãi trong mô tả cú pháp không chỉ của các ngôn ngữ lập trình mà cả các ngôn ngữ tự nhiên. Trong khoá luận này, em sẽ tập trung nghiên cứu việc vận dụng các mô hình này cho bài toán cụ thể là phân tích cú pháp tiếng Việt. Ngôn ngữ Việt có nhiều điểm khác so với các ngôn ngữ phổ biến, đã được nghiên cứu nhiều như tiếng Anh hay tiếng Pháp. Do đó, chúng ta không thể áp dụng hoàn toàn những kết quả đã đạt được đối với các ngôn ngữ này vào tiếng Việt.
    Khoá luận trình bày các vấn đề sau:
    ã Khái quát vấn đề phân tích văn bản
    ã Vận dụng các mô hình văn phạm phi ngữ cảnh và mạng chuyển đệ quy để mô tả ngôn ngữ tự nhiên
    ã Nghiên cứu các thuật toán phân tích đối với các văn phạm phi ngữ cảnh và các mạng chuyển
    ã Nghiên cứu một cách hệ thống các đặc điểm của ngữ pháp tiếng Việt
    ã Xây dựng một trình phân tích câu tiếng Anh đơn giản
    ã Xây dựng một trình phân tích câu tiếng Việt đơn giản
    ã Đánh giá kết quả đã đạt được và hướng phát triển
    Để thực hiện được đề tài này, em đã vận dụng những kiến thức được học trong giai đoạn đại cương và chuyên ngành, đồng thời học hỏi và nghiên cứu thêm lĩnh vực ngôn ngữ học và tiếng Việt. Để tạo ra một sản phẩm phần mềm tương đối khả quan cần có sự nghiên cứu lâu dài và có hệ thống trên cả ba lĩnh vực toán học, tin học và ngôn ngữ học. Nếu chỉ có những kiến thức tin học thì sản phẩm tạo ra sẽ không thể mang ứng dụng trong thực tế. Vì vậy, việc đồng thời trau dồi những kiến thức toán học, tin học và ngôn ngữ học là rất cần thiết.
    Những công việc em đã thực hiện mới chỉ là bước đầu trong việc xử lý các văn bản tiếng Việt. Em rất mong muốn tiếp tục nhận được sự hỗ trợ và chỉ bảo tận tình của các thầy cô giáo, các nhà chuyên môn cùng toàn thể các bạn sinh viên quan tâm, yêu thích công việc xử lý ngôn ngữ tự nhiên, vốn rất khó khăn và phức tạp, cần có lòng kiên trì và say mê cao độ.
    Em xin được bày tỏ lòng cảm ơn sâu sắc tới TS. Lương Chi Mai và ThS. Nguyễn Thị Minh Huyền đã tận tình hướng dẫn và giúp đỡ, tạo mọi điều kiện thuận lợi về tài liệu và phương tiện để em hoàn thành khoá luận này. Trong quá trình thực hiện khoá luận, em còn nhận được sự ủng hộ, giúp đỡ và động viên của các anh chị ở Phòng Nhận dạng và Công nghệ Tri thức, Viện Công nghệ Thông tin, Trung tâm Khoa học Tự nhiên và Công nghệ Quốc gia, nơi em thực tập trong thời gian qua. Em xin chân thành cảm ơn.
    Em xin chân thành cảm ơn các thầy cô giáo trong và ngoài Khoa Toán-Cơ-Tin học đã truyền đạt cho em những kiến thức, trang bị cho em những hành trang quý giá trước khi em ra trường. Em xin chân thành cảm ơn các thầy cô giáo trong Bộ môn Tin học đã tạo điều kiện cho em được thực hiện một số xêmina khoa học liên quan đến đề tài, và đóng góp nhiều ý kiến quý báu, kịp thời. Xin cảm ơn các bạn sinh viên đã động viên, giúp đỡ tôi thực hiện đề tài này.

    Mục lục
    LỜI NÓI ĐẦU 1
    Danh mục hình .5
    Danh mục bảng .5
    Chương 1. Mở đầu .7
    1.1. Tổng quan về vấn đề phân tích văn bản . 7
    1.2. Bài toán phân tích cú pháp . 7
    1.3. Nội dung khoá luận 8
    Chương 2. Văn phạm phi ngữ cảnh .9
    2.1. Văn phạm và ngôn ngữ sinh bởi văn phạm 9
    2.2. Văn phạm phi ngữ cảnh . 10
    2.3. Biểu diễn cấu trúc câu 11
    2.4. Phân tích từ trên xuống 14
    2.5. Phân tích từ dưới lên 15
    2.6. Đánh giá hai phương pháp phân tích trên 20
    2.7. Phương pháp phân tích tổng hợp . 21
    Chương 3. Các mạng chuyển .27
    3.1. Văn phạm và ôtômát 27
    3.2. Các yếu tố cơ sở của mạng chuyển đệ quy 29
    3.3. Tính thủ tục của các RTN 33
    3.4. Phân tích từ trên xuống cho mạng chuyển đệ quy . 34
    Chương 4. Xây dựng văn phạm tiếng Việt .37
    4.1. Xây dựng tập từ loại tiếng Việt 37
    4.2. Xây dựng văn phạm tiếng Việt 38
    Khoá luận tốt nghiệp 3
    4.2.1. Danh ngữ 39
    4.2.2. Động ngữ 41
    4.2.3. Tính ngữ 44
    4.2.4. Câu đơn hai thành phần .45
    4.2.5. Văn phạm tiếng Việt .47
    Chương 5. Cài đặt chương trình 49
    5.1. Cấu trúc dữ liệu 49
    5.2. Cài đặt thuật toán . 51
    5.3. Thể hiện kết quả phân tích . 52
    5.4. Đánh giá kết quả . 57
    Phụ lục .58
    Bài toán tách từ vựng tiếng Việt . 58
    1. Đặt bài toán 58
    2. Các bước giải quyết 58
    3. Đánh giá kết quả 60
    Tài liệu tham khảo 63
     

    Các file đính kèm:

Đang tải...