Đồ Án Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    GIỚI THIỆU

    Thuật toán SOM là một biểu tượng của lớp mạng neural học không giám sát. Trong đó, sơ khai đầu tiên của SOM được phát minh bởi giáo sư Teuvo Kohonen tại trung tâm nghiên cứu của mạng Neural- Network (1981-1982). Ông đã ứng dụng SOM vào rất nhiều những chương trình phiên bản một cách nhanh chóng và hiệu quả.
    Trọng tâm của SOM là đưa và hiển thị dữ liệu hoặc cụm dữ liệu một cách rõ ràng lên mảng một hoặc hai chiều. Nếu các biến trong bản ghi dữ liệu là các vector thì các biến đó sẽ được mô tả như một dữ liệu thống kê, được sử dụng độc lập các mức xám hoặc các mã màu nền riêng. Dùng SOM khai phá để tìm ra được mối quan hệ hữu ích, phụ thuộc lẫn nhau giữa các biến và cấu trúc của dữ liệu.
    Lĩnh vực khai phá dữ liệu văn bản cho đến nay đã đạt mục tiêu chính: đó là chứng minh được bằng lý thuyết và thực nghiệm rằng bản đồ văn bản tự tổ chức là một công cụ trọng tâm có nhiều triển vọng, và việc xây dựng những bản đồ như vậy là hoàn toàn tự động. Tuy nhiên, mọi thành quả chỉ mới là ở giai đoạn sơ khai, còn tồn đọng rất nhiều vấn đề không thể giải quyết một cách bao quát được, đặc biệt quan trọng là vấn đề chọn lựa đặc trưng cho nội dung văn bản trong quá trình xây dựng bản đồ, cũng như việc đánh giá chất lượng bản đồ kết quả. Đó là những điều rất đáng phải suy nghĩ
    Tính cấp thiết của đề tài nằm ở những mối quan tâm đó - những gì còn chưa đầy đủ và không thể bao quát được của mô hình đã có - khi ứng dụng vào của Tiếng Việt. Trong giai đoạn tiền xử lý, bao hàm trọng tâm là phương pháp chọn lựa đặc trưng cho văn bản, thật ra còn quyết định chất lượng bản đồ nhiều hơn là các yếu tố khác. Sự triển khai lĩnh vực khai phá dữ liệu văn bản trong các ngôn ngữ đặc thù thì dường như là những đề tài vô tận.
    Đề tài nghiên cứu mọi khía cạnh tổng quát của mô hình khai phá dữ liệu văn bản với thuật toán bản đồ tự tổ chức, sau đó triển khai với một ngữ liệu văn bản Tiếng Việt
    Nội dung cụ thể của đề tài bao gồm việc trình bày tổng quan về các lĩnh vực nghiên cứu có liên quan, thu thập, tổ chức ngữ liệu văn bản và tiền xử lý; xây dựng mới và nghiên cứu các thuật toán chọn lựa đặc trưng: xác định ngữ đoạn, xác định cụm từ, xác định các từ vựng theo chỉ số hữu ích từ vị của Rosengren, xác định các từ khóa theo quan điểm Guiraud; nghiên cứu các phương pháp mã hóa văn bản dựa trên từ vựng, cụm từ, ngữ đoạn;nghiên cứu thuật toán bản đồ tự tổ chức (Self Organizing Map), thuật toán chiếu ngẫu nhiên; đánh giá bản đồ văn bản theo những phương pháp khác nhau.
    Ngoài ra, đề tài còn triển khai hai vấn đề quan trọng, đó là cơ sở của việc khám phá và quản lý tri thức trên bản đồ: gom nhóm trên bản đồ và gán nhãn trên bản đồ. Ứng dụng ngữ đoạn trong việc gán nhãn các đơn vị bản đồ và các vùng văn bản. Những vấn đề này đã được một số tác giả nước ngoài nghiên cứu bước đầu.











    GIỚI THIỆU

    3
    CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

    . 4
    1.TIẾNG VIỆT. 4
    1.1. Giới thiệu đặc trưng của ngữ pháp tiếng Việt 4
    1.2 Khó khăn trong việc nhận dạng từ Tiếng Việt 6
    2. NHỮNG PHƯƠNG PHÁP PHÂN TÍCH, KHAI PHÁ DỮ LIỆU 6
    2.1 Hiển thị trực quan dữ liệu đa chiều. 7
    2.2 Các phương pháp gom nhóm dữ liệu. 7
    2. 3 Các phương pháp chiếu. 8
    3. KHAI PHÁ DỮ LIỆU VĂN BẢN TIẾNG VIỆT. 9
    3.1.Những chức năng chính của một hệ thống khai phá dữ liệu văn bản. 9
    3.2.Nhu cầu thông tin và những vấn đề liên quan đến văn bản. 10
    3.3.Khai phá dữ liệu văn bản với bản đồ biểu diễn trực quan

    . 11
    CHƯƠNG 2: BẢN ĐỒ TỰ TỔ CHỨC – SOM

    . 13
    2.1 Nội dung thuật toán. 13
    2.2 Những tính chất đặc biệt. 16
    2.3 Đặc điểm toán học. 17
    2.4 Topology và qui luật học. 19
    2.5 Lân cận của nhân. 20
    2.6 Lỗi lượng tử hóa trung bình.

    22
    Chương 3: ỨNG DỤNG SOM TRONG KHAI PHÁ DỮ LIỆU VĂN BẢN TIẾNG VIỆT

    23
    1. BIỂU DIỄN VĂN BẢN TIẾNG VIỆT. 23
    1 .1 Mô hình biểu diễn văn bản. 23
    1.2 Mô hình không gian vector (Vector Space Model- VSM). 23
    1.3.Trọng số từ vựng. 24
    1.4 Phương pháp chiếu ngẫu nhiên. 25
    2. BẢN ĐỒ VĂN BẢN TIẾNG VIỆT. 30
    2.1 Mô hình tổng quát. 30
    2.2 Tiền xử lý. 31
    2.3 Mã hóa văn bản. 33
    2.4 Xây dựng bản đồ. 34
    3. PHƯƠNG PHÁP PHÂN TÍCH NGỮ ĐOẠN. 39
    3.1 Cơ sở phân tích ngữ đoạn. 39
    3.2 Thuật toán xác định trung tâm ngữ đoạn. 41
    3.3 Minh họa thuật toán.

    43
    CHƯƠNG 4: QUẢN LÝ VÀ KHAI THÁC TRI THỨC TRÊN BẢN ĐỒ VĂN BẢN TỰ TỔ CHỨC.

    45
    4.1 GOM NHÓM TRÊN BẢN ĐỒ VĂN BẢN TỰ TỔ CHỨC. 45
    4.1.1 Những khoảng cách tiêu chuẩn dùng trong gom nhóm. 45
    4.1.2 Gom nhóm trên SOM. 47
    4.1.3 Thuật toán gom nhóm. 47
    4.2. GÁN NHÃN BẢN ĐỒ. 47
    4.3 CƠ CHẾ TRÌNH BÀY BẢN ĐỒ VĂN BẢN. 48
    Chương 5: KẾT LUẬN 50
    TÀI LIỆU THAM KHẢO 51
     

    Các file đính kèm:

Đang tải...