Luận Văn Bài toán phân lớp văn bản và áp dụng phân lớp dữ liệu tài chính ngân hàng

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC

    LỜI MỞ ĐẦU 1

    Chương 1. BÀI TOÁN PHÂN LỚP VĂN BẢN 3

    1.1. Khái niệm .3
    1.2. Phân loại bài toán phân lớp văn bản .5
    1.3. Mô hình phân lớp văn bản .5
    1.3.1. Mô hình phân lớp văn bản .5
    1.3.2. Quá trình xây dựng bộ phân lớp văn bản 6
    1.3.3. Quá trình tiền xử lý dữ liệu .7
    1.3.3.1. Phương pháp biểu diễn tài liệu .8
    1.3.3.2. Phương pháp lựa chọn thuộc tính .10
    1.3.4. Đánh giá 12
    1.3.4.1. Đánh giá cho bài toán phân lớp 12
    1.3.4.2. Đánh giá dựa vào độ tương tự 14

    Chương 2. CÁC PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN 17

    2.1. Thuật toán K người láng giềng gần nhất 17
    2.2. Mô hình cây quyết định (Decision Tree) .18
    2.3. Thuật toán máy hỗ trợ vector (SVM – Suport Vector Machine) .21
    2.4. Mô hình Entropy cực đại 26
    2.4.1. Định nghĩa nguyên lý entropy cực đại 26
    2.4.2. Các ràng buộc và đặc trưng .27
    2.4.3. Mô hình Entropy cực đại .27
    2.3.4. Entropy cực đại cho phân lớp văn bản 28

    Chương 3. BÀI TOÁN PHÂN LỚP VĂN BẢN TÀI CHÍNH NGÂN HÀNG TIẾNG VIỆT 30

    3.1. Một số đặc trưng của dữ liệu tài chính ngân hàng trong tiếng Việt.30
    3.2. Xây dựng một số lớp trong lĩnh vực tài chính ngân hàng .31
    3.3. Bài toán phân lớp văn bản tài chính ngân hàng trong Tiếng Việt .33
    3.3.1. Phát biểu bài toán: .33
    3.3.2. Phương pháp phân lớp .34
    3.3.3. Mô hình của bài toán phân lớp văn bản tài chính ngân hàng 34

    Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ 38

    4.1. Dữ liệu và chương trình 38
    4.2. Môi trường thực nghiệm .39
    4.3. Thiết kế và kết quả thực nghiệm 40
    4.3.1. Thiết lập thông số cho Entropy cực đại .40
    4.3.2. Kết quả thực nghiệm .40
    4.4. Đánh giá kết quả thực nghiệm .44

    KẾT LUẬN 45

    TÀI LIỆU THAM KHẢO .46

    Tài liệu Tiếng Việt 46
    Tài liệu Tiếng Anh 46
    DANH SÁCH CÁC TỪ DỪNG 49

    LỜI MỞ ĐẦU

    Hiện nay, sự phát triển mạnh mẽ của Internet đã dẫn đến sự bùng nổ thông tin về nhiều mặt kể cả nội dung lẫn số lượng. Chỉ bằng một thao tác tìm kiếm đơn giản, ta có thể nhận về một khối lượng khổng lồ các trang web có chứa thông tin liên quan tới nội dung cần tìm kiếm. Tuy nhiên, chính sự dễ dàng này cũng mang đến cho con người rất nhiều khó khăn trong việc chiết lọc ra các thông tin có ích để thu được các tri thức mới. Phát hiện tri thức và khai phá dữ liệu là câu trả lời mới nhất cho vấn đề này nhằm phát hiện ra các tri thức mới từ khối dữ liệu khổng lồ mà con người có được.

    Trong thời gian gần đây, cùng với sự phát triển của nền kinh tế đất nước là sự phát triển vượt bậc của nền công nghệ thông tin. Tin học đã được áp dụng trong tất cả các lĩnh vực như kinh tế, thương mại, y tế, ngân hàng Hầu hết các lĩnh vực này đề lưu trữ một cơ sở dữ liệu rất lớn. Các kỹ thuật thống kê truyền thống và các công cụ quản lý dữ liệu trước đây không đáp ứng được nhu cầu phân tích tập dữ liệu lớn này.

    Từ đòi hỏi đó phải có những phương pháp tiếp cận mới để khai phá tri thức trong các cơ sở dữ liệu.

    Trong các loại dữ liệu thì dữ liệu văn bản là phổ biến nhất. Khai phá dữ liệu văn bản là sự khảo sát và phân tích một tập lớn các văn bản không có cấu trúc một cách tự động hoặc bán tự động để khám phá ra những tri thức mới. Với lượng thông tin dạng văn bản đồ sộ của Internet, một yêu cầu lớn đặt ra là làm sao tổ chức và tìm kiếm thông tin có hiệu quả nhất. Phân lớp thông tin là một trong những giải pháp hợp lý cho vấn đề nêu trên. Bài toán phân lớp văn bản là một trong những bài toán cơ bản của khai phá dữ liệu văn bản. Cho trước một tập dữ liệu văn bản, bài toán thực hiện quá trình gán nhãn (phân lớp) cho từng tài liệu tương ứng với nội dung của nó thông qua bộ phân lớp.

    Luận văn tập trung nghiên cứu về bài toán phân lớp văn bản, cụ thể là những văn bản mang thông tin về lĩnh vực ngân hàng, tài chính với mục đích phân lớp cho những tài liệu này theo những lớp ứng dụng cụ thể trong lĩnh vực ngân hàng, tài chính. Vấn đề phân lớp văn bản đã được đặt ra từ rất lâu và đến nay đã có một số phương pháp hiệu quả thực hiện việc phân lớp văn bản Tuy nhiên việc phân lớp cho dữ liệu tiếng
    việt về lĩnh vực ngân hàng, tài chính là một bài toán mới và cho đến nay chưa có một kết quả nào được công bố. Thông qua việc tìm hiểu một số phương pháp tiếp cận bài toán thường được sử dụng như phương pháp K-người láng giềng, Máy hỗ trợ vector (SVM – Suport Vector Machine), Phương pháp sử dụng mô hình Entropy cực đại và nghiên cứu ưu nhược điểm của từng phương pháp, luận văn hướng tới nghiên cứu áp
    dụng mô hình Entropy cực đại cho bài toán này.

    Luận văn bao gồm 4 chương có nội dung khái quát như sau:

    Chương 1. Bài toán phân lớp văn bản phát biểu và trình bày về các khái niệm và những nội dung cơ bản về bài toán phân lớp văn bản. Chương này cũng giới thiệu một số phương pháp đánh giá cho bài toán phân lớp và độ đo dựa vào khoảng cách và độ tương tự giữa các lớp.

    Chương 2. Các phương pháp giải quyết bài toán phân lớp văn bản. Trình bày một số thuật toán phân lớp văn bản điển hình, chỉ ra ưu nhược điểm của từng phương pháp. Qua đó lựa chọn phương pháp tốt nhất để thử nghiệm trong tiếng Việt.

    Chương 3. Bài toán phân lớp văn bản tài chính ngân hàng. Trình bày các đặc điểm đặc trưng của dữ liệu tài chính ngân hàng, xây dựng tập nhãn (lớp) trong lĩnh vực này và mô tả mô hình phân lớp sử dụng phương pháp Entropy cực đại đối với tập văn bản đó.

    Chương 4. Thực nghiệm và đánh giá. Trong chương này trình bày các kết quả thực nghiệm thu được khi áp dụng mô hình Entropy cực đại trên tập dữ liệu tài chính ngân hàng tiếng Việt. Đưa ra một số nhận xét, đánh giá kết luận.

    Trong phần kết luận, luận văn tóm lại những công việc đã thực hiện trong thời gian qua và các kết quả đã đạt được, đồng thời cũng đề cập đến những điểm còn hạn chế của luận văn và đề ra phương hướng nghiên cứu trong thời gian tới.
     

    Các file đính kèm:

Đang tải...