Luận Văn Tiếp cận khai phá dữ liệu văn bản thử nghiệm ứng dụng phương pháp Naive Bayse trong bóc lột thư giác

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỞ ĐẦU


    Ngày nay sự phát triển không ngừng của công nghệ thông tin, đặc biệt là sự ra đời của Internet đã đưa con người lên một tầm cao mới. Sự việc đó dẫn đến bùng nổ thông tin làm cho những nhà quản lý rơi vào tình trạng “ngập lụt thông tin" trong đó một lượng thông tin, tri thức có ích bị che dấu. Khai phá dữ liệu trong đó có lĩnh vực khai phá dữ liệu văn bản là một lĩnh vực khoa học liên ngành mới xuất hiện gần đây nhằm đáp ứng nhu cầu này. Nhiều kỹ thuật khai phá dữ liệu văn bản đã được nghiên cứu và phát triển như Naïve Bayes, Cây quyết định, phương pháp Support vector machine, trong đó, phương pháp Naïve Bayes thu hút nhiều quan tam nghiên cứu và ứng dụng.


    Sự ra đời của các dịch vụ trên Internet làm cho nhu cầu trao đổi thông tin, tìm kiếm thông tin của con người được đáp ứng một cách tốt nhất và nhanh nhất.


    Tốc độ phát triển của các dịch vụ thư điện tử ngày nay và những lợi ích mà nó mang lại cho chúng ta là rất lớn. Tuy nhiên nó cũng có thể gây ra những thiệt hại to lớn nếu không biết cách loại bỏ và phòng chống nó. Một trong những vấn đề nghiêm trọng cần giải quyết hiện nay trong các thư điện tử đó là nạn thư rác hay còn gọi là “spam”. Với lý do đó, dưới sự hướng dẫn của thầy giáo hướng dẫn, Đại tá, PGS.TS Nguyễn Bá Tường, tôi nhận đề tài “ Tiếp cận khai phá dữ liệu văn bản và thử nghiệm ứng dụng phương pháp Naive Bayse trong bộ lọc thư rác tự động”.
























    CHƯƠNG 1


    TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN








    1.1. Phát hiện tri thức trong cơ sở dữ liệu và khai phá dữ liệu


    Khai phá dữ liệu (Data Mining) là quá trình phát hiện những tri thức hữu ích ẩn chứa trong cơ sở dữ liệu hay các kho chứa thông tin khác. Khai phá dữ liệu là một bước trong quy trình phát hiện tri thức trong CSDL (Knowledge Discovery in

    Dabases - KDD). Theo nhiều tài liệu khác nhau thì tiến trình KDD nói chung đều bao gồm 5 bước cơ bản sau đây:


    ã Trích lọc dữ liệu
    ã Tiền xử lý dữ liệu
    ã Biến đổi dữ liệu
    ã Khai phá dữ liệu
    ã Đánh giá và biểu diễn tri thức
    1.2. Khai phá dữ liệu văn bản


    - Khai phá dữ liệu văn bản là việc trích ra, lấy ra các thông tin có ích, chưa được biết đến còn tiềm ẩn trong các kho dữ liệu văn bản lớn.


    - Khai phá dữ liệu văn bản là việc thu thập và phân tích dữ liệu bằng các công cụ tự động hoặc bán tự động từ các nguồn tài liệu đã có khác nhau để có được các tri thức mới, chưa được biết đến trước đó.


    1.3. Các bài toán trong lĩnh vực khai phá dữ liệu văn bản


    1.3.1. Phát hiện xu hướng văn bản


    Đây là bài toán phát hiện các xu hướng, các luật chưa được biết đến trong các CSDL text lớn.












    1.3.2. Tìm kiếm văn bản


    Tìm kiếm văn bản là quá trình tìm các văn bản trong một kho dữ liệu theo các yêu cầu của người dùng. Ở đây, các yêu cầu là các truy vấn và thường được biểu diễn dưới dạng thuật ngữ hay biểu thức logic giữa các thuật ngữ.


    1.3.3. Phân loại văn bản


    Phân loại văn bản tức là gán văn bản vào một hoặc một số nhóm văn bản đã được biết trước. Phân loại văn bản có hai dạng là phân loại nhị phân và phân loại theo cấp độ.


    1.3.4. Lập nhóm văn bản

    Lập nhóm văn bản là bài toán tự động lập ra các nhóm văn bản từ một tập các văn bản sao cho các văn bản trong cùng một nhóm thì tương tự với nhau nhiều hơn so với các văn bản ở các nhóm khác nhau. Người sử dụng có thể chỉ định số nhóm cần lập hoặc hệ thống tự động tính số nhóm sao cho phù hợp nhất.


    1.3.5. Tóm tắt văn bản


    Tóm tắt văn bản là bài toán tìm ra thể hiện nội dung của một văn bản thông qua một vài đoạn văn bản, hoặc thông qua các câu quan trọng nhất của văn bản đó.


    1.3.6. Dẫn đường văn bản


    Bài toán dẫn đường văn bản là sự tổ hợp giữa bài toán tìm kiếm văn bản và phân loại văn bản. Giống như phân loại văn bản, bài toán dẫn đường đưa các văn bản về các nhóm khác nhau. Tuy nhiên nó cũng giống bài toán tìm kiếm, mỗi nhóm văn bản được gán với các thông tin cần thiết của một hay nhiều nhóm người dùng.


















    1.3.7. Trích chọn từ khóa


    Bài toán trích chọn từ khoá, thực hiện việc trích ra được các từ khoá quan trọng nhất của văn bản, thể hiện đặc thù về chuyên môn của văn bản đó.


    1.4. Các khó khăn trong khai phá dữ liệu văn bản


    Tính đa chiều (high dimensonality): Số thuật ngữ trong một văn bản lớn dẫn
    đến số chiều của không gian vector sẽ rất lớn.


    Tính khả cỡ (scability): Các CSDL lớn thường chứa hàng trăm nghìn văn bản


    Tính chính xác (accuracy): Bất kỳ ngôn ngữ nào cũng đều có sự nhập nhằng.


    Tri thức tiên nghiệm: Trong nhiều bài toán chẳng hạn như bài toán lập nhóm văn bản thì người sử dụng phải xác định trước một số tham số đầu vào như số nhóm văn bản cần lập.


    1.5. Các bước tiền xử lý văn bản

    Quá trình tiền xử lý đóng vai trò quan trọng trong việc ảnh hưởng đến hiệu năng và độ chính xác của các giải thuật khai phá dữ liệu. Các công việc chính trong quá trình tiền xử lý là tách thuật ngữ và giảm số chiều thuật ngữ.


    1.5.1. Tách thuật ngữ


    Tách thuật ngữ có thể được hiểu là quá trình phân tách chuỗi ký tự trong văn
    bản thô ban đầu thành các từ có nghĩa.


    Các giải thuật tách thuật ngữ Tiếng Việt


    Bài toán: Nhập vào một câu tiếng Việt bất kỳ, hãy tách câu đó thành những đơn vị từ vựng (từ), hoặc chỉ ra những âm tiết nào không có trong từ điển (phát hiện đơn vị từ vựng mới).








    a) Tách thuật ngừ theo độ dài từ dài nhất


    Đây là phương pháp tách thuật ngữ đơn giản và dễ cài đặt. Phương pháp này
    sử dụng một từ điển từ vựng để làm cơ sở phân tách các thuật ngữ.


    b) Tách thuật ngữ tiếng Việt bằng phương pháp đồ thị


    Phương pháp tách thuật ngữ bằng đồ thị quy việc phân tách câu về việc tìm
    đường đi trên một đồ thị có hướng, không có trọng số.


    Như đã nói ở trên, cách phân tách câu đúng đắn nhất tương ứng với đường đi qua ít cung nhất trên đồ thị. Do đó ta có thể quy bài toán liệt kê các phương án phân tách câu về bài toán tìm tất cả những đường đi ngắn nhất từ đỉnh 0 đến đỉnh n của đồ thị phân tách câu.


    1.5.2. Giảm chiều cho tập thuật ngữ


    Có rất nhiều kỹ thuật để giảm chiều của tập thuật ngữ bao gồm:


    ã Tìm gốc từ
    ã Sử dụng từ điển đồng nghĩa
    ã Loại bỏ các từ dừng
    ã Chỉ trích chọn một phần văn bản
    ã Loại bỏ những thuật ngữ có trọng số thấp nhất
    ã Các kỹ thuật dựa trên lý thuyết thông tin











    CHƯƠNG 2


    MỘT SỐ CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP PHÂN LOẠI VĂN
    BẢN








    2.1 Giới thiệu bài toán phân loại văn bản


    2.1.1 Sự cần thiết phải phân loại văn bản


    Nhiều năm trở lại đây, các loại thông tin đã phát triển không ngừng về cả số lượng và chất lượng. Việc bùng nổ thông tin cũng làm cho vấn đề tổ chức, quản lí, phân loại thông tin ngày càng có vai trò quan trọng. Để đáp ứng được yêu cầu này thì trước tiên phải tiến hành phân loại văn bản.
    2.1.2 Định nghĩa phân loại văn bản
     

    Các file đính kèm:

Đang tải...