Báo Cáo ứng dụng thuật toán phân lớp rút trích thông tin văn bản fsvm trên internet

Thảo luận trong 'Điện - Điện Tử' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    TÓM TẮT: Bài báo đã sử dụng kỹ thuật rút trích thông tin tự động và phân loại văn bản bằng phương pháp SVM (Support vector machine), FSVM (Fuzzy SVM), kết hợp với phân loại đa lớp mờ. Kết quả ứng dụng của nghiên cứu dùng trong rút trích thông tin, thu thập tin tức của các website hành chính của các Sở, ban, ngành thành phố nhằm cung cấp cho người dân, doanh nghiệp các thông tin về chủ trương chính sách, thông tin của thành phố trong hoạt động hành chánh công.

    1. GIỚI THIỆU
    [​IMG]Hiện đã có một số nghiên cứu về rút trích văn bản và phân loại văn bản, trong bài báo này nhóm nghiên cứu tìm hiểu các kỹ thuật trên và áp dụng vào một ứng dụng thực tế là thu thập và phân loại thông tin trên các trang báo điện tử phục vụ cho việc cung cấp tin tức trên các trang web hành chính thành phố. Các thông tin này có thể do các cơ quan tự cung cấp hoặc thu thập được trên các trang web của Bộ, Chính phủ và các trang báo điện tử khác. Phần thu thập thông tin sử dụng phương pháp nhận dạng mẫu [2],[9], [11] để có thể tự động rút trích thông tin từ các trang web tin tức. Phần phân loại thông tin tác giả sử dụng kỹ thuật phân loại văn bản Fuzzy Support Vector Machines (FSVMs) [12] kết hợp với phân loại đa lớp mờ [5] do kết quả phân loại rất tốt của phương pháp này theo các đề tài đã nghiên cứu 0, [5], [8], [12]. Sơ đồ thực hiện gồm hai bước chính là thu thập thông tin và phân loại thông tin cụ thể như sau:
















    Hình 1. Sơ đồ thực hiện.

    2. THU THẬP THÔNG TIN TRÊN TRANG WEB
    Hiện nay rút trích thông tin trên web thường được thực hiện bằng cách sử dụng các wrapper. Một wrapper có thể được xem như là một thủ tục được thiết kế để có thể rút trích được những nội dung cần quan tâm của một nguồn thông tin nào đó. Đã có nhiều công trình nghiên cứu khác nhau trên thế giới sử dụng nhiều phương pháp tạo wrapper khác nhau để hiện



    thực rút trích thông tin trên web. Các wrapper này được xây dựng bằng tay hoặc phát sinh tự động dựa trên các vùng thông tin người dùng xác định trước trên các trang web mẫu. Wrapper xây dựng theo các phương pháp này có nhược điểm là phải cập nhật lại khi có sự thay đổi cách thức trình bày trên trang web.
    Phương pháp rút trích thông tin bằng cách so trùng hai trang web được xây dựng dựa trên phương pháp nhận dạng mẫu ([2]) cho phép rút trích chính xác vùng thông tin mang nội dung chính trên các trang web. Phương pháp này được thực hiện bằng cách so trùng trang web cần rút trích với một trang web mẫu để xác định khung trình bày chung của hai trang web, từ khung trình bày chung ta có thể rút trích ra được nội dung chính của trang web cần rút trích. Phương pháp này không đòi hỏi người dùng phải biết các ngôn ngữ xây dựng wrapper hay phải thay đổi wrapper khi cách trình bày thay đổi do trang web mẫu có thể lấy trực tiếp từ trang chủ và có cùng cách trình bày với trang cần rút trích. Như ví dụ minh họa hình 2: phần thông tin trong khung nét liền là thông tin về khung trình bày giống nhau giữa hai trang web, phần thông tin trong khung nét đứt là phần thông tin khác nhau mang nội dung chính của trang web, đây là nội dung ta cần lấy.

    [​IMG]

    nh 2. Rút trích thông tin bằng phương pháp so trùng.

    2.1.út trích thông tin từ trang web bằng phương pháp so trùngĐể thực hiện rút trích thông tin bằng phương pháp so trùng, hai trang web được phân tích thành hai cây đa phân có gốc A và B rồi tiến hành so trùng trên hai cây đa phân này. Nhóm nghiên cứu sử dụng thư viện HtmlParser để phân tích trang web thành cây đa phân có gốc. Cây đa phân có ba loại nút: TagNode, TextNode và RemarkNode.
    Định nghĩa.Ma trận W: số tối đa các cặp nút so trùng giữa các cây con cấp một của A và B
    Ma Trận T: trong đó T[i, j] là độ so trùng của hai rừng cây con cấp 1: A1, A2, , Ai của A và B1, B2 , , Bj của B. T[i,j] được tính dựa trên T[i,j-1], T[i-1][j], và T[i-1][j-1]). Cần thực hiện các phép biến hoán vị như sau:
    T1 = T[i, j-1]
    T2 = T[i-1, j]
    T3 = T[i-1, j-1]



    T[i, j] = max (T1, T2, T3 + W[i, j])
    Ma trận G : Trong đó G[j] lưu giữ danh sách các tham khảo đến các nút rút trích được của cây con cấp một thứ i của nút gốc A khi thực hiện giải thuật so trùng hai cây con cấp một thứ i của A và thứ j của B.
    Danh sách M: Trong đó M[j] lưu giữ danh sách các cặp nút được so trùng khi tiến hành giải thuật so trùng giữa hai rừng cây con cấp 1: A1, A2, , Ai của A và B1, B2 , , Bj của B.
    Hai nút là giống nhau nếu:
    Nếu hai nút cùng có kiểu TagNode, thì chỉ cần TagName của chúng giống nhau thì xem như hai nút giống nhau.
    Nếu hai nút cùng có kiểu TextNode hay RemarkNode thỉ chỉ khi toàn bộ nội dung văn bản của nút này giống nội dung của nút kia thì hai nút mới được xem là giống nhau. Các trường hợp khác ngoài hai trường này thì đều được xem là hai nút khác nhau.
    Đầu vào: Hai nút gốc cây đa phân của trang web cần rút trích (A) và trang web mẫu (B). Đầu ra: Số nút tối đa của việc so trùng : weight; danh sách các tin rút trích được : retList. Thuật giải so trùng cụ thể như sau:
    TH 1 : Hai nút gốc A và B không giống nhau:Danh sách các tin rút trích được trả về của giải thuật: retList = null
    Số nút tối đa của của việc so trùng giữa A và B: weight = 0
    TH 2 : Nút A không có nút conDanh sách các tin rút trích được trả về của giải thuật: retList = null
    Số nút tối đa của của việc so trùng giữa A và B: weight = 1
    TH 3: Nút A có nút con, nút B không có nút conDanh sách các tin rút trích được trả về của giải thuật: retList = các nút con chứa tin tức của nút A
    Số nút tối đa của của việc so trùng giữa A và B: weight = 1
    TH 4: Nút A và B đều có nút conKhởi tạo:
    Gọi n, m lần lượt là số cây con cấp 1 của A và B Với mọi i = 1 n, j = 1 m
    T[j] = 0
    M[j] = null G[j] = null
    Tiến hành so trùng:
    Với mọi i = 1 n, j = 1 m T1 = T[j - 1]
    T2 = T[i - 1][j]
    Gọi đệ quy giải thuật so trùng trên cây con thứ i của A và j của B:
     

    Các file đính kèm:

Đang tải...