Thạc Sĩ nghiên cứu công nghệ khai phá dữ liệu văn bản, áp dụng cho các trang tin tức trên các thiết bị cầm t

Thảo luận trong 'Khoa Học Công Nghệ' bắt đầu bởi Bống Hà, 1/5/13.

  1. Bống Hà

    Bống Hà New Member

    Bài viết:
    5,424
    Được thích:
    2
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỞ ĐẦU
    Sự phát triển của báo điện tử, một thành quả của Internet nói riêng và của Công
    nghệ thông tin nói chung, đã dẫn tới các thay đổi lớn đối với thói quen đọc báo.
    Internet với ưu thế về tốc độ và khả năng vươn xa cho phép độc giả có thể tiếp
    cận tin tức mọi lúc mọi nơi. Với sự tiến bộ không ngừng của công nghệ viễn
    thông, ngày nay thiết bị cầm tay thông minh ngày càng được phổ biến với giá
    cả ngày càng hạ và đã trở thành một công cụ đắc lực, bình dân và không thể
    thay thế. Tốc độ kết nối Internet không dây được cải thiện không chỉ về tốc độ
    mà cả về phạm vi phủ sóng, trong đó, thế hệ mạng không dây chuẩn WIMAX
    (IEEE 802.16) cho phép khoảng cách phủ sóng tới 50km và thông lượng tối đa
    tới 70Mbps.
    Tất cả những yếu tố trên đây đã trở thành tiền đề cho việc đáp ứng nhu cầu
    xem tin tức trên thiết bị cầm tay, một nhu cầu đã trở thành thiết yếu, hàng
    ngày, hàng giờ của mỗi người dùng cuối các thiết bị này.
    Tuy nhiên, việc đọc báo trên các thiết bị cầm tay còn nhiều bất tiện. Khung
    màn hình hạn chế của thiết bị cầm tay không cho phép hiển thị trang Web được
    thiết kế cho máy tính để bàn: font chữ thường bị lỗi khi xem tin tức trên thiết bị
    cầm tay, các thông tin quảng cáo và banner cũng được tải về cùng với tin tức
    làm giảm đáng kể tốc độ và gây tràn màn hình
    Chính vì vậy, mục đích của luận văn này là xây dựng một hệ thống cho phép
    dễ dàng và thuận tiện xem tin tức tiếng Việt của báo điện tử bất kỳ trên thiết bị
    cầm tay thông minh.
    Luận văn sử dụng thuật toán RTDM (Restricted Top-Down Mapping) do Davi
    de Castro Reis và các đồng tác giả đề xuất [28], một thuật toán được đánh giá
    rất hiệu quả trong việc trích xuất tin tức tức tự động thông qua việc phân tích
    cấu trúc cây.
    Thuật toán RTDM được cải tiến trên thuật toán trích xuất thông tin Web đã có
    để áp dụng đặc thù riêng cho bài toán trích xuất tin tức. Qua thực nghiệm trên
    35 trang tin tức, thuật toán RTDM cho kết quả trung bình 87.71% trích xuất tin
    tức thành công không cần có sự can thiệp của con người. Hiện tại, RTDM
    được sử dụng như là thành phần lõi chính của hệ thống trích xuất tin tức có tên
    là AkwanClipping (Akwan Information Technologies, http://www.akwan.com,

    thuộc công ty Google tại Braxin) cung cấp tin tức hàng ngày của các tờ báo
    phổ biến nhất tại Braxin.
    Chúng tôi đã chi tiết và hoàn thiện các nội dung không công bố của thuật toán
    RTDM, đồng thời tiến hành xây dựng một hệ thống kênh cung cấp tin điện tử
    trên các thiết bị cầm tay thông minh. Hệ thống thử nghiệm đã trích chọn thông
    tin trên các báo điện tử tiếng Việt phổ dụng hiện nay. Chúng tôi đã tiến hành
    đánh giá hệ thống và các kết quả đánh giá cho thấy hệ thống là hữu dụng. Tuy
    nhiên, để đưa hệ thống vào hoạt động thực tiễn cần phải nghiên cứu tăng tốc độ
    hoạt động của nó.
    Nội dung của luận văn được tổ chức thành bốn chương được giới thiệu sơ bộ
    như dưới đây.
    Chương 1. Xây dựng kênh tin tức điện tử trên các thiết bị cầm tay giới thiệu sự
    phát triển nhanh chóng của báo điện tử và công nghệ kết nối Internet không
    dây, tiền đề cho việc ra đời của kênh cung cấp tin điện tử trên các thiết bị cầm
    tay. Mô tả bài toán và hướng tiếp cận giải quyết bài toán xây dựng kênh tin
    điện tử từ các báo điện tử tiếng Việt trên các thiết bị cầm tay cũng được trình
    bày.
    Bài toán xây dựng kênh tin tức điện tử trên các thiết bị cầm tay được giải quyết
    trên cơ sở phân cụm các trang Web trong site báo điện tử theo đó nội dung tin
    tức cần trích chọn được lấy từ vùng nội dung thông tin trong cấu trúc các trang
    Web của site đó.
    Chương 2. Thuật toán RTDM và ứng dụng trong trích xuất tin trình bày vấn đề
    đánh giá tính tương đồng của các trang Web thông qua khái niệm chi phí
    chuyển đổi cây đối với kiến trúc cây mô tả các trang Web. Sau khi phân cụm,
    lớp tương ứng với mỗi cụm được gán nhãn để tạo dựng mô hình phân lớp cho
    các trang Web mới và trích chọn tin tức. Luận văn đề xuất một phiên bản chi
    tiết của thuật toán để thi hành hệ thống trích chọn tin tức trên các báo điện tử.
    Với phiên bản này, vấn đề thi hành hệ thống trở nên dễ dàng hơn.
    Chương 3 giới thiệu quá trình phân tích và thiết kế hệ thống theo tiếp cận
    hướng đối tượng. Các mô hình tương ứng được trình bày ở đây.
    Chương 4. trình bày hệ thống thực nghiệm với một số nhận xét đánh giá kết
    quả thực nghiệm.

    Phần Kết luận tóm tắt các kết quả chính yếu nhất của luận văn.
     

    Các file đính kèm:

Đang tải...