Báo Cáo Quảng cáo hướng ngữ cảnh và ứng dụng trong website tin tức

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Mai Kul, 15/12/13.

  1. Mai Kul

    Mai Kul New Member

    Bài viết:
    1,299
    Được thích:
    0
    Điểm thành tích:
    0
    Xu:
    0Xu
    Mục lục
    1. Bài toán: 3
    2. Đối tượng ứng dụng. 3
    3. Nguồn dữ liệu khai thác. 3
    4. Các hướng nghiên cứu liên quan tới bài toán. 4
    4.1 Bóc tách nội dung trang Web. 4
    4.1.1. Tổng quan xử lý trích xuất nội dung trang web. 4
    4.1.2. Các phương pháp xử lý. 5
    4.2. Xử lý tách từ khóa tiếng Việt 11
    4.2.1. Tách từ tiếng Việt 11
    4.2.2. Tách từ khóa tiếng Việt 18
    5. Đề xuất hướng tiếp cận của đồ án. 20
    5.1. Tiền xử lý. 21
    5.2. Tách từ tiếng Việt 21
    5.3. Xác định từ khóa. 23
    5.3.1. Độ đo cục bộ chi-bình-phương χ[SUP]2[/SUP]. 23
    5.3.2. Chọn và gom nhóm các từ khóa phổ biến. 23
    5.3.3. Tính độ phân bố χ2 của từ. 24
    5.3.4. Độ đo toàn cục IDF. 25
    5.3.5. Độ đo kết hợp. 26



    1. Bài toán:Ngày nay Word Wide Web đã trở thành một kho tài nguyên dữ liệu khổng lồ về mọi lĩnh vực. Lượng truy cập và trao đổi thông tin qua Word Wide Web diễn ra liên tục tạo ra mạng lưới truyền thông bao phủ khắp toàn cầu khiến kênh truyền thông này trở thành một mảnh đất màu mỡ cho hoạt động quảng cáo trực tuyến.
    Ở Việt Nam hiện nay, tốc độ tăng trưởng người dùng Internet tăng cao nhưng tổng doanh thu quảng cáo trực tuyến ở việt nam vẫn còn ở mức khá khiêm tốn khoảng 480 tỷ đồng năm 2010, chiếm 0,4% tổng chi cho quảng cáo.
    Chỉ số ngân sách quảng cáo trực tuyến hàng năm trên mỗi người sử dụng việt nam hiển chi khoảng 0,5 USD, kém xa so với chỉ số này ở các nước phát triển như Mỹ là 171,5 USD hoặc của Trung Quốc 10 USD. Dự kiến đến năm 2015 thị trường quảng cáo trực tuyến Việt Nam mới phát triển ổn định.
    Hình thức quảng cáo trực tuyến phổ biến nhất trên các trang báo điện tử ở Viêt Nam là thường dành một phần lớn diện tích để hiện thị quảng cáo. Điểm mạnh của mô hình này là mọi người khi truy cập vào trang đều có thể nhìn thấy quảng cáo. Nhưng điều quang trọng là Người dùng có quan tâm tới những quảng cáo đó không để họ kích vào liên kết quảng cáo hay chỉ làm cho họ cảm thấy khó chịu. Để giải quyết nhược điểm này các nhà phát triển web trên thế giới đã và đang phát triển hệ thống “quảng cáo hướng ngữ cảnh” - dựa vào nội dung của trang web để đưa ra những quảng cáo liên quan.
    Đồ án đề xuất hướng khai thác quảng cáo trực tuyến bằng cách sử dụng các từ khóa tiếng Việt ở phần văn bản của nội dung chính trang web chuyển tải quảng cáo. Hình thức là xu hướng mới, cải thiện những hạn chế quảng cáo trực tuyến ở nước ta.
    2. Đối tượng ứng dụngNhận thấy tính thực tiễn của bài toán, em quyết định lựa chọn đề tài của đồ án: “Quảng cáo trực tuyến và ứng dụng nó trong website tin tức”. Phạm vi nghiên cứu của đồ án là tìm hiểu lĩnh vực quảng cáo trực tuyến và mô hình dịch vụ quảng cáo trực tuyến, thực hiện khai phá dữ liệu web để xác định bóc tách nội dung chính của trang web rùi từ đó xử lý tách từ tiếng việt và xác định từ khóa của văn bản. Xây dựng thành công demo: website tin tức kết hợp với quảng cáo hướng ngữ cảnh.
    3. Nguồn dữ liệu khai thác- Kho dữ liệu gán nhãn từ loại VN POS tag data base
     

    Các file đính kèm:

Đang tải...