Thạc Sĩ Nghiên cứu các phương pháp rút trích thông tin trên Web

Thảo luận trong 'THẠC SĨ - TIẾN SĨ' bắt đầu bởi Phí Lan Dương, 7/3/15.

  1. Phí Lan Dương

    Phí Lan Dương New Member
    Thành viên vàng

    Bài viết:
    18,524
    Được thích:
    18
    Điểm thành tích:
    0
    Xu:
    0Xu
    CHỦ NHIỆM ĐỀ TÀI: TS. VŨ THANH NGUYÊN 1
    Nghiên cứu các phương pháp rút trích thông tin trên
    Web, xây dựng bộ công cụ hỗ trợ soạn thảo và sưu
    tập tài liệu tham khảo trên web, hỗ trợ soạn thảo các
    giáo trình đào tạo

    BÁO CÁO TÓM TẮT.
    Đề tài nghiên cứu:
    - Các phương pháp rút trích thông tin trên internet, cụ thể là trên web với các
    phương pháp rút trích như phương pháp xử lý ngôn ngữ tự nhiên kết hợp với
    CRFs (Conditional Random Fields), phương pháp SVM (Support Vector
    Machine), CRFs kết hợp với SVM, phương pháp sử dụng wrapper
    - Trên cơ sở dữ liệu phần rút trích, nghiên cứu các phương pháp phân lớp dữ liệu
    như phương pháp cây quyết định, phương pháp k-láng giềng gần nhất, phương
    pháp SVM, FSVM, phương pháp phân loại nhiều lớp nhằm phân lớp dữ liệu
    phục vụ cho đào tạo.
    - Dữ liệu được rút trích và phân lớp nhằm xây dựng và bổ sung cho các giáo trình
    đào tạo như cấu trúc rời rạc, các phương pháp mô hình hóa, nhập môn công nghệ
    phần mềm, mã nguồn mở, nhập môn công tác kỹ sư.











    CHỦ NHIỆM ĐỀ TÀI: TS. VŨ THANH NGUYÊN 2
    ABSTRACT.
    The subject researches about:
    - The methods to extract information on the internet, particularly web-based
    extraction methods with methods such as natural language processing combined
    with CRFs (Conditional Random Fields) and SVM method (Support Vector
    Machine), CRFs method combined with SVM method, the method using
    wrapper .
    - Based on the extracted data, to research methods of data classification such as
    decision trees method, method of k-nearest neighbor, SVM method, FSVM
    method, classification method for data multi-layer class to serve for training
    program courses.
    - In order data extraction and classification to build and supplement the
    curriculums as discrete structures curriculum, modeling methods curriculum,
    software engineering introductory curriculum, open source curriculum, the
    engineers introductory curriculum.











    CHỦ NHIỆM ĐỀ TÀI: TS. VŨ THANH NGUYÊN 3

    I. NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT TRÍCH THÔNG TIN TRÊN
    WEB.
    Internet là một kho thông tin khổng lồ của cả thế giới. Các thông tin mà nó cung cấp
    thuộc mọi ngành, mọi lĩnh vực, các thông tin này ngày càng phong phú và được cập
    nhật liên tục thông qua các trang Web. Có rất nhiều các ứng dụng được phát triển để
    khai thác kho thông tin khổng lồ này. Tuy nhiên, bước đầu tiên mà cũng là quan trọng
    nhất là phải nhận biết và lấy ra phần thông tin mang nội dung chính trên các trang web
    bên cạnh các thông tin về trình bày, định dạng.
    Đã có rất nhiều nghiên cứu về khai thác thông tin trên Internet như tìm kiếm, phân loại
    các trang Web theo yêu cầu dựa vào từ khóa hoặc ngữ nghĩa của câu truy vấn rất khả
    quan. Ngoài ra, việc khai thác thông tin từ nguồn dữ liệu quan hệ đã và đang được phát
    triển mạnh mẽ với nhiều kết quả rất khả quan trong các ứng dụng như: Hỗ trợ ra quyết
    định, thống kê, dự báo, với các kỹ thuật như: Cây quyết định,giải thuật di truyền,
    mạng Nơron, Điều này được chứng minh thông qua việc phát triển mạnh mẽ các hệ
    quản trị cơ sở dữ liệu nổi tiếng như Microsoft SQL Server, Oracle, . hỗ trợ rất tốt
    những tính năng trên. Những ứng dụng này đòi hỏi số lượng dữ liệu đầu vào rất lớn.
    Khai thác nguồn dữ liệu này trên internet không dễ dàng vì nhiều lý do như các trang
    web có thể là tài sản và là sỡ hữu của các cơ quan, công ty, tổ chức, và thường chỉ
    được trình bày ở dạng rời rạc và thường đã được xử lý nên khó sử dụng được trực tiếp.
    Nhu cầu rút trích thông tin từ các trang Web rồi chuyển thành dữ liệu là rất cần thiết và
    có tính thực tế cao nhằm khai thác và kho thông tin khổng lồ trên Internet thành nguồn
    dữ liệu có cấu trúc để có thể phục vụ những ứng dụng khác nhau.
    1. Một số khái niệm về rút trích thông tin.
    Khi nói về rút trích thông tin, cần làm rõ các thuật ngữ quan trọng được sử dụng trong
    quá trình rút trích thông tin và phân lớp là thuật ngữ “dữ liệu” và “thông tin”. Mặc dù,
    có rất nhiều định nghĩa, nhưng phần lớn đều có cách hiểu tương đối giống nhau.
     Dữ liệu: Là những sự kiện thô, không có cấu trúc, có tính rời rạc như văn bản,
    biểu đồ, hình ảnh, âm thanh hoặc video, mà có nghĩa đối với người sử dụng
    (Fred R,. A. Hoferr)
     Thông tin: Là dữ liệu mà được xử lý, có một ý nghĩa nhất định, theo một cách
    nào đấy nhằm mục đích đem lại sự hiểu biết (tri thức) cho người sử dụng (Fred
    R,. A. Hoferr).
     Thông tin là sự phản ánh sự vật, sự việc, hiện tượng của thế giới khách quan và
    các hoạt động của con người trong đời sống xã hội. Điều cơ bản là con người
    thông qua việc cảm nhận thông tin làm tăng hiểu biết cho mình và tiến hành
    những hoạt động có ích cho cộng đồng (Wikipedia).
    Một số định nghĩa về rút trích thông tin:
    Rút trích thông tin được định nghĩa như là một hình thức xử lý ngôn ngữ tự nhiên
    với những thông tin cần thiết được nhận dạng và rút trích từ văn bản,hoặc trang
    Web. Thông tin cần thiết được hiểu theo từng ngữ cảnh cụ thể. Ví dụ, một hệ thống rút trích thông tin cho lĩnh vực thương mại thì những thông tin cần rút trích như: tên
    công ty, tên sản phẩm, những đặc tính tiện ích của sản phẩm, hoặc trong lĩnh vực
    tuyển dụng nhân sự các thông tin cần như: lĩnh vực tuyển dụng, Chức danh, những
    đặc điểm về kỹ năng, chuyên môn, .Chúng ta thấy mỗi lĩnh vực sẽ có đặc trưng
    riêng. Vì thế, không có một định nghĩa chính xác cho khái niệm “thông tin cần
    thiết” mà phải dựa vào ngữ cảnh cụ thể của lĩnh vực mà hệ thống rút trích đó đang
    xử lý (Ellen Riloff).
    Rút trích thông tin là quá trình chọn lọc những thông tin liên quan đến tri thức của
    nội dung văn bản hoặc cấu trúc hóa những thông tin quan trọng dưới dạng dữ liệu
    có cấu trúc, bằng cách xác định những thực thể có tên cũng như mối quan hệ giữa
    chúng (Raymond J. Mooney).
    Rút trích thông tin được định nghĩa như một hệ thống xử lý thông tin, với đầu vào là
    các tài liệu không có cấu trúc như các văn bản được viết bởi ngôn ngữ tự nhiên hoặc
    những văn bản bán cấu trúc mà được thể hiện trên các trang Web dưới dạng các
    bảng biểu, dạng ghi thành từng nhóm hoặc kiểu danh sách liệt kê và kết quả của quá
    trình rút trích có thể là dữ liệu có cấu trúc dạng bảng hoặc dạng đối tượng phức hợp
    với dữ liệu được tổ chức và phân cấp (Mohammed Kayed).
    Định nghĩa một hệ thống rút trích thông tin từ Web là một hệ thống phần mềm rút
    trích dữ liệu một cách tự động và tuần hoàn từ trang Web. Sau đó, dữ liệu rút trích
    được sẽ chuyển đến một hệ quản trị cơ sở dữ liệu hoặc một ứng dụng nào đó
    (Wolfgang Gatterbauer).
    Có thể nói rút trích thông tin có ý nghĩa rất lớn đối với vấn đề ứng dụng khai thác
    thông tin và tri thức từ Web như sau: “Rút trích thông tin tạo ra dữ liệu có cấu trúc,
    đóng vai trò như tiền xử lý cho nhiều ứng dụng như Web Mining và một số công cụ
    nghiên cứu khác”
     

    Các file đính kèm:

Đang tải...