Đồ Án Đánh giá năng lực nghiên cứu của cá nhân, tổ chức dựa trên phân tích, tính toán các chỉ số khoa học

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỞ ĐẦU








    Khoa học hiện nay đang phát triển rất mạnh, cùng với đó là số lượng bài báo khoa học ngày càng tăng lên. Việc quản lý và khai thác các bài báo khoa học này một cách hiệu quả là một nhu cầu tất yếu cho sự phát triển bền vững của khoa học với tinh thần “đứng trên vai những người khổng lồ”.


    Hiện nay trên thế giới đã có nhiều hệ thống được xây dựng để thực hiện việc này, chức năng chính của chúng là lưu trữ và tìm kiếm các bài báo phù hợp với các tiêu chí nhất định.


    Ở đề tài này chúng tôi khảo sát các hệ thống có sẵn này ở khía cạnh nội dung, tính năng, cùng với các giải thuật tìm kiếm, xếp hạng của chúng, sau đó xây dựng mô hình ứng dụng các chỉ số xếp hạng trong việc đánh giá các cá nhân, tổ chức và bước đầu tiến hành thử nghiệm trên các cá nhân, tổ chức làm việc trong lĩnh vực công nghệ thông tin ở Tp. Hồ Chí Minh. Từ đó đề xuất xây dựng một hệ thống thư viện điện tử thực tế có các đặc trưng cần thiết để ứng dụng các chỉ số này phục vụ người dùng ở Việt Nam.
    MỞ ĐẦU i
    LỜI CẢM ƠN . ii
    MỤC LỤC vi
    DANH MỤC CÁC BẢNG ix
    DANH MỤC CÁC BIỂU ĐỒ xi DANH MỤC CÁC HÌNH xii DANH MỤC CÁC SƠ ĐỒ .xiv Chương 1: TỔNG QUAN VỀ ĐỀ TÀI .1
    1.1 Đánh giá hiện trạng .1


    1.2 Phát biểu bài toán 2


    1.3 Mục tiêu đề tài .3


    1.4 Cấu trúc báo cáo 3


    Chương 2: CÁC NGHIÊN CỨU VÀ ỨNG DỤNG LIÊN QUAN .4


    2.1 Giới thiệu 4


    2.2 Web crawler .4


    2.3 Các phương pháp xếp hạng phổ biến 5


    2.3.1 Giới thiệu .5


    2.3.2 PageRank .6


    2.3.3 PopRank 13


    2.4 Các chỉ số xếp hạng phổ biến .19


    2.4.1 Giới thiệu .19


    2.4.2 Các chỉ số phân tích tài liệu chuẩn (Standard bibliometric indicators) 19
    2.4.3 H-type indexes .22



    2.5.1 Giới thiệu .33


    2.5.2 IEEEXplore .33


    2.5.3 Association for Computing Machinery (ACM) 36


    2.5.4 SpringerLink 40


    2.5.5 Microsoft Academic Search (MAS) 43


    2.5.6 Google Scholar 49


    2.5.7 CiteSeerX 52


    Chương 3: CÁCH TIẾP CẬN CỦA ĐỀ TÀI .56


    3.1 Mở đầu 56


    3.2 Thảo luận về các chỉ số xếp hạng .56


    3.3 Thảo luận về các phương pháp xếp hạng 57


    3.4 Phân tích cải tiến các hệ thống thư viện điện tử .58


    3.5 Cách tiếp cận của đề tài 60


    Chương 4: HIỆN THỰC HỆ THỐNG 62


    4.1 Mở đầu 62


    4.2 Chương trình thu thập dữ liệu .62


    4.2.1 Khảo sát hiện trạng 62


    4.2.2 Phân tích thiết kế .63


    4.2.3 Cài đặt 82


    4.2.4 Kết quả .86


    4.3 Chương trình tính toán các chỉ số xếp hạng .87


    4.3.1 Khảo sát hiện trạng 87


    4.3.2 Phân tích thiết kế .87


    4.3.3 Cài đặt 96


    4.3.4 Kết quả .97


    4.4 Hệ thống thư viện điện tử .102


    4.4.1 Khảo sát hiện trạng 102

    4.4.2 Phân tích thiết kế .102


    4.4.3 Cài đặt 104


    4.4.4 Kết quả .107


    Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ .110


    5.1 Mở đầu 110


    5.2 Thu thập danh sách giảng viên 110


    5.3 Chuẩn hóa dữ liệu giảng viên và nhập liệu .113


    5.4 Chương trình thu thập dữ liệu chỉ mục 114


    5.4.1 Khảo sát hiện trạng 114


    5.4.2 Phân tích thiết kế .115


    5.4.3 Cài đặt 122


    5.4.4 Kết quả .124


    5.5 Kiểm tra dữ liệu .125


    5.6 Tính toán các chỉ số xếp hạng .127


    5.6.1 Mở đầu .127


    5.6.2 Phân tích thiết kế .127


    5.6.3 Cài đặt 131


    5.7 Đánh giá kết quả 131


    5.7.1 Kết quả tính toán .131


    5.7.2 Nhận xét và đề xuất một số cải tiến 143


    Chương 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 146


    6.1 Kết quả đạt được .146


    6.2 Hạn chế và hướng phát triển 146


    6.2.1 Hạn chế 146


    6.2.2 Hướng phát triển 147


    DANH MỤC TÀI LIỆU THAM KHẢO 148

    DANH MỤC CÁC BẢNG


    Bảng 2.1 – Thông tin chi tiết IEEEXplore. . 34


    Bảng 2.2 – Thông tin chi tiết ACM. 36


    Bảng 2.3 – Thông tin chi tiết về SpringerLink 40


    Bảng 2.4 – Thông tin chi tiết về MAS . 43


    Bảng 2.5 – Thông tin chi tiết về Google Scholar. . 50


    Bảng 2.6 – Thông tin chi tiết về CiteSeerX . 53


    Bảng 3.1 – So sánh các hệ thống thư viện điện tử. . 58


    Bảng 4.1 – Các mẫu url được dùng trong crawler . 66


    Bảng 4.2 – Các mẫu dùng trong phân tích html để lấy dữ liệu. 67


    Bảng 4.3 – Mã giả thuật giải của crawler cho trang MAS. . 70


    Bảng 4.4 – Mô tả các bảng trong cơ sở dữ liệu của crawler. 74


    Bảng 4.5 – Kết quả thu thập dữ liệu đến ngày 27 tháng 01 năm 2012. 86


    Bảng 4.6 – Các chỉ số được cài đặt cho các loại đối tượng . 87


    Bảng 4.7 – Mô tả chi tiết các bảng lưu dữ liệu tính toán các chỉ số 91


    Bảng 4.8 – Dữ liệu mẫu 1 dùng để tính toán các chỉ số đánh giá. 97


    Bảng 4.9 – Dữ liệu mẫu 2 dùng để tính toán các chỉ số đánh giá. 98


    Bảng 4.10 – Cấu hình phần cứng 1 . 98


    Bảng 4.11 – Cấu hình phần cứng 2 . 99


    Bảng 4.12 – Kết quả thử nghiệm cài đặt các chỉ số. . 99


    Bảng 5.1 – Các tổ chức và nguồn dữ liệu danh sách giảng viên tương


    ứng. 111


    Bảng 5.2 – Thuật giải của quy trình thu thập dữ liệu. . 117

    Bảng 5.3 – Các mẫu url được dùng trong crawler . 119


    Bảng 5.4 – Các mẫu dùng trong phân tích html để lấy dữ liệu. 120


    Bảng 5.5 – Kết quả thu thập dữ liệu chỉ mục. . 125


    Bảng 5.6 – Các chỉ số được cài đặt cho các loại đối tượng . 127


    Bảng 5.7 – Kết quả tính toán số lượng giảng viên. . 131


    Bảng 5.8 – Kết quả tính toán số lượng bài báo. 132


    Bảng 5.9 – Kết quả tính toán số lượng trích dẫn . 134


    Bảng 5.10 – Kết quả tính toán số trích dẫn trung bình của một bài báo. 135


    Bảng 5.11 – Kết quả tính toán chỉ số H-index. . 137


    Bảng 5.12 – Kết quả tính toán chỉ số G-index. . 138


    Bảng 5.13 – Tổng hợp kết quả tính toán. 140


    Bảng 5.14 – Tổng hợp kết quả xếp hạng . 142
     

    Các file đính kèm:

Đang tải...