Tài liệu giao trình thống kê mô tả

Thảo luận trong 'Toán Học' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    Tên đề tài : Giáo trình thống kê mô tả

    Trong chương này, chúng ta sẽ sử dụng R cho mục đích phân tích thống kê mô tả.
    Nói đến thống kê mô tả là nói đến việc mô tả dữ liệu bằng các phép tính và chỉ số thống
    kê thông thường mà chúng ta đã làm quen qua từ thuở trung học như số trung bình
    (mean), số trung vị (median), phương sai (variance) độ lệch chuẩn (standard deviation)
    cho các biến số liên tục, và tỉ số (proportion) cho các biến số không liên tục. Nhưng
    trước khi hướng dẫn phân tích thống kê mô tả, tôi muốn bạn đọc phải phân biệt cho được
    hai khái niệm tổng thể (population) và mẫu (sample).
    9.0 Khái niệm tổng thể (population) và mẫu (sample)
    Sách giáo khoa thống kê thường giải thích hai khái niệm này một cách mù mờ và
    có khi vô nghĩa. Chẳng hạn như cuốn “Modern Mathematical Statistics” (E. J. Dudewicz
    và S. N. Mishra, Nhà xuất bản Wiley, 1988) giải thích tổng thể rằng “population is a set
    of n distinct elements (points) a1, a2, a3, an.” (trang 24, tạm dịch: “tổng thể là tập hợp
    gồm n phần tử hay điểm a1, a2, a3, an”), còn L. Fisher và G. van Belle trong
    “Biostatistics – A Methodology for the Health Science” (Nhà xuất bản Wiley, 1993), giải
    thích rằng “The sample space or population is the set of all possible values of a variable”
    (trang 38, tạm dịch “Không gian mẫu hay tổng thể là tập hợp tất cả các giá trị khả dĩ của
    một biến”). Đối với một nhà nghiên cứu thực nghiệm phải nói những định nghĩa loại này
    rất trừu tượng và khó hiểu, và dường như chẳng có liên quan gì với thực tế! Trong phần
    này tôi sẽ giải thích hai khái niệm này bằng mô phỏng và hi vọng là bạ đọc sẽ hiểu rõ
    hơn.
    Có thể nói mục tiêu của nghiên cứu khoa học thực nghiệm là nhằm tìm hiểu và
    khám phá những cái chưa được biết (unknown), trong đó bao gồm những qui luật hoạt
    động của tự nhiên. Để khám phá, chúng ta sử dụng đến các phương pháp phân loại, so
    sánh, và phỏng đoán. Tất cả các phương pháp khoa học, kể cả thống kê học, được phát
    triển nhằm vào ba mục tiêu trên. Để phân loại, chúng ta phải đo lường một yếu tố hay
    tiêu chí có liên quan đến vấn đề cần nghiên cứu. Để so sánh và phỏng đoán, chúng ta cần
    đến các phương pháp kiểm định giả thiết và mô hình thống kê học.
    Cũng như bất cứ mô hình nào, mô hình thống kê phải có thông số. Và muốn có
    thông số, chúng ta trước hết phải tiến hành đo lường, và sau đó là ước tính thông số từ đo
    lường. Chẳng hạn như để biết sinh viên nữ có chỉ số thông minh (IQ) bằng sinh viên nam
    hay không, chúng ta có thể làm nghiên cứu theo hai phương án:
    (a) Một là lập danh sánh tất cả sinh viên nam và nữ trên toàn quốc, rồi đo lường chỉ
    số IQ ở từng người, và sau đó so sánh giữa hai nhóm;
    (b) Hai là chọn ngẫu nhiên một mẫu gồm n nam và m nữ sinh viên, rồi đo lường chỉ
    số IQ ở từng người, và sau đó so sánh giữa hai nhóm.
    Phương án (a) rất tốn kém và có thể nói là không thực tế, vì chúng ta phải tập hợp
    tất cả sinh viên của cả nước, một việc làm rất khó thực hiện được. Nhưng giả dụ như
    chúng ta có thể làm được, thì phương án này không cần đến thống kê học. Giá trị IQ
    trung bình của nữ và nam sinh viên tính từ phương án (a) là giá trị cuối cùng, và nó trả lời
    câu hỏi của chúng ta một cách trực tiếp, chúng ta không cần phải suy luận, không cần đến
    kiểm định thống kê gì cả!
    Phương án (b) đòi hỏi chúng ta phải chọn n nam và m nữ sinh viên sao cho đại
    diện (representative) cho toàn quần thể sinh viên của cả nước. Tính “đại diện” ở đây có
    nghĩa là các số n nam và m nữ sinh viên này phải có cùng đặc tính như độ tuổi, trình độ
    học vấn, thành phần kinh tế, xã hội, nơi sinh sống. v.v so với tổng thể sinh viên của cả
    nước. Bởi vì chúng ta không biết các đặc tính này trong toàn bộ tổng thể sinh viên,
    chúng ta không thể so sánh trực tiếp được, cho nên một phương pháp rất hữu hiệu là lấy
    mẫu một cách ngẫu nhiên. Có nhiều phương pháp lấy mẫu ngẫu nhiên đã được phát triển
    và tôi sẽ không bàn qua chi tiết của các phương pháp này, ngoại trừ muốn nhấn mạnh
    rằng, nếu cách lấy mẫu không ngẫu nhiên thì các ước số từ mẫu sẽ không có ý nghĩa khoa
    học cao, bởi vì các phương pháp phân tích thống kê dựa vào giả định rằng mẫu phải được
    chọn một cách ngẫu nhiên.
    Tôi sẽ lấy một ví dụ cụ thể về tổng thể và mẫu qua ứng dụng R như sau. Giả dụ
    chúng ta có một tổng thể gồm 20 người và biết rằng chiều cao của họ như sau (tính bằng
    cm): 162, 160, 157, 155, 167, 160, 161, 153, 149, 157, 159, 164, 150, 162, 168, 165, 156,
    157, 154 và 157. Như vậy, chúng ta biết rằng chiều cao trung bình của tổng thể là 158.65
    cm. Xin nhấn mạnh đó là tổng thể.
    Vì thiếu thốn phương tiện chúng ta không thể nghiên cứu trên toàn tổng thể mà
    chỉ có thể lấy mẫu từ tổng thể để ước tính chiều cao. Hàm sample() cho phép chúng
    ta lấy mẫu. Và ước tính chiều cao trung bình từ mẫu tất nhiên sẽ khác với chiều cao
    trung bình của tổng thể.
    ã Chọn 5 người từ tổng thể:
    > sample5 <- sample(height, 5)
    > sample5
    [1] 153 157 164 156 149
    Ước tính chiều cao trung bình từ mẫu này:
    > mean(sample5)
    [1] 155.8
    ã Chọn 5 người khác từ tổng thể và tính chiều cao trung bình:
    > sample5 <- sample(height, 5)
    > sample5
    [1] 157 162 167 161 150
    > mean(sample5)
    [1] 159.4
    Chú ý ước tính chiều cao của mẫu thứ hai là 159.4 cm (thay vì 155.8 cm), bởi vì
    chọn ngẫu nhiên, cho nên đối tượng được chọn lần hai không nhất thiết phải là đối tượng
    lần thứ nhất, cho nên ước tính trung bình khác nhau.
    ã Bây giờ chúng ta thử lấy mẫu 10 người từ tổng thể và tính chiều cao trung bình:
    > sample10 <- sample(height, 10)
    > sample10
    [1] 153 160 150 165 159 160 164 156 162 157
    > mean(sample10)
    [1] 158.6
    Chúng ta có thể lấy nhiều mẫu, mỗi mẫu gồm 10 người và ước tính số trung bình từ mẫu,
    bằng một lệnh đơn giản hơn như sau:
    > mean(
     

    Các file đính kèm:

Đang tải...