Đồ Án Phân tích và xử lý dữ liệu bằng ngôn ngữ R

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Julie Nguyễn, 9/12/13.

  1. Julie Nguyễn

    Julie Nguyễn New Member

    Bài viết:
    970
    Được thích:
    2
    Điểm thành tích:
    0
    Xu:
    0Xu
    MỤC LỤC

    MỤC LỤC 2
    DANH MỤC CÁC HÌNH VẼ 4
    DANH MỤC CÁC BẢNG 5
    PHẦN MỞ ĐẦU 6
    PHẦN MỞ ĐẦU 6
    1. Lý do chọn đề tài 6
    2. Tình hình nghiên cứu trong nước và thế giới 7
    3. Nhiệm vụ và mục đích nghiên cứu 7
    PHẦN NỘI DUNG 9
    Chương 1 . Giới thiệu 9
    1.1. Ngôn ngữ R là gì? 9
    1.2. Tại sao phải sử dụng R ? 9
    1.3. Ứng dụng của R 10
    1.4. Cài đặt và sử dụng R 10
    1.4.1 Tải R xuống và cài đặt vào máy tính 10
    1.4.2 Tải R package và cài đặt vào máy tính 11
    Chương 2 : Tính toán đơn giản trên R 14
    2.1 Tính toán đơn giản 14
    2.2 Sử dụng R cho các phép tính ma trận 17
    2.2.1 Trích chọn phần tử từ ma trận 18
    2.2.2 Tính toán với ma trận. 19
    2.3 Sử dụng R cho tính toán xác suất 23
    2.3.1 Phép hoán vị 23
    2.3.3 Biến số ngẫu nhiên và hàm phân phối. 24
    2.3.4 Chọn mẫu ngẫu nhiên (random sampling) 25
    2.4 Biểu đồ 26
    2.4.1 Số liệu cho phân tích biểu đồ 26
    2.4.2 Biểu đồ cho một biến số rời rạc 28
    2.4.3 Biểu đồ cho hai biến số rời rạc : Barplot 29
    2.4.4 Biểu đồ hình tròn 31
    Chương 3: Làm viêc với dữ liệu trên R 32
    3.1 Cách nhập dữ liệu vào R 32
    3.1.1 Cách đặt tên trong R 33
    3.1.2 Cách nhập dữ liệu vào R 34
    3.2 Làm việc với các bảng dữ liệu 43
    3.2.1 Tách rời số liệu : subset 43
    3.2.2 Trích chọn số liệu từ một data.frame 44
    3.2.3 Nhập hai data thành một : merge 44
    3.2.4 Biến đổi dữ liệu 46
    3.2.5 Phân nhóm số liệu bằng Cut2(Hmisc) 47
    Chương 4: Lập trình trên R 48
    4.1 Tổng quan về ngôn ngữ R 48
    4.2 Các kiểu dữ liệu sử dụng trong lập trình với R 49
    4.2.1 Các kiểu dữ liệu cơ bản 49
    4.2.2 Các phép toán 50
    4.2.3 Các kiểu dữ liệu có cấu trúc trong R : 51
    4.3 Các cấu trúc cơ bản trong ngôn ngữ lập trình R 51
    4.3.1 Cấu trúc rẽ nhánh 52
    4.3.2 Cấu trúc lặp 53
    4.4 Xây dựng hàm trong R 54
    4.5 Chương trình ví dụ 55
    Chương 5: Ứng dụng R để phân tích số liệu 57
    5.1 Phân tích dữ liệu có tên là Data. 57
    5.2 Phân tích hồi quy tuyến tính dữ liệu có tên datanam 70
    KẾT LUẬN 82
    TÀI LIỆU THAM KHẢO 83

    DANH MỤC CÁC HÌNH VẼ
    Hình 1: Cửa sổ làm việc của R 11
    Hình 2: Cửa sổ cài đặt các package 13
    Hình 3: Biểu đồ tần số giới tính thể hiện bằng cột số 28
    Hình 4: Biểu đồ tần số giới tính thể hiện bằng dòng số 29
    Hình 5: Tần số giới tính và nhóm tuổi thể hiện bằng cột số 30
    Hình 6: Tần số giới tính và nhóm tuổi thể hiện bằng hai cột 30
    Hình 7: Tần số cho 3 nhóm tuổi 31
    Hình 8: Biểu đồ tần số cho 5 nhóm tuổi 31
    Hình 9 : Cửa sổ nhập dữ liệu trực tiếp 36
    Hình 10: Đồ thị phân phối của các hormones và chỉ số sinh hóa 62
    Hình 11: Biều độ liên hệ giữa tuổi và cholestrol 72
    Hình 12: Đường biểu diễn mối liên hệ giữa độ tuổi và cholesterol 78
    Hình 13 : Giá trị tiên đoán và khoảng tin cậy 95% 79
    Hình 14 : Biểu đồ giá trị tiên đoán và khoảng tin cậy 95% 80
    PHẦN MỞ ĐẦU

    1. Lý do chọn đề tài
    Phân tích và xử lý số liệu là một trong những bước quan trọng trong nghiên cứu khoa học. Nhất là đối với các khoa học thực nghiệm, khi mà số lượng dữ liệu đưa ra rất nhiều và đa dạng, việc áp dụng các phương pháp phân tích số liệu sẽ giúp các nhà nghiên cứu “hiểu” được dữ liệu. Các phương pháp phân tích thường dựa vào nền tảng là các mô hình toán học, nhưng việc thiết kế và diễn giải ý nghĩa của dữ liệu mới là kết quả mà các nhà phân tích mong chờ.
    Trước đây, khi máy tính chưa ra đời, việc xử lý số liệu gặp nhiều khó khăn vì phải thực hiện các phép tính toán thống kê phức tạp. Sự có mặt của máy tính tạo nên một bước đột phá trong xử lý số liệu, nó giúp các nhà khoa học tiết kiệm được nhiều thời gian và tiền bạc. Hơn nữa, việc sử dụng máy tính có thể dễ dàng tìm ra được các bất thường trong dữ liệu trước khi đem vào phân tích. Tuy nhiên, nếu không có phần mềm thì máy tính cũng trở thành vô dụng. Vì vậy để đáp ứng như cầu xử lý số liệu các công ty phần mềm đã cho ra đời các sản phẩm phân tích số liệu chuyên nghiệp (như STATISTICA, SPSS, SAS, ).
    Các phần mềm thương mại kể trên được phát triển công phu và thường rất đắt tiền (giá cho một đại học có khi lên đến hàng trăm ngàn đô-la hàng năm), một cá nhân hay thậm chí một trường đại học, một công ty cũng không có khả năng mua. Trong hoàn cảnh đó, ngôn ngữ R đã được phôi thai bởi một nhóm các nhà nghiên cứu. Sự ra đời của R đã làm thay đổi tình trạng phụ thuộc vào các phần mềm thương mại, vì R hoàn toàn miễn phí. Vậy R là gì? Và R làm được những gì? R có thể thay thế được các phần mềm thương mại không? Có lập trình được trên R không? .
    Trong khóa luận này, chúng tôi sẽ đi tìm câu trả lời cho các câu hỏi trên.


    2. Tình hình nghiên cứu trong nước và thế giới
    Trên thế giới đã có rất nhiều trường đại học, các công ty đã sử dụng phần mềm R trong giảng dạy, nghiên cứu vì đơn giản, nó giúp giảm một lượng lớn chi phí bản quyền phần mềm hằng năm, và hơn nữa, ngôn ngữ R với tính chất mở đang được cộng đồng phát triển nhanh mạnh, có thể làm được bất cứ thứ gì (hoặc thậm chí là hơn) so với các phần mềm thương mại khác như SPSS, Matlab,
    Nước ta hiện này việc sử dụng R là chưa được phổ biến, đó là vì do ở Việt Nam chúng ta lâu nay vẫn sử dụng các phần mềm crack (vi phạm bản quyền). Cho đến nay chỉ có GS.Nguyễn Văn Tuấn (Úc) là người đã viết sách và quảng bá về R cho các nhà nghiên cứu trong y học, còn các ngành khác cộng đồng các nhà khoa học vẫn chưa “để ý” đến R. Kế thừa và tiếp nối các bài viết của GS.Tuấn, chúng tôi mong muốn giới thiệu cho cộng đồng một công cụ phân tích số liệu hiệu quả và đặc biệt là hoàn toàn miễn phí.
    3. Nhiệm vụ và mục đích nghiên cứu
    Đại đa số các đại học Tây phương và thế giới càng ngày càng chuyển sang sử dụng R cho học tập, nghiên cứu và giảng dạy. Trong xu hướng đó, chúng tôi thực hiện đề tài “ Phân tích và xử lý dữ liệu bằng ngôn ngữ R” nhằm mục đích tìm hiểu và quảng bá ngôn ngữ R vào cộng đồng khoa học ở nước ta. Nhất là các nhóm nghiên cứu khoa học trong các trường đại học, nơi mà nguồn kinh phí dành cho nghiên cứu không nhiều.
    Để đạt được mục tiêu này, chúng tôi tập trung vào 5 nội dung sau đây:
    - Giới thiệu chung về ngôn ngữ R
    - Các phép tính toán cơ bản trên R
    - Làm việc với dữ liệu trên R
    - Lập trình trên R
    - Ứng dụng R để phân tích và xử lí dữ liệu



    4. Phương pháp nghiên cứu
    - Đọc và nghiên cứu các tài liệu viết về phân tích thống kê và vẽ biểu đồ
    - Đọc và tìm hiểu những tài liều giới thiệu về ngôn ngữ R
    - Thực hành những ứng dụng trên phần mềm R
     

    Các file đính kèm:

Đang tải...