Đồ Án Nghiên cứu một số phương pháp phân cụm cho dữ liệu Gene Microarray

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    170
    Điểm thành tích:
    0
    Xu:
    0Xu
    Tóm tắt nội dung


    Dữ liệu microarrays là những bước đột phá mới nhất trong sinh học phân tử.
    Nó cho phép kiểm tra mô tả gene của khoảng mười nghìn gene đồng thời.


    Kết quả của những thí nghiệm sử dụng công nghệ microarray này sẽ được đem phân tích ở mức thấp và cho ra một tập dữ liệu gọi là dữ liệu gene micrarray. Dữ liệu này sẽ được sử dụng cho việc phân tích mức cao hay còn gọi là phân tích cụm (Cluster analysis). Phân cụm gene tức là nhóm những gene thành những cụm với những đặc tính tương đồng. Mới xuất hiện từ đầu những năm 1990 đến nay đã và đang có rất nhiều phòng thí nghiệm, công trình khoa học nghiên cứu về vấn đề phân cụm cho dữ liệu gene micoarray và vấn đề này ngày càng được quan tâm đầu tư nhiều hơn, bởi vì những ứng dụng vô cùng to lớn của kết quả nghiên cứu vấn đề này trong nhiều lĩnh vực như: y học là “chuẩn đoán và điều trị bệnh, khoa học môi trường là “ xác định vi sinh vật” ”, nông nghiệp .
    Khóa luận này sẽ giúp chúng ta tìm hiểu về một số phương pháp phân cụm cho dữ liệu gene microarray bao gồm “Hierarchical”, “Kmeans”, “SOM”, “PAM” và phương pháp phân cụm mới dựa trên khoảng cách “intra-cluster”. Đánh giá ưu nhược điểm của các phương pháp phân cụm này và cuối cùng là phát triển một chương trình có chức năng “phân cụm”cho “dữ liệu microarray gene” mà sử dụng phương pháp phân cụm “tối ưu hơn cả”.





















    Mục lục




    Lời cảm ơn . i Tóm tắt nội dung .ii Mục lục .iii Danh mục hình vẽ bảng biểu iv Mở đầu 5
    Chương 1: Giới thiệu bài toán phân cụm cho dữ liệu gene microarray .7
    1.1. Bài toán phân cụm nói chung .7
    1.1.1. Khái niệm 7
    1.1.2. Các kiểu phân cụm khác nhau . 7
    1.1.3. Những loại cụm khác nhau 8
    1.2. Phân cụm cho dữ liệu gene microarray .9
    1.2.1. Giới thiệu công nghệ DNA microarray . 9
    1.2.2. Thí nghiệm microarray .9
    1.3. Ứng dụng bài toán phân cụm cho dữ liệu gene microarray 13
    Chương 2: Một số phương pháp phân cụm cho dữ liệu gene microarray .14
    2.1. Cơ sở toán học .14
    2.1.1. Biểu diễn dữ liệu gene microarraay 14
    2.1.2. Vector mô tả .14
    2.1.3. Ma trận mô tả gene .14
    2.1.4. Khoảng cách hay sự tương đồng .15
    2.2. Một số phương pháp phân cụm 17
    2.2.1. Phân cụm Hierarchical .17
    2.2.2. K-Means Clustering (KMC) 19
    2.2.3. Self-Organizing Maps(SOMs) .20
    2.2.4. Principal Components Analysis-(PCA) 21
    2.3. Phương pháp phân cụm intra-cluster 22
    Chương 3: Đề xuất hướng giải quyết của bài toán phân cụm cho dữ liệu gene microarray 24
    3.1. Phương pháp phân cụm .24
    3.1.1. Lý do chọn K-means .24
    3.1.2. Lý do chọn “intra-cluster” 24
    3.2. Một số phương pháp khắc phục nhược điểm của k-means .25
    3.2.1. Lọc dữ liệu 25
    3.2.2. K-medians .25
    3.2.3. Xữ lý dữ liệu khuyết: .25
    3.2.4. Tìm giải pháp tối ưu “toàn cục” 26
    3.2.5. Việc xác định số cụm k 26
    Chương 4: Phát triển ứng dụng cho bài toán phân cụm dữ liệu gene microarray
    27















    4.1. Các chức năng của ứng dụng 27 4.1.1.Mô hình tương tác giữa các module 27
    4.1.2. Tải, Lưu file, lọc, điều chỉnh dữ liệu và xử lý dữ liệu khuyết .28
    4.1.3. Phân cụm K-means .31
    4.3. Định dạng dữ liệu vào, ra 32
    4.3.1. Dữ liệu tải vào 32
    4.3.2. Định dạng dữ liệu ra .33
    4.4. Ngôn ngữ lập trình 33
    4.4.1. Một số ưu điểm của ngôn ngữ lập trình Java .33
    4.5. Môi trường phát triển ứng dụng .35
    Chương 5: Thực nghiệm và đánh giá .36
    5.1. Cài đặt ứng dụng “Gene Cluster” .36
    5.1.1. Cài đặt ứng dụng 36
    5.2.1. Mô tả các tập dữ liệu thực nghiệm 36
    5.2.2. Thực nghiệm trên “Cluster 3.0” và “Gene Cluster” .37
    5.3. Kết quả và đánh giá .38
    5.3.1. Kết quả 38
    5.3.2. Đánh giá 40
    Tổng kết 42
    Tài liệu tham khảo .43






    Danh mục hình vẽ bảng biểu


    Hình 1: Thí nghiệm microarray 11
    Hình 2: Minh họa việc tính dữ liệu mô tả gene. 12
    Hình 3: Ví dụ về vector mô tả gene trong log .14
    Hình 4: Ví dụ về ma trận mô tả gene .15
    Hình 5: Mô tả những phương pháp linkage khác nhau .19
    Hình 6 : Sơ đồ DFD mô tả sự tương tác dữ liệu và chức năng .28
    Hình 7: Giao diện cho menu của chương trình 29
    Hình 8: Giao diện cho chức năng filter data 29
    Hình 9: Giao diện minh hoa cho chức năng adjust data. 30
    Hình 10: Giao diên chức năng xử lý dữ liệu khuyết. 31
    Hình 11: Giao diện chính của chương trình phân cụm “Gene Cluster” .32
    Hình 12 : Mô tả định dạng dữ liệu tải vào. 32
    Hình 13: Mô hình thực thi của một chương trình bằng Java. .34
    Hình 14: Hình ảnh phóng to của một số gene trong kết quả phân cụm K-means trên “Cluster 3.0” 39
    Hình 15: Hình ảnh phóng to của một số gene trong kết quả phân cụm K-means trên “Gene Cluster” không sử dụng chức năng sử lý dữ liệu khuyết. .39
    Hình 15: Hình ảnh phóng to của một số gene trong kết quả phân cụm K-means trên
    “Gene Cluster” sử dụng chức năng sử lý dữ liệu khuyết. .40
    Hình 16: Kết quả thời gian chạy Kmeans trên “dataset1” 40
     

    Các file đính kèm:

Đang tải...