Tiểu Luận Tìm hiểu Hadoop, MapReduce, và các bài toán ứng dụng

Thảo luận trong 'Điện - Điện Tử' bắt đầu bởi Ác Niệm, 30/11/11.

  1. Ác Niệm

    Ác Niệm New Member

    Bài viết:
    3,584
    Được thích:
    2
    Điểm thành tích:
    0
    Xu:
    0Xu
    Mục lục
    Phần I. Giới thiệu chung . 5
    1.1. Hadoop l{ gì? . 5
    1.2. MapReduce l{ gì? 5
    Phần II. Cài đặt Hadoop . 7
    1. Cài đặt máy ảo Ubuntu 10.10 (32 bit) trên VMware . 7
    1. Cài đặt Vmware tools cho Ubuntu . 7
    2. Cài openSSH cho ubuntu 7
    3. Cài java: 7
    4. Thêm user hadoop vào nhóm hadoop . 8
    5. Cấu hình ssh . 9
    6. Vô hiệu hóa IPv6 11
    7. Download và cài đặt hadoop . 12
    a. Download Hadoop 0.20.2 và lưu vào thư mục /usr/local/ 12
    b. Cấu hình . 12
    c. Định dạng các tên node . 13
    d. Chạy hadoop trên cụm một node 13
    8. Chạy một ví dụ MapReduce . 14
    9. Cài đặt và sử dụng Hadoop trên Eclipse 17
    Phần III. Thành phần của Hadoop 20
    1. Một số thuật ngữ. 20
    2. C|c trình nền của Hadoop 21
    2.1. NameNode . 21
    2.2. DataNode . 21
    2.3. Secondary NameNode 22
    2.4. JobTracker . 22
    2.5. TaskTracker 23
    Phần IV. Lập trình MapReduce cơ bản . 25
    1. Tổng quan một chương trình MapReduce 25
    2. Các loại dữ liệu mà Hadoop hỗ trợ 26
    2.1. Mapper . 27
    2.2. Reducer . 28
    2.3. Partitioner – chuyển hướng đầu ra từ Mapper 29
    Phần V. Sơ lược về các thuật toán tin sinh . 30
    5.1. Thuật toán Blast 30
    5.2. Thuật toán Landau-Vishkin 31
    5.2.1. Một số khái niệm 31
    5.2.2. Khớp xâu xấp xỉ (Approximate String Matching) . 32
    5.2.3. Giải pháp quy hoạch động 32
    Phần VI. Sơ lược về BlastReduce 34
    6.1. Tóm tắt: . 34
    6.2. Read Mapping . 34
    6.3. Thuật toán BlastReduce 35
    6.3.1. MerReduce: tính các Mer giống nhau 36
    6.3.2. SeedReduce: kết hợp các Mer nhất quán 37
    6.3.3. ExtendReduce: mở rộng các hạt giống . 37


    Lời nói đầu
    Kính ch{o c|c thầy cô!
    Sau một thời gian thực tập tốt nghiệp, sau đ}y l{ bản b|o c|o những gì em đ~ l{m được
    trong thời gian qua. Nội dung chính trong thời gian thực tập vừa qua l{ Sử dụng Hadoop v{
    framework MapReduce để giải quyết b{i to|n tinh sinh học BLAST. Theo cảm nghĩ của em thì
    Hadoop l{ một ứng dụng mới v{ cũng không dễ để nắm bắt, v{ việc l{m sao để thuật to|n BLAST
    có thể xử lý song song trên Hadoop cũng kh| khó. Nhưng với sự giúp đỡ của thầy hướng dẫn Từ
    Minh Phương, v{ c|c anh chị trong công ti VCCorp thì em cũng phần n{o nắm bắt được vẫn đề.
    Tuy bản b|o c|o còn sơ s{i, nhưng l{ tiền đề cho những phần kế tiếp. Em sẽ cố gắng
    ho{n thiện hơn, v{ ho{n chỉnh đề t{i v{o b{i cuối kho|.
    Một lần nữa em xin c|m ơn c|c thầy cô đ~ định hướng v{ hướng dẫn trong suốt thời
    gian học tập v{ trong thời gian thực tập vừa qua.
     

    Các file đính kèm:

Đang tải...