Báo Cáo Tích hợp chống lỗi cho hệ thống tính toán song song

Thảo luận trong 'Công Nghệ Thông Tin' bắt đầu bởi Thúy Viết Bài, 5/12/13.

  1. Thúy Viết Bài

    Thành viên vàng

    Bài viết:
    198,891
    Được thích:
    173
    Điểm thành tích:
    0
    Xu:
    0Xu
    Lời nói đầu

    Giao thức phục hồi lỗi dùng ghi lại thông điệp là giải pháp tốt cho việc xây dựng các ứng dụng có khả năng chống lỗi. Nhiều giao thức kiểu này được sử dụng trong thực tiễn cho các ứng dụng đòi hỏi độ tin cậy cao. Giao thức này tồn tại 2 vấn đề sau: thứ nhất, giao thức khôi phục đã có chỉ hỗ trợ các giao thức phục hồi đơn tiến trình; thứ hai, hiệu năng giao thức này trong thực tế không cao.
    Để giải quyết vấn đề trên trong trường hợp cụ thể xây dựng hệ thống tính toán song song BKSupComp, môi trường truyền thông chống lỗi MPICH-V sẽ được sử dụng. Môi trường này được phát triển tại trung tâm nghiên cứu tại truờng đại học LRI. Kiến trúc MPICH-V dựa trên nền điều khiển thống nhất các sự kiện không xác định (các sự kiện không xác định -theo định nghĩa là các sự kiện chuyển giao thông điệp giữa các tiến trình). Kiến trúc này cho phép mô tả giao thức phục hồi như một chương trình điều khiển sự kiện. MPICH-V cài đặt dễ dàng, tính mở đối với các hệ thống khác với chi phí lập trình cho việc tích hợp không lớn.
    MPICH-V tập trung vào 2 vấn đề hiệu năng căn bản: thứ nhất, khi nghiên cứu hiệu năng khôi phục của giao thức ghi lại thông điệp cho thấy giao thức này thường không đảm bảo giảm lượng chi phí trong quá trình giải phóng lỗi, khôi phục nhanh và ngừa lỗi (đây là nhược điểm lớn trong các hệ thống chống lỗi); thứ hai, việc đánh giá hiệu năng của giao thức lưu ảnh tiến trình (vấn đề truyền thông gây ra bởi việc lưu trữ các ảnh tiến trình -checkpointing induce communication- CIC) cho thấy các giao thức CIC trong thực tế hiệu quả thấp. Môi trường chống lỗi MPICH-V đang phát triển các giao thức mới có khả năng giảm chi phí kể trên. Do tính mở của môi trường, đồ án này tập trung tìm hiểu để “tích hợp vào hệ thống tính toán song song BKSupComp” triển khai tại Trung tâm tính toán hiệu năng cao -trường Đại học Bách Khoa Hà Nội.
    Vì hạn chế về thời gian và kinh nghiệm, nên có thể đồ án của em còn nhiều sai sót. Kính mong thầy cô chỉ dẫn thêm nhằm có thể cải thiện nâng cấp tiếp cho hệ thống này.
    Em xin gửi lời cảm ơn chân thành tới PGS.TS Nguyễn Thanh Thuỷ, thầy đã tận tình hướng dẫn, cũng như tạo điều kiện về cơ sở vật chất trong việc hoàn thành đồ án này.
    Em xin bày tỏ lòng biết ơn sâu sắc tới ThS Đặng Minh Quân, người đã đưa ra các ý tưởng, và cung cấp tài liệu tham khảo thực hiện đồ án.
    Em cũng xin được cảm ơn các thầy cô, các anh, các chị, các bạn ở Trung tâm tính toán hiệu năng cao và các thầy cô ở Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin - Trường đại học Bách Khoa Hà Nội.
    Cuối cùng em xin cảm ơn gia đình và bạn bè ở lớp Hệ thống thông tin - những người đã giúp đỡ em rất nhiều trong quá trình hoàn thành đồ án.

    Hà Nội, ngày 14 tháng 5 năm 2004
    Sinh viên thực hiện


    Phạm Quyết Thắng

    Mục lục

    Lời nói đầu. i
    Mục lục. iii
    Danh mục hình. v
    Chương 1 Giới thiệu. 1
    1.1. Kỹ thuật chống lỗi : Tổng quan. 2
    1.2. Tổng quan nghiên cứu môi trường chống lỗi MPICH-V 5
    1.3. Dàn ý luận văn. 7
    Chương 2 Phân tích môđun chống lỗi 8
    2.1. Mô hình chống lỗi 9
    2.2. Phân tích giao thức chống lỗi bằng cách ghi lại thông điệp. 10
    2.3. Kiến trúc của MPICH-V 12
    2.3.1. Giới thiệu kiến trúc. 13
    2.3.2. Chức năng các khối cơ bản. 15
    2.3.2.1. Môi trường truyền thông chống lỗi theo chuẩn MPI 15
    2.3.2.2. Thư viện truyền thông dựa trên chuẩn MPI 20
    2.3.3. Giao thức truyền thông giữa các khối 22
    2.3.3.1. Giao thức truyền thông điệp. 22
    2.3.3.2. Giao thức chống lỗi 30
    2.4. Các môi trường liên quan tới phân hệ chống lỗi 50
    2.5. Tóm tắt 51
    Chương 3 Tích hợp phân hệ chống lỗi vào hệ thống tính toán song song phân cụm BKSupComp. 52
    3.1. Mô hình hệ thống tính toán song song phân cụm 52
    3.1.1. Mô hình hệ thống tính toán song song phân cụm không chống lỗi. 52
    3.1.2. Mô hình hệ thống tính toán song song tích hợp phân hệ chống lỗi 54
    3.2. Hiện trạng của phân hệ chống lỗi 57
    3.2.1. Khả năng của phân hệ chống lỗi 57
    3.2.2. Hạn chế của phân hệ chống lỗi 58
    3.3. Các thành phần tích hợp. 59
    3.3.1. Tích hợp với phân hệ quản lí tài nguyên và thực thi BKMOM . 59
    3.3.1.1. Chuyển đổi định dạng lập lịch của BKSupComp sang định dạng của phân hệ chống lỗi 60
    3.3.1.2. Cung cấp danh sách các định danh tiến trình MPI cho bộ quản lí tài nguyên. 63
    3.3.1.3. Cung cấp tín hiệu báo kết thúc một công việc cho bộ quản lí tài nguyên và thực thi 64
    3.3.2. Cải thiện chống lỗi theo phương pháp di trú tiến trình. 64
    3.3.2.1. Tự động cấp phát nút mới để chạy lại tiến trình lỗi 64
    3.3.2.2. Thực hiện chạy lại tiến trình lỗi trên nút mới 66
    3.4. Thiết kế tích hợp phân hệ chống lỗi 67
    3.4.1. Thiết kế tổng thể tích hợp phân hệ chống lỗi cho hệ thống tính toán song song phân cụm 68
    3.4.2. Thiết kế cài đặt tích hợp trong môi trường. 69
    3.4.2.1. Thiết kế giao tiếp với bộ quản lí tài nguyên và thực thi MOM . 69
    3.4.2.2. Thiết kế giao tiếp chống lỗi di trú tiến trình. 74
    Chương 4 Cài đặt và chạy thử nghiệm 77
    4.1. Tích hợp với MPICH 77
    4.2. Cài đặt thử nghiệm 78
    Chương 5 Kết luận và hướng phát triển của đề tài 80
    Thuật ngữ. 82
    Tài liệu tham khảo. 83

    Tài liệu tham khảo

    [1] Aur´elien Bouteiller, Franck Cappello, Thomas H´erault, G´eraud Krawezik, Pierre Ltôiarinier, Fr´ed´eric Magniette. MPICH-V : A Fault Tolerant MPI for Volatile Nodes based on Pessimistic Sender Base Message Logging. LRI, Universit´e de Paris Sud, Orsay, France INRIA Futurs, Saclay, France URL: http://www.lri.fr/ ˜gk/MPICH-V

    [2] L. Alvisi and K. Marzullo. Message logging : Pessimistic, optimistic, and causal. In Proceedings of the 15th International Conference on Distributed ComputingSystem (ICDCS 1995), pages 229–236. IEEE CS Press, May-June 1995.

    [3] David Bailey, Tim Harris, William Saphir, Rob Van Der Wijngaart, Alex Woo, and Maurice Yarrow. The NAS Parallel Benchmarks 2.0. Report NAS-95-020, Numerical Aerodynamic Simulation Facility, NASA Ames Research Center, 1995.

    [4] George Bosilca, Aur´elien Bouteiller, Franck Cappello, Samir Djilali, Gilles F´edak, C´ecile Germain, Thomas H´erault, Pierre Lemarinier, Oleg zodygensky, Fr´ed´eric Magniette, Vincent N´eri, and Anton Selikhov. Mpich-v: Toward a scalable fault tolerant mpi for volatile nodes. In SC2002: High Performance Networking and Computing (SC2002), Baltimore USA, Novembre 2002. IEEE/ACM.

    [5] M. Elnozahy, L. Alvisi, Y. M. Wang, and D. B. Johnson. A survey of rollback-recovery protocols in message passing system. Technical Report CMU-CS-96-181, School of Computer Science, Carnegie Mellon University, Pittsburgh, PA, USA, October 1996.

    [6] Robert E.Strom, David F. Bacon, and Shaula A. Yemini. Volatile logging in n-fault-tolerant distributed system. In 18th Annual International Symposium on Fault-Tolerant Computing (FTCS-18), pages 44–49. IEEE CS Press, June 1988.

    [7] M. Litzkow, T. Tannenbaum, J. Basney, and M. Livny. Checkpoint and migration of unix processes in the condor distributed processing system. Technical Report Technical Report 1346, University of Wisconsin-Madison, 1997.

    [8] Sriram Rao, Lorenzo Alvisi, and Harrick M. Vin. Egida: An extensible toolkit for low-overhead fault tolerance. In 29th Symposium on Fault-Tolerant Computing (FTCS’99), pages 48–55. IEEE CS Press, 1999.

    [9] Georg Stellner. Cocheck: Checkpointing and process migration for mpi. In Proceedings of the 10th International Parallel Processing Symposium (IPPS ’96), Honolulu, Hawaii, April 1996. IEEE CS Press.

    [10] Yuqun Chen, Kai Li, and James S. Planck. Clip: A checkpointing tool for message-passing parallel programs. In SC97: High Performance Networking and Computing (SC97). IEEE/ACM, November 1997.
     

    Các file đính kèm:

Đang tải...