نام پژوهشگر: علیرضا صادق نیا

افزایش قابلیت دسترسی در سیستمهای پردازش موازی مبتنی بر کلاستر به کمک نظارت سخت افزاری
پایان نامه وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی برق 1387
  علیرضا صادق نیا   احمد معتمدی

توسعه فناوری های مختلف و کاربردهای آنها، استفاده کنندگان از این کاربردها را با حجم عظیمی از پردازش، برای اجرای آنها مواجه ساخته است. استفاده از پردازش موازی بعنوان یکی از راه حلهای غلبه بر این مشکل، مدتها است که مد نظر دانشمندان این رشته از علوم رایانه قرار گرفته است. یکی از اقصتادی ترین روش های بهره گیری از توانایی های پردازش موازی، استفاده از فناوری کلاستر می باشد. یک کلاستر شامل مجموعه ای از واحدهای پردازشی است که باهم مرتبط هستند و با یکدیگر بصورت یک منبع محاسباتی واحد عمل می کنند. با افزایش اندازه ماشین های موازی، اجرای کامل کاربردها روی آنها بدون مواجهه با خطا خیلی دشوار است. لذا یکی از مهمترین مسائل موجود در ماشین های موازی، مسئله مدیریت و تحمل خرابی ها با هدف دستیابی به قابلیت دسترسی بالا می باشد. برای حل مشکل فوق، روش بازیابی با استفاده از گزارش وارسی، cpr(checkpoint/recovery) به عنوان یک روش تحمل خرابی ابتایی استفاده می شود که دارای سربار زیادی می باشد. در این پایان نامه سعی در طراحی یک مکانیزم مدیریت خطای انطباقی کرده ایم که در زمان اجرا با استفاده از یکسری پیشگویی ها از وضعیت سیستم، در صورت نیاز cpr را فراخوانی می نماید و به این ترتیب سربار حاصل از این روش را کاهش داده و زمان اجرای برنامه را نیز کاهش می دهد. مطالعات نشان می دهد که می توان از یک مدل ارزیابی بر حسب هزینه برای تصمیم گیری پویا در زمان اجرا استفاده نمود و به همین منظور با استفاده از گزارش خطای واقعی یک سیستم کلاستر در مرکز ncsa نشان می دهیم که مکانیزم فوق با دقت نسبتا مناسب پیشگویی خطا، زمان اجرا را در حدود 14? نسبت به روش cpr بهبود می دهد که برای اجرای کاربردهای با زمان طولانی، قابل توجه می باشد.