نام پژوهشگر: بهاره مهاجر
بهاره مهاجر حسین مومنی
انبار داده برای ذخیره مقادیر بزرگ داده استفاده می شود که این داده ها اغلب برای پردازش تحلیلی آنلاین olap)) استفاده می شوند. هدف از این مخازن بزرگ داده حمایت از تصمیم گیری های اولیه در کسب و-کار هوشمند جهت رسیدن به یک پاسخ بهینه از پرس و جوهای تحلیلی پیچیده می باشد. بر خلاف پایگاه-داده سیستم های عملیاتی که دارای معماری رابطه ای می باشند و از نرمال کردن برای جداول استفاده می کنند طراحی انبار داده به شکلی خاص و غیر نرمال می باشد که این امر سبب می شود اتصالات بین جداول کاهش یابد و در نتیجه سبب افزایش سرعت گزارش گیری می شود. محاسبات ابری یک تکنیک مبتنی بر وب می باشد که به موجب آن منابع در قالب سرویس ها به اشتراک گذاشته می شوند. توده عظیمی از داده ها می توانند با هزینه اندک در قالب سرویس های انبار داده، در ابر محاسباتی ذخیره و به اشتراک گذاشته شوند، دو تکنیک انبار داده و محاسبات ابری با حداکثر مزایا و کاهش هزینه می توانند به سازماندهی تجارت هوشمند کمک کنند. در این پایان نامه یک مدل انبار داده توزیع شده را در محیط محاسبات ابری ارئه می-نمائیم. برای ذخیره سازی حجم زیادی از داده ها در ابر هنوز چالش هایی وجود دارد که عمده آنها مربوط به مدیریت پردازش etl و داده های غیر ساخت یافته هستند. چارچوب mapreduce که برای سیستم-های توزیع شده و محاسبات ابری طراحی شده است می تواند راهکاری برای غلبه بر این مشکلات باشد. در mapreduce برای داده ها جفت ( کلید/مقدار) در نظر می گیریم و با توجه به آن یک کلید تعریف می-شود که مطابق با آن کلید می توانیم از داده ها گزارش گیری نماییم. در این پایان نامه با استفاده از چارچوب mapreduce، راهکار mrd را جهت پیاده سازی انواع ساختار داده های حجیم در محیط توزیع شده محاسبات ابری پیشنهاد می نماییم. پس از پیاده سازی انبار داده برنامه شمارش کلمات با زبان c#و پایگاه داده sqlserver، زمان اجرای روش پیشنهادی mrd را با دو الگوریتم hadoop و الگوریتم mraproori مقایسه نمودیم و نشان دادیم که متوسط زمان اجرای الگوریتم پیشنهادی mrd بر روی دو گره، 2.88 برابر سریعتر از الگوریتم mraproori و 2.27 برابر سریعتر از الگوریتم hadoop می-باشد.