Menej je niekedy viac: Mapreduce a Flume v paralelných výpočtoch

نویسنده

  • Richard Královic
چکیده

V porovnaní so sekvenčnými výpočtami sú výpočty využívajúce paralelizmus výrazne zložitejšie. Z teoretického pohl’adu je vel’mi prirodzeným modelom paralelných výpočtov model PRAM, ktorý je analógiou modelu RAM často používaného v teórii zložitosti. Z praktického pohl’adu je však zaručenie úplnej synchronizácie a uniformného prístupu k zdiel’anej pamäti, garantovaných modelom PRAM, značne problematické. Pre realizáciu paralelných výpočtov sa preto často využívajú distribuované systémy s rôznou mierou asynchónnosti. Klasické systémy používané pre implementáciu paralelných výpočtov v distribuovaných systémoch, ako napr. MPI, poskytujú vel’kú flexibilitu. To však so sebou prináša aj nevýhody. Používatel’ sa totiž musí postarat’ o mnohé technické detaily, ako napr. správnu synchronizáciu výpočtu, odolnost’ voči chybám, a pod., čo implementáciu paralelných algoritmov výrazne komplikuje. Alternatívou k takýmto všeobecným systémom pre využitie paralelizmu sú systémy, ktoré kladú isté obmedzenia na komunikačnú štruktúru paralelného výpočtu. Sem patrí napr. systém MapReduce, určený na spracovávanie vel’kého množstva dát. Používatel’ tu stráca flexibilitu, čo znamená, že použitie takýchto systémov nie je vždy vhodné. Na druhej strane, používatel’ sa môže sústredit’ na samotné jadro logiky paralelného výpočtu; odolnost’ voči chybám je k dispozícii bez jeho zásahu. Z pohl’adu užívatel’a pozostáva výpočet v MapReduce pozostáva dvoch fáz: Vo fáze Map môže užívatel’om určená funkcia vytvorit’, pre každú vstupnú položku, niekol’ko párov (kl’úč, hodnota). Vo fáze Reduce je, pre každú použitú hodnotu kl’úča, zavolaná užívatel’om definovaná funkcia, ktorá spracuje všetky hodnoty prislúchajúce k danému kl’úču. Systém MapReduce je, aj napriek jeho jednoduchosti, použitel’ný pre prekvapivo vel’ké množstvo problémov. V mnohých situáciách je však na riešenie problému potrebných niekol’ko cyklov MapReduce a ich ručné plánovanie a menežovanie býva zväčša zdĺhavé. Na ul’ahčenie tejto situácie bol navrhnutý system Flume, ktorý poskytuje užívatel’ovi komfortnú abstrakciu nad MapReduce. Flume poskytuje dátový typ pre paralelizovaný súbor dát, s ktorým potom môže užívatel’ pracovat’ ako s jednoduchou premennou. Na súbore dát je možné spustit’ paralelnú operáciu, ktorá aplikuje danú funkciu na každú položku jednotlivo. Okrem toho je možné preusporiadat’ súbor obsahujúci páry (kl’úč, hodnota) podl’a kl’úča, podobne ako v systéme MapReduce. Knižnica Flume na základe vykonaných operácii navrhne, zoptimalizuje, a vykoná sériu MapReduce cyklov, ktoré realizujú užívatel’om požadované operácie.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Transformation embedment of local networks into superior net

Transformačné vloženie lokálnych sietí do nadradenej siete Transformačné spojenie lokálnych geodetických sietí s nadradenou sieťou (napr. ŠTS v S-JTSK) nedáva jednoznačné výsledky. V závislosti od použitých transformačných faktorov vznikajú na homologických bodoch súradnicové rozpory, ktoré treba dodatočne zohľadniť pri výpočtoch transformovaných súradníc. Jednou z najvhodnejších transformačnýc...

متن کامل

Diabetická Neuropatia U Detí a Adolescentov Ii - Význam Včasnej Diagnostiky

Diabetická neuropatia je najčastejšou neskorou orgá-novou komplikáciou diabetu mellitu. Aj kei vo svete dodnes neexistuje jednotný diagnostický systém, vo všeobecnosti sa akceptuje, že anamnestický rozbor s analýzou subjektívnych ťažkostí, objektívne neurologické vyšetrenie a elektrofyziologické techniky zostávajú hlavným nástrojom v diagnostike diabetickej neuropatie. Na urýchlenie zberu anamn...

متن کامل

Problémy Geologických Zdrojov a Environmentálne Potreby Earth Resource Problems and Related Environmental Considerations

The paper discusses some of the problems of geology and earth resources management in relation to environmental problems of the technosphere. It deals also with some aspects of environmental monitoring of areas where surveying or mining operations are planned or in progress. 1. Úvod Rast ľudskej populácie a limitované zemské zdroje súvisia aj s otázkami rastu cien nerastných surovín a očakávané...

متن کامل

„Burned-out“ tumor semenníka s metastázou do retroperitoneálnej lymfatickej uzliny

Pojmom „burned-out tumour“ sa označuje zriedkavá klinická entita, ktorá sa prezentuje spontánnou a kompletnou regresiou testikulárneho nádoru bez predchádzajúcej liečby pri náleze metastáz v retroperitoneu, v mediastíne, v lymfatických uzlinách, v pľúcach alebo v pečeni. Opisujeme prípad 55-ročného pacienta s bolesťami v pravej driekovej oblasti, u ktorého bola CT vyšetrením zistená tumorózna m...

متن کامل

Gradient of contact stress as a parameter determining biomechanical status of human hip

Bedrový kĺb je jedným z hlavných nosných kĺbov v tele. Pretože je tento kĺb často postihnutý degeneratívnymi procesmi, ktoré vedú k imobilizácii pacienta, skúmajú sa faktory, ktoré ovplyvňujú jeho vývoj. Predpokladá sa, že dlhodobo zvýšený tlak na kĺbovú chrupku urýchľuje vývoj koxartrózy [22, 51]. Preto sa v predchádzajúcich štúdiách používala na popis stavu kĺbu maximálna hodnota tlaku. Objav...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2013