Benefits of Exascale Supercomputing
Inhoudsopgave:
Naarmate supercomputers krachtiger worden, zullen ze ook kwetsbaarder worden voor mislukken, dankzij de toegenomen hoeveelheid ingebouwde componenten. Een paar onderzoekers van de recente SC12-conferentie vorige week in Salt Lake City, Utah, hebben mogelijke oplossingen geboden voor dit groeiende probleem.
De huidige high-performance computing-systemen (HPC) kunnen 100.000 knooppunten of meer bevatten, waarbij elke knoop is opgebouwd uit meerdere componenten van geheugen, processors, bussen en andere schakelingen. Statistisch gezien zullen al deze componenten op een gegeven moment mislukken en stoppen ze de operaties wanneer ze dat doen, zei David Fiala, een Ph.D student aan de North Carolina State University, tijdens een gesprek op SC12.
Het probleem is niet een nieuwe natuurlijk. Toen het nationale knooppunt ASCI (Accelerated Strategic Computing Initiative) met 600 knooppunten van Lawrence Livermore in 2001 online ging, had het een gemiddelde tijd tussen storingen (MTBF) van slechts vijf uur, mede dankzij defecte onderdelen. Latere afstemmingsinspanningen hadden de MTBF van ASCI White tot 55 uur verbeterd, zei Fiala.
Maar naarmate het aantal supercomputerknooppunten groeit, neemt ook het probleem toe. "Er moet iets aan gedaan worden, het zal erger worden als we naar exascale gaan," zei Fiala, verwijzend naar hoe supercomputers van het volgende decennium naar verwachting tien keer zoveel rekenkracht zullen hebben als de hedendaagse modellen.
De technieken van vandaag voor het omgaan met systeemfouten kan het niet goed schalen, zei Fiala. Hij haalde controlepunten aan, waarin een lopend programma tijdelijk wordt onderbroken en de status ervan op schijf wordt opgeslagen. Als het programma vervolgens crasht, kan het systeem de taak vanaf het laatste controlepunt opnieuw starten.
NCSUDavid Fiala Het probleem met controlepunten is volgens Fiala dat naarmate het aantal knooppunten groeit, de hoeveelheid systeemoverhead nodig om controlepunten te doen groeien - en groeit in een exponentieel tempo. Op een supercomputer met 100.000 knooppunten is bijvoorbeeld slechts ongeveer 35 procent van de activiteit betrokken bij het uitvoeren van werkzaamheden. De rest wordt in beslag genomen door controlepunten en - mocht het systeem worden hersteld, Fiala geschat.
Vanwege alle extra hardware die nodig is voor exascale systemen, die uit een miljoen of meer componenten kunnen worden gebouwd, zal de betrouwbaarheid van het systeem toenemen. om 100 keer verbeterd te worden om dezelfde MTBF te behouden als hedendaagse supercomputers, zei Fiala.
Oud, goed advies: back-upgegevens
Fiala presenteerde technologie die hij en collega-onderzoekers hebben ontwikkeld en die de betrouwbaarheid kunnen helpen verbeteren. De technologie pakt het probleem van stille gegevenscorruptie aan, wanneer systemen onopgemerkte fouten maken door gegevens naar schijf te schrijven. /www.software-support.europa.eu> De benadering van de onderzoekers bestaat er in om meerdere kopieën of "klonen" van een programma gelijktijdig te laten lopen en vervolgens de antwoorden te vergelijken. De software, RedMPI genaamd, wordt uitgevoerd in combinatie met de Message Passing Interface (MPI), een bibliotheek voor het splitsen van actieve applicaties op meerdere servers, zodat de verschillende delen van het programma parallel kunnen worden uitgevoerd.
RedMPI onderschept en kopieert elke MPI bericht dat een toepassing verzendt en verzendt kopieën van het bericht naar de kloon (of klonen) van het programma. Als verschillende klonen verschillende antwoorden berekenen, kunnen de cijfers onmiddelijk worden herberekend, waardoor u tijd en middelen bespaart om het hele programma opnieuw uit te voeren.
"Het implementeren van redundantie is niet duur. Het kan een hoog aantal kerntellingen bevatten. die nodig zijn, maar het voorkomt de noodzaak van herschrijvingen met herstart van het controlepunt, "zei Fiala. "Het alternatief is om opdrachten gewoon opnieuw uit te voeren totdat je denkt dat je het juiste antwoord hebt." Fiala raadde aan om twee back-upkopieën van elk programma uit te voeren, voor drievoudige redundantie. Hoewel het uitvoeren van meerdere exemplaren van een programma aanvankelijk meer bronnen zou vergen, kan dit in de loop van de tijd zelfs efficiënter zijn, omdat programma's niet opnieuw hoeven te worden afgespeeld om de antwoorden te controleren. Controlepunten zijn misschien ook niet nodig wanneer meerdere exemplaren worden uitgevoerd, waardoor ook systeembronnen worden bespaard.
UCSCEthan Miller
"Ik denk dat het idee van redundantie eigenlijk een geweldig idee is. [Voor] zeer grote berekeningen, waarbij honderdduizenden knooppunten zijn betrokken, is er zeker een kans dat fouten binnensluipen," zei Ethan Miller, een hoogleraar computerwetenschappen aan de University of California Santa Cruz, die de presentatie bijwoonde. Maar hij zei dat de aanpak misschien niet geschikt is, gezien de hoeveelheid netwerkverkeer die door dergelijke redundantie kan ontstaan. Hij stelde voor om alle applicaties op dezelfde set nodes uit te voeren, wat internodig verkeer zou kunnen minimaliseren.
In een andere presentatie presenteerde Ana Gainaru, een doctoraatsstudent aan de universiteit van Illinois in Urbana-Champaign, een techniek voor het analyseren van log bestanden om te voorspellen wanneer systeemfouten zouden optreden.Het werk combineert signaalanalyse met datamining. Signaalanalyse wordt gebruikt om normaal gedrag te karakteriseren, dus wanneer een fout optreedt, kan deze eenvoudig worden opgemerkt. Datamining zoekt naar correlaties tussen afzonderlijke gemelde storingen. Andere onderzoekers hebben aangetoond dat meerdere mislukkingen soms met elkaar gecorreleerd zijn, omdat een fout met de ene technologie de prestaties in andere kan beïnvloeden, aldus Gainaru. Wanneer een netwerkkaart bijvoorbeeld faalt, zal hij binnenkort andere systeemprocessen doorkruisen die afhankelijk zijn van netwerkcommunicatie.
De onderzoekers constateerden dat 70 procent van de gecorreleerde fouten een kans bieden van meer dan 10 seconden. Met andere woorden, wanneer het eerste teken van een fout is gedetecteerd, kan het systeem maximaal 10 seconden hebben om zijn werk op te slaan, of het werk naar een ander knooppunt verplaatsen voordat een meer kritieke fout optreedt. "Falen voorspelling kan worden samengevoegd met andere fouttolerantietechnieken," zei Gainaru.
Joab Jackson dekt bedrijfssoftware en algemeen technologisch nieuws voor
The IDG News Service
. Volg Joab op Twitter op @Joab_Jackson. Het e-mailadres van Joab is [email protected]
Vallen Google laat vallen Bluetooth, GTalkService API's van Android 1.0
Google liet Bluetooth en GTalkService instant messaging API's vallen
Conficker raakt het hardst in Azië, Latijns-Amerika
Azië en Latijns-Amerika zijn het zwaarst getroffen door de Conficker-worm, zeggen beveiligingsdeskundigen.
We besteden veel tijd aan het doorlezen van sociale netwerksites, maar dat is niet genoeg Dat betekent dat we allemaal sociale vlinders zijn. Het lijkt erop dat e-mail het nieuws van gisteren is geworden. Terwijl het controleren van e-mail vroeger onze belangrijkste reden was om online te gaan, besteden we nu meer van onze online tijd aan het surfen op sociale netwerken, volgens nieuwe nummers van Nielsen. We spenderen 23 procent van onze online tijd aan surfen op sociale netwerken zoals Faceboo
Dat nieuws hoeft mij niet per se te verbazen: ik kan 10 minuten doorbrengen op Facebook en verstrikt raken in de activiteiten van 25 verschillende mensen, terwijl het besteden van diezelfde 10 minuten aan e-mail me in staat zou stellen om veel nutteloze junkmail te verwijderen en misschien een bericht te lezen. Maar als ik echt stop om erover na te denken, houdt Facebook me niet echt beter verbonden met de meeste mensen. Hier zijn vijf redenen waarom.