Big Data megoldások

Szakembereink részt vettek egyedi Big Data megoldások alapjául szolgáló informatikai infrastruktúrák tervezésében és kialakításában. Nemcsak a nagyvállalati rendszerek esetén ma még egyeduralkodó Intel Xeon alapú kiszolgálók felhasználásával, hanem a mobil eszközök világát egyre inkább kinövő teljesítményű ARM processzorok alkalmazásával. Ez utóbbiak felhasználása azért előremutató megoldás, mert energiafelvételük jelentősen kisebb, mint ez előbbieké.

Az adatközpontok fenntartási költségének akár 30%-a is származhat az áramfogyasztásból, hiszen nem csak a kiszolgálók áramfelvételét kell biztosítani, hanem az általuk termelt hőt is közömbösíteni kell légkondicionálók segítségével, tovább növelve ezzel a költségeket. Tapasztalataink szerint, amíg egy Intel Xeon E5-2699 processzor hőleadása 150 Wattot is elérheti és aktív hűtés nélkül tönkremenne, addig egy ARM A-72 processzor hőleadása nagyjából 5 Watt és nincs szüksége aktív hűtésre. Ráadásul az Intel processzorok ára többszöröse az ARM processzoroknak, bár ennek nyomós oka van: a számítási teljesítmények közti különbség.

Tudnunk kell, hogy a jóval alacsonyabb áramfelvételhez jóval alacsonyabb teljesítmény is társul, a fenti példában szereplő Intel Xeon processzor több nagyságrenddel gyorsabb számítási kapacitással rendelkezik, mint ARM vetélytársa. Miért mondhatjuk mégis, hogy az ARM processzorok alkalmazása előremutató lehet? Azért, mert igen jól alkalmazhatóak az elosztott és párhuzamos számításokra épülő Big Data megoldások esetén. A hagyományos Intel technológiával azonos ár és fenntartási költség mellett nagyságrendekkel több ARM processzort állíthatunk csatasorba, melyek összesített teljesítménye már képes elérni a hagyományos megoldás teljesítményét.

Seymour Roger Cray, az első igazi szuperszámítógépek megalkotója szerint, ha fel akarunk szántani egy mezőt, akkor erre 2 ökör alkalmasabb, mint 1024 csirke. Milyen előnnyel járhat mégis, ha a szerverteremben nem 2 terjedelmes és bivalyerős Intel kiszolgáló morog, hanem 1024 névjegykártya méretű ARM kiszolgáló számol némán?

Ha párhozamos feldolgozásról, a feladatok ténylegesen párhuzamos elvégzéséről van szó, akkor hatékonyabb minél több processzor alkalmazása, még ha ezek teljesítménye gyenge. Ezen felül jóval egyszerűbb az ARM megoldások skálázása és finomhangolása. Ha például teljesítmény igények pontosan 7,5 %-al nőnek egy év alatt, akkor az ARM környezetet pontosan 7,5 %-al lehet felskálázni, míg Intel környezet esetében egy új kiszolgáló hadrendbe állítása akár 30%-os felskálázást is jelenthet, teljesen felesleges költségeket generálva. Nem beszélve arról, hogy amíg az egyik Intel kiszolgáló kiesése 50 %-os teljesítmény csökkenést eredményez, addig két vagy három ARM kiszolgáló leállása észre sem vehető.

Mind ARM mind Intel alapú Big Data környezeten végzett teszteléseink megmutatták, hogy a rendkívül gyors, de energia- és költségfaló Intel Xeon szerverek mellett a gyengébb teljesítményű, de kisebb helyigényű, kevesebb áramot és költséget emésztő ARM számítógépekből kialakított számítási fürtöknek is van létjogosultsága a nagymennyiségű adatokat párhozamos algoritmusokkal feldolgozó Big Data megoldások kiszolgálásában.

Szakembereink, a Big Data megoldások világában meghatározó Hadoop rendszert tervezésén és kialakításán kívül, az elosztott számítások világában favoritnak számító Spark rendszer kialakításában is részt vettek. Tapasztalataink azt mutatták, a feldolgozó algoritmusok megfelelő kiválasztásával, és az infrastruktúra gondos finomhangolásával a Spark rendszer 10x vagy 20x gyorsabb feldolgozásra képes a MapReduce megközelítést használó Hadoop rendszerrel szemben.

Sikeresen integráltuk ezen rendszerek biztonsági megoldásait a nagyvállalati környezetben elterjedt Active Directory címtárral illetve Kerberos azonosítási technológiával, megteremtve ezzel a Big Data megoldások által szolgáltatott, érzékeny üzleti adatokat tartalmazó riportok kellő szintű védelmét.