Er du lidt usikker på, hvad hypen omkring open source-systemet HADOOP går ud på? Så er du ikke alene om den følelse. Når sandheden skal frem, er vi også ude i et dybt teknisk koncept, som kun folk der for alvor tænder på 0-er og 1-taller har en chance for at komme til at forstå til bunds. (Se videoen nedenfor for en hurtig intro til de nye tekniske buzz words).
De muligheder, som den nye teknologi fører med sig, er det dog mere end almindeligt interessant at kende til. Ikke mindst, hvis du eller din virksomhed kan se potentialet i at arbejde med analyse af store datamængder eller mange forskelligartede kilder.
Mange virksomheder i især USA er allerede i gang med HADOOP, og analysefirmaer som Gartner og Allied Market Research spår systemet massiv fremgang de kommende år. Der er altså efter alt at dømme tale om en skelsættende teknologi, som kommer til at ændre måden, vi arbejder med data og analyse på. Koblingen til analytics er oplagt, og R&D-afdelingen i SAS har længe været i gang med at integrere HADOOP og SAS.
Ekstra muskler til håndtering af big data – på attraktive vilkår
Men hvad er det så, der er så interessant ved HADOOP? Jeg var til et internt videndelingsmøde her i SAS den anden dag, som for mig kastede en del lys over sagen. Kogt helt ned kan man sige, at HADOOP leverer ekstra kraft til datarelaterede projekter. HADOOP-elefanten er, på trods af sit nuttede udseende, et rigtigt muskelbundt, som kan bruges til at lagre og håndtere data meget effektivt og omkostningsvenligt. Det gælder også enorme datamængder som hos facebook, eBay, Yahoo osv., da data deles op og håndteres på clusters bestående af standardservere.
HADOOP er ikke en database i traditionel forstand, men et open source framework, som kan håndtere data i næsten alle størrelser og formater. Det kan bruges til datalagring alene eller i kombination med virksomhedens data warehouse. Det kan med fordel bruges som sandkasse for udforskning af nye muligheder med analytics. Nogle af fordelene med HADOOP er:
- Lavere omkostninger til lagring af big data. Open source-software er som udgangspunkt gratis, og HADOOP anvender standardhardware.
- Hastighed. På grund af den distribuerede model (hvor mange computere deles ligeligt om at levere arbejdskraft), kan meget store datamængder behandles meget hurtigt.
- Skalerbarhed. Det kræver ikke megen administration at tilføje flere maskiner, og udgiften er kendt og overskuelig.
- Fleksibilitet. Du behøver ikke at bearbejde data, før de lagres, heller ikke ustrukturerede data som tekst, billeder og videoer. Du kan lagre så mange data du vil og senere beslutte, hvordan de skal anvendes.
- Pålidelighed. HADOOP er et meget robust system, da hardwarefejl ikke får det til at gå ned. Maskinens ”job” sendes videre til en anden server og processen fortsætter.
Det lyder næsten for godt til at være sandt, så nogle enkelte ulemper må der være at finde. F.eks. mener mine tekniske kolleger ikke, at der er tale om ”plug & play”-software. Generelt er HADOOP et lidt umodent økosystem og der er en del løse ender. Det bruger adskillige programmeringssprog, og der er kun få grafiske brugergrænseflader, så det kræver mange (nye) kompetencer. Via en kommerciel partner som Hortonworks eller Cloudera bliver det dog nemmere at gå til, og der sker en enorm udvikling på området.
HADOOP leverer ”analytisk brændstof” til SAS
Virksomheder, der bruger SAS, får også nemmere adgang til den nye teknologi. Fordelen ved at kombinere de to verdener er, at man dermed får endnu bedre muligheder for at hente værdifuld indsigt ud af big data – inden for et rimeligt hardwarebudget.
Der er allerede adskillige SAS-løsninger, som integrerer HADOOP og udnytter regnekraften i clusteret. Det gælder både inden for data management, business analytics og avanceret analyse, og mere er på vej. SAS-brugere kan på den måde trække på HADOOP via SAS, som de i forvejen kender, og evt. tage nogle af de nye grafiske SAS-brugergrænseflader mod HADOOP i anvendelse.
Hvis du vil vide mere om SAS-produkter tilpasset HADOOP, kan du læse dette whitepaper. Hvis du vil vide mere om HADOOP, kan du her læse flere artikler og rapporter.