Kuinka helppoa Hadoopista voi tehdä

Nykypäivän kuluttaja on totutettu palvelemaan itseään, oli kyse sitten pankkiasioiden hoitamisesta, lomamatkan varaamisesta tai jopa viranomaisasioinnista. Taakka on siirretty osaavalta asiakaspalvelijalta meille amatööreille – röyhkeimmät jopa veloittavat siitä, että saamme palvella itseämme.

Kolikon kirkkaampi kääntöpuoli on tietysti tekemisen nopeus ja joustavuus. Kun olemme oman onnemme seppiä, voimme hoitaa asioitamme juuri silloin, kun se itsellemme parhaiten sopii ja asia hoituu juuri niin sujuvasti, kuin kykymme riittävät ja välineet mahdollistavat.

Välineistön helppokäyttöisyys onkin avain, joka voi raivata tietä kustannustehokkaalle itsepalvelulle.

Tehokkaan itsepalvelun haasteena usein riittävä osaaminen

Raportoinnin ja datavisualisoinnin kentällä on jo vuosia julistettu itsepalvelumallin autuaaksi tekevää voimaa ja se on nähty toimivaksi. Perusraportit saadaan nopeasti ja joustavasti tarvitseville, eikä it-osasto kuormitu muutospyynnöistä.

Tilausta vastaavalle mallille näyttäisi olevan myös big datan preparointivaiheessa, erityisesti Hadoop-ympäristöissä. Alkuvuodesta tehty Nordic Hadoop survey indikoi, että suomalaisista kyselyyn osallistuneista organisaatioista jopa 38 prosenttia mainitsi esteeksi Hadoopin käyttöönotolle resurssien ja osaamisen puutteet.

Lisää ajatuksia datakäsittelyn itsepalvelumallista voit lukea SASin ja TDWI:n paperista Self-service big data preparation in the age of Hadoop.

Hadoop-alusta on tullut vauhdilla myös suomalaiseen big data –maisemaan. Suosituimpien Hadoop-jakeluiden mukana tulee nykyään myös graafisia välineitä, joilla Hadoopiin ladattua dataa voi käsitellä.

Näidenkin haltuunotto vaatii kuitenkin ainakin jossain määrin paneutumista asiaan, mm. tietorakenteiden ymmärtämistä ja sql-kieltä olisi hyvä osata. Myös perinteiset etl-välineet ovat aikaa sitten integroituneet Hadoopiin ja peruslataukset sisään ja ulos sujuvat hyvin.

Rajoitetusti asioita voidaan tehdä myös Hadoopin sisällä, useimmiten jonkin sql-pohjaisen kyselyrajapinnan (esim. Hive) kautta. Pääsääntöisesti nämä raskaammat välineet on kuitenkin tehty pro-kehittäjälle, jolloin satunnaisen kyselyntekijän työkalupakista ei löydy näitä tai jos löytyykin, niin oppimiskäyrä on jyrkkä.

Lisäksi kun tarvitsee tehdä asioita, joihin HiveQL ei taivu, joudutaan ehkä data lataamaan Hadoopista ulos muokkausta varten.

Miten sitten Hadoop-data haltuun?

Etenkin raportointikäytössä tulee usein tarve, että tekijä haluaisi tiedot helposti avattuna raportointivälineeseen, ehkä kevyen muokkauksen ja kenties yhdistelyn jälkeen. Entä jos tuo kaivattu data onkin Hadoopissa, eikä esimerkiksi tutussa ja turvallisessa Excel-taulukossa?

SAS® Data Loader for Hadoop on itsepalveluperiaatteelle rakennettu täsmäratkaisu datan siirtämiseen, profilointiin, muokkaamiseen, puhdistukseen ja jatkolataukseen juuri Hadoop-ympäristöissä. Data Loader mahdollistaa Big Datan käsittelyn käyttäjäystävällisen selainkäyttöliittymän kautta. Vaikka ulkokuori on yksinkertainen, pellin alla sykkii kuitenkin uusinta SAS-teknologiaa.

Data Loader perustuu SAS Embedded Process –teknologiaan, ja mahdollistaa monipuolisemman datan käsittelyn Hadoopin sisällä. Tämä tarkoittaa sitä, että niin sanottu sulautettu SAS-prosessi on asennettu Hadoop-klusterin jokaiselle noodille, jolloin datan käsittely tapahtuu rinnakkaisesti koko klusterin prosessointivoimaa hyödyntäen.

Etuna on, että datalle voidaan tehdä monimutkaisia muokkaus- ja analytiikkaoperaatioita ilman, että sitä tarvitsee ladata ulos Hadoop-klusterista. Esimerkkinä tästä vaikkapa datan transpononointi, jota raporttia usealta aikajaksolta rakennettaessa usein tarvitaan.

Tiedon laatua ei voi vieläkään sivuuttaa

Datan lataaminen Hadoopiin on kustannustehokas menetelmä datan säilömiseen ja prosessointiin, mutta se ei itsessään tee datasta parempaa tai laadukkaampaa kuin se alun perin oli.

Myös Hadoopissa olevan datan tulee olla laadukasta ja tarvittaessa laatua voidaan parantaa erilaisten puhdistusmenetelmien avulla. SAS Data Loader for Hadoop hyödyntää SAS:n testattuja tiedonlaadun menetelmiä Hadoopissa olevan datan laadun kehittämiseen.

Profilointi paljastaa puutteet tehokkaasti

Datan laatua arvioitaessa profilointivälineet antavat hyvän yleiskuvan laadusta. Tiesitkö, että profilointi on mahdollista tehdä myös suoraan Hadoopissa olevalle datalle (kuvassa yläpuolella)?

Profiloinnin tulokset paljastavat datassa ilmenevät puutteet, sekä kuvaavat dataa tunnuslukujen ja graafien kautta, jolloin esimerkiksi poikkeamat ja puuttuvat arvot on helposti havaittavissa.

Tarvittaessa korjaavia toimenpiteitä, kuten standardointi, duplikaattien löytäminen tai parserointi on mahdollista tehdä suoraan Hadoop-klusterin sisällä.

Kun data on todettu sopivaksi aiottuun käyttötarkoitukseen, voi sitä tietysti käyttää sellaisenaan suoraan Hadoopista, kunhan analytiikka tai raportointivälineet sitä tukevat. Tämän lisäksi data voidaan ladata ulos toivotussa muodossa, oli se sitten SAS-taulu tai taulu jossakin relaatiokannassa.

Ulkoisiin relaatiokantoihin SAS Data Loader kytkeytyy Sqoop-adapterin avulla, joka on Hadoop-ympäristöissä oletusväline datan lataamiseen näistä lähteistä.

Lopullinen hyöty viimeistellään analytiikalla

Nykyajan muistinvaraiset bi-välineet ovat tehokkaita välineitä Hadoopin rinnalla käytettäväksi. Erityisesti SAS:n visualisointiratkaisu SAS® Visual Analytics osaa hyödyntää Data Loaderia tehokkaasti käyttämällä rinnakkaislatausta suoraan Hadoopista muistinvaraiseen analytiikkamoottoriin. Tällä saadaan ennennäkemätöntä tehokkuutta Big Datan lataukseen: suoraan Hadoopista muistiin rinnakkaisesti koko kaistan leveydeltä.

Koeajo kertoo enemmän

Mikäli tämä herätti mielenkiintosi, käy kokeilemassa SAS® Data Loader for Hadoopia. SAS tarjoaa ratkaisusta maksuttoman 90-päivän koekäyttöversion.

Kokeilua varten tarvitset lisäksi joko Clouderan tai Hortonworksin Hadoop-hiekkalaatikon. Nämä muuten ovat kaikki virtuaalikoneita, joten koeajo on nopeaa ja vaivatonta. Ja maksutonta.

Blogs

Blogs

Kuinka helppoa Hadoopista voi tehdä

About Author