Sain lahjaksi Marko Erolan kirjoittaman kirjan Kirottu kaivos. Se kertoo yksityiskohtaisesti kaivosyhtiö Talvivaaran (tähänastisen) tarinan. Tiedonkin louhinnan ammattilaiselle kirja tarjoaa paljon mielenkiintoista kaivostoiminnan perustietoa ja näkymiä sen vaikeuksiin. Niitä matkan varrella riitti.
Talvivaaran käyttämän liuotusmenetelmän onnistumisen tärkeimpiä tekijöitä oli tehokas veden kierrätys valtavissa malmikasoissa. Kaivoksen suunnittelun yhteydessä oltiin huolissaan veden riittävyydestä, mutta tilanne kääntyikin matkan varrella päälaelleen.
Sulamisvesien ja ennätyssateiden johdosta kaivosalueelle varastoitui miljoonia kuutioita ylimääräistä vettä. Kiristyneen ympäristöpolitiikan takia sitä ei voitu juoksuttaa lähijärviin.
Tämä johti muun muassa sakka-altaiden murtumiseen ja avolouhoksen täyttymiseen, jotka madalsivat tuotannon tehokkuutta ja aiheuttivat ympäristöongelmia. Ongelmaa kutsutaan kirjassa termillä ”vesipöhö”.
Jäin pohtimaan, voivatko yritykset kärsiä myös ”datapöhöstä”. Eräät ajan ilmiöt antavat tuolle ajatukselle jonkin verran tukea.
Datan varastointi varmuuden vuoksi?
Yhtiöt ja organisaatiot kun tarvitsevat jatkuvasti uutta ja tarkempaa informaatiota omien prosessiensa tehokkaaseen pyörittämiseen. Dataa kiertää yhtiöissä kiihtyvällä vauhdilla. Samalla tiedon varastoimisen kustannukset ovat alentuneet dramaattisesti.
Yhden teratavun tallentaminen maksaa tänä päivänä sadasosan siitä, mitä se maksoi kymmenen vuotta sitten. Lisäksi useat pilvipalvelut tarjoavat lähes rajattoman tallennuskapasiteetin ilman järeitä laiteinvestointeja.
Onko siis helpompaa varastoida kaikki data ”varmuuden vuoksi”, kuin suodattaa laaduton aines ulos ilman sen suurempia ympäristövaurioita?
Mistä sitä dataa sitten tulvii?
Paljon on jo nyt arkistoituna vanhoissa legacy-järjestelmissä. Tuolla sanallahan tarkoitetaan vanhaa teknologiaa, koodia, laitealustaa tai ohjelmistoversiota edustavaa järjestelmää.
Vanhojen järjestelmien tietoja siirretään tänä päivänä kovalla vauhdilla uusille big data -alustoille, jotta niiden sisältämä informaatio saataisiin paremmin liiketoiminnan hyödynnettäviksi.
Paljon dataa muodostuu myös operatiivisissa sovelluksissa, joista yhä useampi yhtiö on riippuvainen tuotteidensa ja palveluidensa elinkaaren joka vaiheessa.
Näistä järjestelmistä saadaan lähes reaaliaikaista informaatiota muun muassa tuotantoketjuista, myynneistä, varastoista ja laskutuksesta.
Tätä informaatiotulvaa täydentävät vielä uusimmat strukturoimattomat tietolähteet. Niistä tärkeimpiä ovat sosiaalisen median palvelut, joista saatavaa dataa hyödyntämällä yhtiöt voivat ymmärtää paremmin asiakkaidensa käyttäytymistä eri palvelukanavissa.
Voisiko kaikki tämä varastoitu data sitten tuottaa yrityksille todellista lisäarvoa ja kilpailuetua? Aika moni uskoo siihen. Uusin pohjoismainen big data -tutkimus kertoo, että jo joka neljäs suomalainen yhtiö implementoi tai on tekemässä päätöstä Hadoop-pohjaisesta big data -alustasta.
Tutkimukseen osallistuneista 300 yhtiöstä kaksi kolmasosaa sanoo tärkeimmäksi big datan implementoinnin syyksi analytiikan kehittämisen. Peräti 76 prosenttia vastaajista on sitä mieltä, että perinteinen strukturaalinen data ei riitä vastaamaan yhtiöiden kasvaneisiin analytiikkatarpeisiin. Yrityksillä on toisin sanoen suuri tarve hallita monimuotoisia isoja tietomassoja ja saada niistä uutta informaatiota ulos.
Hadoop sopii tietomassoille
Viimeaikaiset keskustelut asiakkaidemme kanssa ovat vahvistaneet käsitystäni siitä, että Hadoop järjestelmiä käytetään nimenomaan isojen tietomassojen tallennuspaikkana ennen niiden jatkojalostamista.
Teollisuudessa kerätään sensoridataa, palveluyhtiöt hakevat web-käyttäytymiseen liittyvää asiakasdataa, vakuutusyhtiöt varastoivat korvaushakemusaineistoa; esimerkkejä on jo lukemattomia.
Hadoop-alusta toimiikin siis jonkinlaisena datan esivarastona, jollaisesta aiemmin käytettiin termiä staging area.
Nyt puhutaan hieman enteellisesti data lakesta, siis tietojärvestä. Se on hyvinkin skaalautuva ratkaisu tiedon tallentamiseen.
Mutta onko vaarana Talvivaaran kohtalo, jossa dataa onkin liikaa hallittavaksi ja järvemme pääsee saastumaan huonolaatuisesta datasta ilman kaupallista hyötyä?
Tämän välttämiseksi panostus oikeaan tietoarkkitehtuuriin ja tehokkaisiin analytiikkaratkaisuihin on syytä aloittaa (hyvissä ajoin) ennen järven täyttöä.