Virtual data warehouse - is it realistic?

Now there is a lot of discussion around data virtualization, and as new types of data emerges this creates need for new ways of accessing and consolidating data across sources (both structured and non-structured).

Data Virtualization is not something new, in its simplest form it is creating abstracted views on top of data, either as an abstraction layer, or as a consolidate data view from multiple tables. Thus, for example SQL and Data Views is just that, virtualization of your data.

In addition to visualizing your data these views also offer the functionality of maintaining security on row/column levels and the enrichment of data (computed columns). Most database systems have views; some of them segmented into dynamic views (run on query) and materialized/cached views (stored ready for execution and updated on change on underlying data).

Some databases such as Teradata, Netezza and some NoSQL vendor’s even recommend only allowing data access through the view layer, this to better control data access.

Wikipedia states the following functionalities of Data virtualization[1] :

  • Abstraction – Abstract the technical aspects of stored data, such as location, storage structure, API, access language, and storage technology.
  • Virtualized Data Access – Connect to different data sources and make them accessible from a common logical data access point.
  • Transformation – Transform, improve quality, reformat, etc. source data for consumer use.
  • Data Federation – Combine result sets from across multiple source systems.
  • Data Delivery – Publish result sets as views and/or data services executed by client application or users when requested

Since the definition of Data virtualization varies from provider to provider, based on the Associated functionality, benefits and flexibility, I think it is best understood by describing the flow in a diagram:

The Logical Datawarhouse

Fig 1. Flow addressing a variety of ways on utilizing Data Virtualization

As end users, via one common layer access all underlying data, we have a single point of access that provides us:

  • Possibility to have an Enterprise Security platform facilitating access to the data , providing for instance column, row level security and masking/encryption of sensitive data
  • Possibility of logging all accesses done to the data, facilitating tracking of all queries down to the level needed to be able to analyze log data to discover anomalies through the analysis of log data

This helps both in control of data as well as compliance with data regulations such as the Personal Data Act.

Speed of development
As the Data Virtualization view is flexible, we can change where it looks for its data. Thus if an end user orders data, it can quickly be provided by virtualizing it by pointing against for instance the source system. After qualifying that this is what the end user wants, data quality and control can be achieved via standard ETL/ELT processes through for instance a Data warehouse. After this process is finished the virtualization view is repointed against the Structured Layer.

The end user will be unaware of this and:

  • End-user applications can be developed from day one of the delivery cycle
  • If the data is not what the end user wants, this is picked up immediately and not after days (or weeks) of ETL development

Added data value
As we can combine structured data with unstructured data or other sources, we can add upon our data for data scientific purposes. This provides us with the capability of being able to quickly explore and pick up data that can provide added insight or value. Further, it would require a defined change process for utilizing and transforming this data into day-to-day operations, but having the tools and methods for it is essential.

Data as a Service (DaaS)
By creating a standardized accessible layer, we can provide data to subscribers/consumers as a service. Technology would normally be standard Data access protocols such as ODBC/JDBC as well as Web Services such as REST, JSON etc.

Data deduplication
Closely tied to DaaS is deduplication. With the power to dynamically virtualize our data, as well as better controlling which data we have and standardizing connections to it, we can greatly reduce data duplication cost:

  • End systems can use data as a service and not maintain complete copies
  • By minimizing number of layers in a DWH system as logic can be virtualized
  • We can maintain data quality and consolidation in virtualized layers

Normalized data
By facilitating data this way we can also control the data flow to the providers, meaning that this is our key to provide Master Data, as facilitated with Master Data Management and Data Quality solutions. Thus, we can normalize data that come from different sources and provide the same information and add to it quality/golden data.

Cached (fast) reads
One very important aspect is that as the service layer can be used from operational systems, it needs to be able to provide near real-time information without having to run large queries against source systems. In a virtualized or federated platform, this is normally achieved by caching queries or data in the federated layer (either static or dynamically). Thereby essentially moving the data closer to the requester.

Can I Virtualize my Data Warehouse?
Then the big question; is it possible to virtualize an entire data warehouse? Yes, with current technology, it is possible, but it would be very expensive and complex and need to balance the ratio between the rapid expansion/explosion of data vs. rate of growth of processing power.

Ion Stoica of Berkeley states the following “While making decisions based on this huge volume of data is a big challenge in itself, even more challenging is the fact that the data grows faster than the Moore’s law. According to one recent report, data is expected to grow 64% every year, and some categories of data, such as the data produced by particle accelerators and DNA Sequencers, grow much faster.# This means that, in the future, we will need more resources (e.g., servers) just to make the same decision!”[2]. Meaning that to fit and continue growing all current data into this “new” technology, we would need to horizontally grow processing power, memory and network etc. Hence, the cost of operation would just continue to grow.

Thus my opinion is that within 5 years, storage and network technologies will have become so fast that we can start to build one big virtualized Data Access point for all our data, where everything is accessible in real-time and automatically cached from underlying “old fashioned” storage solution. We are already seeing the outline of this technologies with intelligent near data processing like Hadoop in-database Analytics procedures that runs everything close to data and in memory.

The future is fantastic; the technology that is available today is lightyears beyond what it was 5-10 years ago. Meaning that there is no reason to wait with starting to adopt virtualization techniques, as it will give huge benefits today. For now, it should complement your data warehouse strategies as stated above, but not replace them.

Further as data is becoming one of the highest valued assets of modern companies, utilizing DaaS aligns Data Warehouse against a SOA (Service Orient Architecture), meaning that data can much easier be integrated into any type of system and making data the heart of your company.

However, in 5 years who knows?

SAS® Technologies
SAS® Federation Server provides data virtualization, security, traceability, data federation, data services etc. See for more information on SAS Data Management, Data Quality and Data Federation Solutions.



Post a Comment

SAS Analytics finner "lissom" garderober

De fleste reisende fornyer garderoben før ferieturen, men Finans Norge viser i sin siste årsrapport at antallet som dessverre gjør dette på lissom er økende. I de senere år er skadekrav knyttet til reiseforsikring og sykdom/uførhet de raskest voksende segmentene innen forsikringssvindel.

Årsaken til dette kan bare delvis forklares av at vi i Norge har fått økt appetitt på reising. Analyser av reiselogistikk viser et gryende arnested for svik med et konglomerat av muligheter. Tidligere ble reiser oftest kjøpt gjennom fly- eller reiseoperatører. I dag blir mye av reisen satt sammen av den reisende, som kombinerer tilbud fra mange aktører, gjerne internasjonalt, hvor det foretas uavhengige valg innen transport, opphold og gjennomføring. Dette åpner potensielle nye lommer for svindel, hvor innsikt- og faktainnsamling blir betydelig komplisert for forsikringsselskapet. Dette vet de kriminelle.

Som eksempel, ble det i sommer avslørt et svindelforsøk hvor forsikringskunden krevde dekning for helsebehandling på et sted vedkommende aldri hadde vært. Kvittering og dokumentasjon var kjøpt over internett etter hjemkomst. Analyse av internettdata avslørte forsøket og det bakenforliggende kriminelle nettverket.

I følge Finans Norge utgjør avslåtte saker om lag 0,5 milliarder kroner og de største beløpene er knyttet til syke- og uføreprodukter. Titusenkronerspørsmålet er derfor; hvor stort er egentlig det totale omfanget og hva kan vi gjøre for å øke oppdagelsesrisiko for svindel? Jeg lar den første delen av spørsmålet ligge, og ser istedenfor på mulighetsrommet for å bedre deteksjonsgrad og øke oppdagelsesrisiko.

Vi i SAS Institute mener at et av kriteriene for å lykkes, ligger i å få på plass en operativ sømløs analyseplattform rettet direkte mot denne type svindel. Vår erfaring er at deteksjonen og etterforskningsverktøyene må være spesialiserte og tilpasset type svindel som skal bekjempes.

I eksempelet over, vil dette si å fronte syke- og uføreproduktene og segmentet reiser. I dette tilfellet betyr dette systemet evnen til å se nøye etter avvik i mønstre – og ikke bare i ett mønster, men mønstre knyttet til alle sider av kundens forsikringskrav. En slik strategi er i praksis umulig å gjennomføre som søk eller manuelt. Arbeidet må kunne automatiseres. Slike automatiserte analyseprosesser presenterer bare essensen i datamaterialet for etterforskeren. Alt annet «forsvinner bare i en grå sky». Etterforskerne kan derfor, gjennom visualiseringsteknikker, fokusere på innsikt og hypoteser om hvorvidt funnene kan indikere svindel.Fraud

For å kunne benytte en slik analysemetode bygget rundt risikoscore av mistanke om svindel, trenger forsikringsselskapene «ferskvare». Gamle teknikker som bygger på historikk, treningsdata og tilhørende prediktive modeller, fungerer ikke lengre optimalt. Dette skyldes de raske endringene i svindelmarkedet. Modellene «går ut på dato» eller benyttes på data utenfor validert utfallsrom.

Etterforskningen vil derfor være avhengig av å hente reglene direkte ut fra forsikringsdata og skadekrav. Reglene ligger m.a.o. skult i data. Vår erfaring med denne type tilnærming, basert på maskinlæring og mønstergjenkjenning, reduserer i betydelig grad datamengdene etterforskerne bør konsentrerer seg om for å finne svindlere. Dvs. at oppdagelsesrisikoen øker generelt, men spesielt i segmenter hvor innsikt- og faktainnsamling historisk har vært komplisert for forsikringsbransjen.

Post a Comment

Sinäkö rationaalinen? Olet väärässä

Ehkä olet pitänyt itseäsi järkevänä ja rationaalisena päätöksentekijänä. Analyyttisena kenties. Huijaat itseäsi. Et ole. Suurin osa tekemistäsi päätöksistä on tiedostamattoman ajattelusi vaikutusvallassa. Siinä, missä aivosi voivat oikaista, ne oikaisevat mielellään, toimien autopilotilla ja olemassa olevilla ajattelun malleilla.

Tunteet ohjaavat ajattelua autopilotilla

Aivojemme tietoinen komentokeskus, etuotsalohko, tarvitsee optimaaliset olosuhteet ihmisen toiminta- ja ajattelukyvyn laadukkaaseen hallintaan. Esimerkiksi elimistön stressitila vähentää etuotsalohkon aktivaatiotasoa ja vaikuttaa suoraan kykyysi ajatella.

Koska tunnetila vaikuttaa elimistön stressitilaan, tunteilla on suora vaikutus ajattelukykyysi. Oletko koskaan yrittänyt puhua ”rationaalisesti” suuressa tunnemyllerryksessä olevan ihmisen kanssa? Ei kannata. Etuotsalohko on jäähyllä.

Etuotsalohkon toimintakapasiteetti on hyvin rajoittunutta, jonka takia autopilottimme hoitaa suurimman osan asioista. Taloustieteen nobelisti Daniel Kahneman pureutuu tähän ajattelun rajoittuneisuuteen ja automaattisiin virhepäätelmiin kirjassaan ”Thinking fast and slow”.

Tämä autopilotti sotkee erityisesti päätöksentekoa. Kun ”biologinen koodimme” määrittelee, että jokainen meistä on tiedostamattomien vaikuttimiemme (englanniksi ”bias”) vietävissä, miten voidaan tehdä fiksuja päätöksiä?

Teknologia siirtymässä takahuoneista kuskin paikalle?

Digitaalisten palveluiden esiinmarssi haastaa olemassa olevia päätöksentekomalleja. Miten päätökset syntyvät, kun asiakaspalveluhenkilön autopilotoivat aivot vaihtuvatkin sovellukseen kännykässä ja sen taustalla pyörivään analyyttiseen koneeseen?

Kone tekee päätöksiä millisekunneissa, aina täsmällisesti samaa logiikkaa noudattaen ja isoja tietomassoja hyödyntäen, mitään unohtamatta.

Eri teknologioiden kehityksen myötä myös yritysten sisäiset päätöksentekoprosessit ovat muutoksessa. Trendinä on, että yhä useampi organisaatio saa ja pystyy hyödyntämään analytiikkaa arkisen päätöksenteon tukena.

Analyysien teko siirtyy takahuoneista ja it:n helmasta liiketoiminnan etulinjaan. Organisaatiot analysoivat ajankohtaisia tilanteita suoraan palavereissa. Samalla ne hyödyntävät erilaisia tietolähteitä laajasti yhä syvempiin kysymyksiin vastaamiseen.

Päätöksiä ei työnnetä enää raporttien kautta ylöspäin, eikä odoteta, että johtoryhmässä asuva viisaus valuisi alaspäin tuoden vastauksia. Digitalisoituminen mahdollistaa päätöksenteon demokratisoitumisen ja läpinäkyvyyden.

Johto ja asiakaspalveluhenkilö näkevät saman datan ja voivat käyttää sitä omaan päätöksentekoonsa reaaliajassa, etulinjassa.

Asiakaspalveluhenkilöllä pitää tosin olla kirkkaana mielessään yrityksen suunta ja johtotähti, jotta hän voi tehdä parhaita mahdollisia omia töitään koskevia päätöksiä.

Ihminen sen algoritminkin koodaa

Koneaivot eivät silti ole vapaat tiedostamattoman ajattelun vaikutuksesta. Henkilö, joka rakentaa analyyttisen algoritmin, on yhä omien tiedostamattomien vaikuttimiensa vietävissä. Se näkyy myös hänen tuottamassaan ohjelmakoodissa sekä esimerkiksi käytettävien tietolähteiden valinnassa.

Ihmiselle jäävät edelleen ymmärrettäväksi analytiikan ja eri algoritmien heikkoudet. Mitä valitut analyyttiset keinot kertovat – ja mitä ne eivät kerro? Minkälainen otos dataa sopii käyttötarkoitukseeni? Adaptoituuko, eli oppiiko algoritmi ajan kuluessa ja muutoksien myötä, kun asiakaskuntamme vaihtelee.

Muutos on käynnissä – miten pysyä vauhdissa mukana?

On mielenkiintoista seurata, kuinka organisaatiot tulevat luomaan nahkansa tämän ison muutoksen myötä. Mikä virka jää esimerkiksi keskijohdolle, kun reaaliaikainen päätöksenteko ja läpinäkyvyys poistavat kontrollin ja raportoinnin tarvetta?

Varmalta näyttää tämä: Faktapohjainen ymmärrys siitä, kuinka ihmiset ajattelevat ja tekevät päätöksiä, sekä käsitys algoritmien ja analytiikan vahvuuksista ja heikkouksista ovat jatkossa kovaa valuuttaa liikemaailmassa. Olitpa sitten autopilotilla ajava tai itse ohjat käsiin ottava päätöksentekijä.

Petri Roine ja Riina Hellström

  1. Faktapohjainen päätöksenteko helpottuu, jos asioita voi tarkastella visuaalisesti ja mallintaa eri vaihtoehtoja ”lennossa”. Tähän tarkoitukseen soveltuvaa teknologiaa on onneksi tarjolla. Aiheeseen voi tutustua esimerkiksi demojen muodossa. Tai kokeilemalla visualisointia itse.

Mikäli oppiminen modernista People Operations/HR-toiminnosta tuntuu tarpeelliselta, seuraa Agile HR Finland -verkostoa.

Petri RoinePetri Roine on SASin senior asiantuntija ja luovan ajattelun intohimoinen kannattaja. Hän työskentelee organisaatioiden kanssa, jotka hyödyntävät tietoa parempaan päätöksentekoon. Petri on luovan ajattelun intohimoinen kannattaja ja rakastaa tietojärjestelmiä, urheilua ja puutarhanhoitoa. Hänen ajatuksiaan voi seurata myös Twitterissä nimimerkillä @PetriROI.

Riina HellströmRiina Hellström on organisaatiovalmentaja, jonka intohimona on modernien ja itseohjautuvien organisaatioiden kehittäminen. Hän muotoilee yritysten ihmisprosesseja uusiksi, ammentaen työhönsä neurotieteestä ja ketteryydestä, erikoisosaamisalueenaan moderni HR. Riinan löydät nimimerkillä @extemporea sekä Agile HR Finland -verkoston nakkikoneena @Agile4HR.

Post a Comment

Varo datapöhöä!

Sain lahjaksi Marko Erolan kirjoittaman kirjan Kirottu kaivos. Se kertoo yksityiskohtaisesti kaivosyhtiö Talvivaaran (tähänastisen) tarinan. Tiedonkin louhinnan ammattilaiselle kirja tarjoaa paljon mielenkiintoista kaivostoiminnan perustietoa ja näkymiä sen vaikeuksiin. Niitä matkan varrella riitti.

Talvivaaran käyttämän liuotusmenetelmän onnistumisen tärkeimpiä tekijöitä oli tehokas veden kierrätys valtavissa malmikasoissa. Kaivoksen suunnittelun yhteydessä oltiin huolissaan veden riittävyydestä, mutta tilanne kääntyikin matkan varrella päälaelleen.

Sulamisvesien ja ennätyssateiden johdosta kaivosalueelle varastoitui miljoonia kuutioita ylimääräistä vettä. Kiristyneen ympäristöpolitiikan takia sitä ei voitu juoksuttaa lähijärviin.

Tämä johti muun muassa sakka-altaiden murtumiseen ja avolouhoksen täyttymiseen, jotka madalsivat tuotannon tehokkuutta ja aiheuttivat ympäristöongelmia. Ongelmaa kutsutaan kirjassa termillä ”vesipöhö”.

Jäin pohtimaan, voivatko yritykset kärsiä myös ”datapöhöstä”. Eräät ajan ilmiöt antavat tuolle ajatukselle jonkin verran tukea.

Datan varastointi varmuuden vuoksi?

Yhtiöt ja organisaatiot kun tarvitsevat jatkuvasti uutta ja tarkempaa informaatiota omien prosessiensa tehokkaaseen pyörittämiseen. Dataa kiertää yhtiöissä kiihtyvällä vauhdilla. Samalla tiedon varastoimisen kustannukset ovat alentuneet dramaattisesti.

Yhden teratavun tallentaminen maksaa tänä päivänä sadasosan siitä, mitä se maksoi kymmenen vuotta sitten. Lisäksi useat pilvipalvelut tarjoavat lähes rajattoman tallennuskapasiteetin ilman järeitä laiteinvestointeja.

Onko siis helpompaa varastoida kaikki data ”varmuuden vuoksi”, kuin suodattaa laaduton aines ulos ilman sen suurempia ympäristövaurioita?

Mistä sitä dataa sitten tulvii?

Paljon on jo nyt arkistoituna vanhoissa legacy-järjestelmissä. Tuolla sanallahan tarkoitetaan vanhaa teknologiaa, koodia, laitealustaa tai ohjelmistoversiota edustavaa järjestelmää.

Vanhojen järjestelmien tietoja siirretään tänä päivänä kovalla vauhdilla uusille big data -alustoille, jotta niiden sisältämä informaatio saataisiin paremmin liiketoiminnan hyödynnettäviksi.

Paljon dataa muodostuu myös operatiivisissa sovelluksissa, joista yhä useampi yhtiö on riippuvainen tuotteidensa ja palveluidensa elinkaaren joka vaiheessa.

Näistä järjestelmistä saadaan lähes reaaliaikaista informaatiota muun muassa tuotantoketjuista, myynneistä, varastoista ja laskutuksesta.

Tätä informaatiotulvaa täydentävät vielä uusimmat strukturoimattomat tietolähteet. Niistä tärkeimpiä ovat sosiaalisen median palvelut, joista saatavaa dataa hyödyntämällä yhtiöt voivat ymmärtää paremmin asiakkaidensa käyttäytymistä eri palvelukanavissa.

Voisiko kaikki tämä varastoitu data sitten tuottaa yrityksille todellista lisäarvoa ja kilpailuetua? Aika moni uskoo siihen. Uusin pohjoismainen big data -tutkimus kertoo, että jo joka neljäs suomalainen yhtiö implementoi tai on tekemässä päätöstä Hadoop-pohjaisesta big data -alustasta.

Tutkimukseen osallistuneista 300 yhtiöstä kaksi kolmasosaa sanoo tärkeimmäksi big datan implementoinnin syyksi analytiikan kehittämisen. Peräti 76 prosenttia vastaajista on sitä mieltä, että perinteinen strukturaalinen data ei riitä vastaamaan yhtiöiden kasvaneisiin analytiikkatarpeisiin. Yrityksillä on toisin sanoen suuri tarve hallita monimuotoisia isoja tietomassoja ja saada niistä uutta informaatiota ulos.

Hadoop sopii tietomassoille

Viimeaikaiset keskustelut asiakkaidemme kanssa ovat vahvistaneet käsitystäni siitä, että Hadoop järjestelmiä käytetään nimenomaan isojen tietomassojen tallennuspaikkana ennen niiden jatkojalostamista.

Teollisuudessa kerätään sensoridataa, palveluyhtiöt hakevat web-käyttäytymiseen liittyvää asiakasdataa, vakuutusyhtiöt varastoivat korvaushakemusaineistoa; esimerkkejä on jo lukemattomia.

Hadoop-alusta toimiikin siis jonkinlaisena datan esivarastona, jollaisesta aiemmin käytettiin termiä staging area.

Nyt puhutaan hieman enteellisesti data lakesta, siis tietojärvestä. Se on hyvinkin skaalautuva ratkaisu tiedon tallentamiseen.

Mutta onko vaarana Talvivaaran kohtalo, jossa dataa onkin liikaa hallittavaksi ja järvemme pääsee saastumaan huonolaatuisesta datasta ilman kaupallista hyötyä?

Tämän välttämiseksi panostus oikeaan tietoarkkitehtuuriin ja tehokkaisiin analytiikkaratkaisuihin on syytä aloittaa (hyvissä ajoin) ennen järven täyttöä.

Post a Comment

Bli redo att hantera de digitala medborgarna

Det sätt som vi idag startar en dialog med medborgarna på förändras snabbt. Det ställer i sin tur nya krav på nya arbetssätt och bakomliggande system hos en lång rad offentliga aktörer. Vi ska inte bara arbeta mer effektivt, utan också anpassa oss till nya kommunikationsformer som mobilappar och sociala medier samt förbättra servicen.

Som exempel kan nämnas att den Danska Digitaliseringsstyrelsen konstaterar i detta sammanhang att över 84 procent av den danska befolkningen idag använder digitala kommunikationsformer varje dag, och att det generellt sker via olika former av digitala kontaktytor.

It-stöd skapar resultat 

Utöver att de offentliga aktörerna ska hantera en lång rad nya interaktionsformer, upplever vi på SAS att digitaliseringen även skapar möjlighet att få mer insikt hos både den enskilda medborgaren och i olika grupper av befolkningen. En insikt som kan kombineras med befintlig kunskap om medborgaren skapar förutsättningar att ge individuell service istället för generell.

När det handlar om att hantera de här förändringarna visar vår erfarenhet att det är nödvändigt att introducera en standardiserad och flexibel it-lösning som understöder befintliga aktiviteter och processer, såväl som nya former för medborgarorienterad kommunikation. På så sätt blir det möjligt att både genomföra markanta effektiviseringar och skapa en stärkt kommunikation på medborgarnas premisser.

Resultaten av en sådan insats är konkreta, något som bekräftas av det samarbete som SAS har med offentliga aktörer på både nationellt och internationellt plan. Exempelvis arbetar Socialstyrelsen i Danmark och Ministry of Social Development i Nya Zeeland med lösningen SAS Citizen Intelligence.

Exempel från Danmark och Nya Zeeland

Socialstyrelsen har samkört och visualiserat all information om behandlingserbjudande i en webbaserad applikation, så att de anställda ska få bättre möjlighet att matcha klienter och behandlingserbjudande samt resultatuppföljning. Samtidigt får man bättre möjlighet för inblick. Ett bra exempel på att information är värdefull och kan skapa både bättre behandling och mer effektiva processer.

Ministry of Social Development på Nya Zeeland har på samma sätt skapat mer insikt om sina medborgare via sin analytiska plattform, och har gått steget vidare till att också introducera mer anpassat förlopp via digitala kontaktytor. Dessutom är Ministry of Social Development igång med att införa analytiska resultat som beslutsunderlag. Detta är baserat på medborgarens beteende, om han/hon söker jobb via en portal eller talar i telefon med en handläggare.

I båda fall pekas det på en hög grad av effektivisering av arbetsgången, liksom att det finns många andra markanta effekter att uppnå som en genomsnittlig sänkning av längden på bidragsperioden . När det finns många olika beröringspunkter och ett stort antal medborgare, kan man utnyttja dataanalyser och en understödjande plattform för att skapa insikt som kan användas för att tillgodose den enskildes behov på just den personens villkor. Det är min erfarenhet att den här typen av arbete ger positiva effekter på många olika sätt – något som gynnar både medborgare och de offentliga aktörerna.

Se video eller läs mer om Nya Zeeland-caset

Post a Comment

5 profetior för framtidens offentliga sektor

Beslut grundade på förutsägbara insikter, individanpassad medborgarservice och en stor brist på big data scientists. Det är några saker som kännetecknar framtidens offentliga sektor.

De senaste årtiondena har offentlig sektor spenderat miljarder på att digitalisera verksamheten men det är först nu som man har börjat ta tillvara på möjligheterna i all data som genererats. Dataanalys kommer att bli en integrerad del av kärnverksamheten för att tillmötesgå medborgarnas krav och förväntningar samt ha möjlighet att prioritera och välja ”rätt” aktiviteter.

Vad som kommer att utmärka framtidens offentliga sektor kan sammanfattas i fem punkter.

  1. Mer förebyggande insatser

Arbetet i offentlig sektor kommer i allt större grad att automatiseras och baseras på prediktiva analyser. Istället för att åtgärda skador först när de uppstår kommer vi att jobba förebyggande. Genom att undersöka och analysera vad som leder fram till en skada eller händelse går det att minska risken för att en skada ska inträffa. Redan nu kan vi se exempel på detta. I Nya Zeeland har socialförvaltningen sparat 8 miljarder kronor med hjälp av big data-analys genom att identifiera avvikande mönster hos unga som riskerar att fastna i långvarigt bidragsberoende. På så sätt har de kunnat ta fram förebyggande åtgärdsplaner.

  1. Skräddarsydd individuell medborgarservice

En undersökning tidigare i år av trendanalytikerna Future Foundation visade att de 47 procent av konsumenterna är villiga att dela med sig av personlig information om de i utbyte fick ett bättre erbjudande eller lägre pris.

I framtiden kommer vi att förvänta oss samma individanpassning inom den offentliga sektorn. Den som har varit i kontakt med en myndighet förväntar sig att de ska känna till och ha tillgång till information som personen delat med sig av till en annan myndighet eller en annan avdelning på myndigheten.

När informationen finns tillgänglig och bearbetas blir det möjligt att skapa individuella handlingsplaner för exempelvis arbetslösa. Handlingsplaner som inte är statiska utan flexibla och kontinuerligt uppdateras utifrån de effekter som åtgärderna ger och inte ger.

  1. Handläggare ersätts av algoritmer

Utvecklingen inom den offentliga tjänstesektorn kommer att vara mer revolutionerande. Många av de uppgifter som idag hanteras av fysiska handläggare kommer att ersättas av digitala analyssystem och styras av algoritmer och kunskapsautomatisering. I praktiken kommer det ge bättre service baserad på kunskap och mindre subjektiva bedömningar. Därmed får vi möjlighet att fokusera på de moment som verkligen behöver hanteras manuellt i samband med kontakten med medborgarna. Enligt studier gjorda på Oxford University så spår man att ca 50 % av jobben i tjänstesektorn i USA kommer försvinna inom några år och liknande studier har även gjorts i Sverige som kommit fram till samma siffror.

  1. Förändrade kompetensbehov och roller

När de organisatoriska strukturerna och kompetenskraven inom offentlig sektor förändras kommer bristen på data scientist bli påtaglig.En undersökning av EMC om den offentliga sektorn i England förra året visade att det troligen kommer att fattas 70 000 data scientist inom offentlig sektor 2017. Detta är bara början. För att skapa engagemang och driv behövs det plattare organisationer med färre mellanchefer och andra personer som arbetar med att skyffla information mellan avdelningar. Det kommer att vara viktigare att sätta ramar och ge dedikerade och tydliga riktlinjer för vilken effekt som förväntas uppnås samt att tilldela det team som ansvarar för genomförandet tillräckligt med resurser.

  1. Rationella beslut baserade på objektiva data

Analys blir en förutsättning för bättre effektivisering, ökad förståelse och stärkt samarbete mellan olika myndigheter och instanser inom offentlig sektor.
Idag gissar vi en hel del och då är det lätt att ta emotionella beslut istället för rationella. Big Data-analys kommer att förhindra det. När myndigheter börjar utforska och visualisera data kommer de ha möjlighet att se mönster som gör det lättare att samarbeta, se individen och prioritera rätt utvecklande insatser. Vi kommer att se innovationscentrum startas inom myndigheter som kan stötta det arbetssättet.

För att kunna ta nästa steg i utvecklingen av medborgarservice och förbättra effektiviteten inom offentlig sektor behöver vi arbeta med data på nya sätt och börja agera mer proaktivt. Det går inte att bara göra gamla processer digitala utan vi måste våga tänka om och tänka nytt. Möjligheterna står och knackar på vår dörr men för att lyckas måste organisationerna påbörja arbetet med att ställa om sina strategier särskilt de som handlar om digitalisering.

Post a Comment

Huijaatko vakuuttajaasi? – Analytiikka saattaa paljastaa sinut

Suomalaiset ovat taannoin tehdyn lompakonpudotustestin perusteella maailman rehellisintä väkeä. Harva meistä omii löytötavaroita, eikä varmaankaan varastaisi kaupasta.

On kuitenkin yksi rikoksen muoto, jota rehellisinä pidetyt suomalaisetkin harjoittavat erittäin yleisesti: vakuutuspetokset.

Finanssialan keskusliiton tutkimuksen mukaan joka viides tuntee jonkun, joka on tehnyt vakuutuspetoksen. Lisäksi noin joka kymmenes piti korvaushakemuksissa liioittelua hyväksyttävänä.

Moni haluaa korvauksen vähintään menetetyistä kuluista, mutta mielellään myös hiukan ylimääräistä henkisestä kärsimyksestä. Ja selityksiähän riittää, kuten ”kadonneessa laukussa olisi voinut olla myös kamera” tai ”polvi oli jo ennestään vähän rikki”.

Joillekin vakuutuspetos on vain yksittäinen kokeilu, kun toisilla niiden tehtailu muuttuu systemaattiseksi - aina elämäntilanteen niin vaatiessa tai sopivan tilaisuuden tullen.

Viime aikoina vakuutusyhtiöt ovat esimerkiksi havainneet, että elektroniikkaa särkyy hämmästyttävän paljon aina uusien tuotejulkistusten aikaan. Vakuutuspetosten ääripäässä on organisoitu rikollisuus. Siihen liittyy usein korvauksen hakijan lisäksi myös keksityn tai liioitellun vahingon avulla itseään työllistävä taho, kuten autokorjaamo tai lääkäri.

Tavallisten tallaajien osalta vakuutuspetosten tekemisen helppouteen vaikuttanee osittain se, että esimerkiksi lähikauppaan verrattuna vakuutusyhtiö vaikuttaa niin suurelta ja kasvottomalta, että rikoksen ei koeta vahingoittavan juuri ketään.

Yhteenlaskettuna pienistä puroista kasvaa kuitenkin valtava virta.  Vakuutusyhtiöissä arvioidaan, että petosten osuus on lähellä kymmentä prosenttia hakemusten kokonaismäärästä. Todettujen petosten osuus on kuitenkin vain muutama prosentti.

Kiinnijäämisen todennäköisyys kasvaa

Jo nykyisin kaikki vakuutusyhtiöt käyttävät euromääräisiä rajoja ja muita liiketoimintasääntöjä, joiden avulla epäilyttävät hakemukset poimitaan tarkempaan syyniin. Lisäksi vakuutusyhtiöillä on ”mustia listoja” aiemmista vakuutushuijareista ja yhteinen rekisteri, jottei samaa korvausta haettaisi useammalta taholta.

Epäilyttäviä hakemuksia selvittelemään on perustettu lisäksi tutkintaorganisaatioita tai varattu hakemusten käsittelijöille aikaa petosselvityksiin.

Ongelmana on, että nykyisten käytäntöjen avulla petostutkijoiden haaviin jää paljon myös tapauksia, jotka eivät sisällä vilppiä. Ulkopuolelle putoilee taitavasti muotoiltuja tai sattumalta havaitsematta jääneitä vilpillisiä hakemuksia.

Näistä aiheutuu turhia selvityksiä, jotka kuluttavat vakuutusyhtiöiden resursseja ja tuottavat rehellisille asiakkaille vaivaa ja mielipahaa – ja tietysti paljon aiheettomasti maksettuja korvauksia.

Jos ongelma saataisiin kuriin, rehelliset asiakkaat saisivat korvauksensa nopeammin, ja saattaisivat jopa nauttia pienemmistä vakuutusmaksuista, kun eivät joutuisi kompensoimaan huijareiden aiheuttamia kuluja.

Onneksi petosten havaitsemiseen on nykyään tarjolla runsaasti uusia työkaluja. Tiedonlouhintamenetelmät, kuten päätöspuut ja neuroverkot, kykenevät löytämään lukuisien hakemusta ja asiakasta kuvaavien tietojen joukosta ne piirteet, jotka viittaavat petokseen.

Uusiin tapauksiin sovellettuina näin aikaansaadut mallit kertovat hyvin suurilla todennäköisyyksillä, mitkä hakemukset ovat vilpillisiä ja mitkä eivät. Myös pitkät selitetekstit, jotka aiemmin on jouduttu lukemaan manuaalisesti, saadaan tilastollisten analyysien pureskeltaviksi tekstianalytiikan keinoin.

Esimerkiksi autokolaria tai varkautta kuvailtaessa saattaa hyvinkin olla, että tietynlaiset ilmaisut ovat yleisempiä valehdeltaessa. Sosiaalisten verkostojen analysoinnin avulla voidaan tutkia, yhdistäisikö puhelinnumero, osoite, tilinumero tai vaikkapa jokin kolmas osapuoli vahinkotapauksen aiemmin havaittuun vilppiin.

Analytiikka ei korvaa ihmistä

Analytiikalla on ihmiseen verrattuna vakuutuspetosten havaitsemisessa useita etuja. Ensinnäkin analytiikka kykenee väsymättä ja virheettömästi käymään läpi useita rutiininomaisia sääntöjä ja niiden yhdistelmiä yhtä aikaa.

Toiseksi modernit menetelmät, kuten tekstianalytiikka ja sosiaalisten verkostojen analysointi, tarjoavat informaatiota, jota ihmismieli ei muuten kykenisi tuottamaan ja hahmottamaan.

Kolmanneksi analytiikka kykenee tekemään tämän kaiken nopeasti, jopa reaaliaikaisesti. Analytiikka ei kuitenkaan ainakaan toistaiseksi esimerkiksi juttele petosepäiltyjen kanssa, eikä tee lopullista päätöstä korvauksesta. Ihmistä siis tarvitaan edelleen, mutta kenties rutiinitarkistuksia mielekkäämmässä roolissa.

Moderni, automatisoitu analytiikka vakuutusyhtiöiden petosten havainnoinnissa ei ole utopiaa, vaan todellisuutta jo hyvinkin lähitulevaisuudessa. SAS Instituten hiljattain tekemässä kyselytutkimuksessa kolme viidestä suomalaisesta vakuutusyhtiöstä suunnittelee automatisoidun ratkaisun käyttöönottoa petosten tunnistamiseen, ja yhdellä sellainen on jo kokonaisuudessaan käytössä.

Jos siis haluat tehdä vakuutuspetoksen, nyt on aika toimia. Vielä parempi vaihtoehto on käyttäytyä kansamme rehellisen maineen mukaisesti – myös vakuutusasioissa!

Post a Comment

Kuka onkaan kuljettajan paikalla?

Kävin vaimoni kanssa Islannissa lomamatkalla ja ajoimme koko saaren ympäri 10 päivässä. Maisemat olivat mitä mahtavimmat.

Valtakunnan päätie Ring 1 kiertää saaren ympäri, jota ajamalla ja sivupistoja tekemällä saa hyvän kokonaiskuvan saaresta. Geotermisen toiminnan ja lähes ajokelvottomien kivikkopolkujen lisäksi eksotiikkaa kuljettajalle toivat yksikaistaiset sillat ja tunnelit.

Sivupistoissa alusta muuttui usein soratieksi, joka vaati tarkkuutta. Niihin tottumattomilla vauhti loppui lähes kokonaan.

Töihin palattuani iski silmään, että digitalisaatio, big data, stream processing, IoT ja muut hype-termit vilisevät keskustelussa vilkkaasti. Big datasta on toki puhuttu jo reilut 4 vuotta, mutta tekoja on edelleen vähän.

Viimeisimpiä uutisia on, että se leviää it-osastojen ulkopuolelle. Hienoa, että myös liiketoiminta näkee jo sen mahdollisuudet. Nyt vain malttia siihen, että it:n kanssa rakennetaan yhdessä hyvä alusta.

Aviopari matkalla

It ja liiketoiminta big datan äärellä ovat kuin eräs suomalainen aviopari autossa keskellä Islannin laavakenttiä: Kuljettaja tekee kaikkensa, että matka jatkuu hallitusti ja turvallisesti (it), ja kartanlukija tietää suurimman osan ajasta, minne haluaa seuraavaksi mennä ja mitä haluaa nähdä (liiketoiminta). Jotta matka ei pysähdy tai ettei pudota kartalta tai tehdä u-käännöksiä liikaa, molempien pitää hoitaa osuutensa.

Pieni hapuilu kuuluu turistiautoiluun samoin kuin kokeilut big datan haltuunottoon. Parhaat paikat ja välineet löytyvät vain etsimällä ja tutkimalla. Matkan jatkumisen takaavat kartat ja tiemestarin (konsultti) ohjeet nopeusrajoitusten ja erilaisten varoitusmerkkien muodossa.

Kun turistimatka oli jatkunut jonkun aikaa, eivät yksikaistaiset sillat enää tuntuneet mitenkään hankalilta ja kartanlukijakin kiinnostui kuljettajan roolista.

Kun vielä kävi niin, että kuljettaja halusi poiketa tunturiin mutta kartanlukija ei, niin oli paikallaan, että kartanlukija kävisi ajelulla itsekseen. Niinpä hän totutteli autoon (Hadoop) ja uusiin ajo-olosuhteisiin. Pienen harjoittelun jälkeen ajo alkoi sujua ja entinen kartturi pystyi käymään ajelulla myös omin neuvoin.

Toimintamallit muuttuvat – samoin välineistö

Big datan myötä toimintamallit ovat muutoksessa. Hadoopin pelisäännöt ovat aivan erilaiset kuin ennen, joten uutta opittavaa on kaikilla. Välineiden käyttöönottovaihe on kuin ensimmäinen päivä Islannissa vuokra-autoa ajaessa: ”Wau! Tämäpä mielenkiintoista! Mitähän tästä tulee?”

Yksi big data -ekosysteemin vahvimmista trendeistä on välineiden käytön helpottuminen. Nykyään löytyy esimerkiksi Hadoop välineistöä, jolla uudet tiedot saadaan kytkettyä nykyisiin ympäristöihin. Niiden rinnalla erilaiset tiedonhallinnan ratkaisut tukevat automatisoitujen päivitysten tekoa. Ja Data Scientisteille löytyy itsenäiskäytön tarpeisiin suunniteltu ratkaisu, jolla Hadoopiin ladattua tietoa voi kätevästi hallita. Hyvää on myös se, että ratkaisua voi kokeilla maksutta jopa 90 päivän ajan.

Vuokraa neliveto ja tankkaa oikein

Islannin pikkuteillä autolta vaaditaan nelivetoa. Vain siten pääsee vaikeiden kohtien yli. Myös tiedonhallintaan tarvitaan vastaavaa suorituskykyä. Sellaista, jolla voit lukea tietoja mistä vain, yhdistellä, tarkistaa ja korjata tiedon laatua sekä tiivistää käytäntöjä niin, että liiketoiminta ja IT toimivat saumattomasti yhdessä.

Riittävän laaja ja skaalautuva välineistö takaa myös sen, että voit käyttää samaa välineistöä silloinkin kun mukaan tulee uusia kokonaisuuksia tai tietomäärät kasvavat.

Tieto ohjaa nykyisin toimintaamme kaikkialla. Se on kuin polttoaine, joka pitää moottorin käynnissä. Jos käytät tavallista polttoainetta, et saa moottorista kaikkea tehoa irti. Jos käytät Superia (Big Data), teho paranee. Jos tankkaat väärää polttoainetta (virheellinen tai puutteellinen tieto), voi matkan teko katketa kokonaan.

On siis ensiarvoisen tärkeää, että tankkaat oikein: Tiedon laatu on tarkistettava ja korjattava aina ennen käyttöä. Oikean polttoainevalinnan lisäksi on hyvä muistaa tankata aina, kun se on mahdollista.

Lähdetään siis yhdessä turvalliselle big data -ajelulle tehokkaalla nelivedolla!

Post a Comment

Marketing lessons from starling murmurations

Autumn brings out the birdwatcher in many of us. Migrant birds are moving all around the northern hemisphere, often in great flocks, making amazing spectacles.

Among them are the humble starlings. Cheeky, chatty little blue-black birds that go largely unnoticed for most of the year. A murmuration of starlings, as a flock is more poetically and correctly known, is mersmerising. The low murmurous ‘chat’ of the individual birds to each other fills the evening skies, as the birds themselves gradually group together in flight, looking for all the world like smoke, so closely do they fly, and so perfectly coordinated their movements around the sky.


Why do they do it? There are several reasons. The first is that the movement confuses predators. Hawks and falcons will pick off individual starlings. But in the group, flying together like that, it is much harder for the predator to pick out an individual and pursue them. Small fish do this too, to confuse sharks. The second reason is that they can exchange information, a critical strategy for survival. Finally, the practice brings them together over their roost, where they huddle close together for warmth. In other words, starlings are fundamentally stronger and better off together, and in constant communication.

But what’s really amazing about this aerobatic display is that starlings have no hierarchy. There is no dominant bird leading the flock. Instead, they seem to be in tune with each other to such an extent that any individual can act as leader and steer the flock in a new direction. This may be because they have seen a predator, or to take advantage of a new air current, or it may be simply because they want to do it. The point is that the individuals within the flock trust each other implicitly, and are prepared to move in response to each other.

Insights handled with trust and efficiency

Imagine a team that worked along similar principles. No waiting for a heirarchical leader to signoff changes. Instead, any individual who noticed the need for change would be in a position to start the necessary movement, and others would simply follow, until the next ‘leader’ stepped forward with new information or skills. It is where I see our own marketing team heading, and we are building interesting capabilities on the way.

First of all, it’s important to be aware of what’s going on around you. Starlings could not respond to each other if they were not so aware of their neighbours in the flock. In the same way, marketers cannot hope to respond to environmental changes if they are not constantly watching, monitoring and analysing their environment. Being part of SAS, we are naturally exposed to some of the more innovative thinking around data, analytics and insights.

Take for example the case for sustaining an analytics culture. Colin Powell elegantly described the investment in preparation and communication to meet challenges of transforming the State Department. In this case, the widespread introduction of analytics cascaded and was critical to the organisation’s ability to respond in the modern world. The required investment in preparation, skills and alignment for better communications is similar in marketing teams.

Sharing information effectively should also become a pervasive instinct. Stand underneath a murmuration, and the constant communication is apparent. Marketers too need to communicate constantly;  with customers, sales, IT and each other. If everyone is to understand key values, support marketing strategies, and contribute to the desired business outcome, then they need the confidence of having the nest information at all times. This means building personal relationships at all levels, and developing trust within those relationships. This is tied to cultural and corporate values in an organisation, which needs to be sustained throughout the entire organisation for it to create the desired impact. It is something we at SAS believe we are building on.

Accept that there is no end

Perhaps one final lesson is the nature of a murmuration: constant, but in a perpetual state of flux. The birds were there last night, and will there again tomorrow, and indeed, next year. It may not be the same birds, or in exactly the same formations and patterns. Not to change is to be left behind, perhaps to be caught by a predator, or a competitor. In the same way, while we all like the comfort of milestones and firm targets, I see the unfolding digital economy bringing with in a constant stream of change.

If you are a fellow marketing leader, I’d be interested in hearing how you are preparing your team for the journey ahead. Most of us can see the need for transformation, and we will almost certainly need to pool our collective experiences to navigate safely.

Post a Comment

Kuinka helppoa Hadoopista voi tehdä

Nykypäivän kuluttaja on totutettu palvelemaan itseään, oli kyse sitten pankkiasioiden hoitamisesta, lomamatkan varaamisesta tai jopa viranomaisasioinnista. Taakka on siirretty osaavalta asiakaspalvelijalta meille amatööreille – röyhkeimmät jopa veloittavat siitä, että saamme palvella itseämme.

Kolikon kirkkaampi kääntöpuoli on tietysti tekemisen nopeus ja joustavuus. Kun olemme oman onnemme seppiä, voimme hoitaa asioitamme juuri silloin, kun se itsellemme parhaiten sopii ja asia hoituu juuri niin sujuvasti, kuin kykymme riittävät ja välineet mahdollistavat.

Välineistön helppokäyttöisyys onkin avain, joka voi raivata tietä kustannustehokkaalle itsepalvelulle.

Tehokkaan itsepalvelun haasteena usein riittävä osaaminen

Raportoinnin ja datavisualisoinnin kentällä on jo vuosia julistettu itsepalvelumallin autuaaksi tekevää voimaa ja se on nähty toimivaksi. Perusraportit saadaan nopeasti ja joustavasti tarvitseville, eikä it-osasto kuormitu muutospyynnöistä.

Tilausta vastaavalle mallille näyttäisi olevan myös big datan preparointivaiheessa, erityisesti Hadoop-ympäristöissä. Alkuvuodesta tehty Nordic Hadoop survey indikoi, että suomalaisista kyselyyn osallistuneista organisaatioista jopa 38 prosenttia mainitsi esteeksi Hadoopin käyttöönotolle resurssien ja osaamisen puutteet.

Lisää ajatuksia datakäsittelyn itsepalvelumallista voit lukea SASin ja TDWI:n paperista Self-service big data preparation in the age of Hadoop.

Hadoop-alusta on tullut vauhdilla myös suomalaiseen big data –maisemaan. Suosituimpien Hadoop-jakeluiden mukana tulee nykyään myös graafisia välineitä, joilla Hadoopiin ladattua dataa voi käsitellä.

Näidenkin haltuunotto vaatii kuitenkin ainakin jossain määrin paneutumista asiaan, mm. tietorakenteiden ymmärtämistä ja sql-kieltä olisi hyvä osata. Myös perinteiset etl-välineet ovat aikaa sitten integroituneet Hadoopiin ja peruslataukset sisään ja ulos sujuvat hyvin.

Rajoitetusti asioita voidaan tehdä myös Hadoopin sisällä, useimmiten jonkin sql-pohjaisen kyselyrajapinnan (esim. Hive) kautta. Pääsääntöisesti nämä raskaammat välineet on kuitenkin tehty pro-kehittäjälle, jolloin satunnaisen kyselyntekijän työkalupakista ei löydy näitä tai jos löytyykin, niin oppimiskäyrä on jyrkkä.

Lisäksi kun tarvitsee tehdä asioita, joihin HiveQL ei taivu, joudutaan ehkä data lataamaan Hadoopista ulos muokkausta varten.

Miten sitten Hadoop-data haltuun?

Etenkin raportointikäytössä tulee usein tarve, että tekijä haluaisi tiedot helposti avattuna raportointivälineeseen, ehkä kevyen muokkauksen ja kenties yhdistelyn jälkeen. Entä jos tuo kaivattu data onkin Hadoopissa, eikä esimerkiksi tutussa ja turvallisessa Excel-taulukossa?

SAS® Data Loader for Hadoop on itsepalveluperiaatteelle rakennettu täsmäratkaisu datan siirtämiseen, profilointiin, muokkaamiseen, puhdistukseen ja jatkolataukseen juuri Hadoop-ympäristöissä. Data Loader mahdollistaa Big Datan käsittelyn käyttäjäystävällisen selainkäyttöliittymän kautta. Vaikka ulkokuori on yksinkertainen, pellin alla sykkii kuitenkin uusinta SAS-teknologiaa.

Data Loader perustuu SAS Embedded Process –teknologiaan, ja mahdollistaa monipuolisemman datan käsittelyn Hadoopin sisällä. Tämä tarkoittaa sitä, että niin sanottu sulautettu SAS-prosessi on asennettu Hadoop-klusterin jokaiselle noodille, jolloin datan käsittely tapahtuu rinnakkaisesti koko klusterin prosessointivoimaa hyödyntäen.

Etuna on, että datalle voidaan tehdä monimutkaisia muokkaus- ja analytiikkaoperaatioita ilman, että sitä tarvitsee ladata ulos Hadoop-klusterista.  Esimerkkinä tästä vaikkapa datan transpononointi, jota raporttia usealta aikajaksolta rakennettaessa usein tarvitaan.

Tiedon laatua ei voi vieläkään sivuuttaa

Datan lataaminen Hadoopiin on kustannustehokas menetelmä datan säilömiseen ja prosessointiin, mutta se ei itsessään tee datasta parempaa tai laadukkaampaa kuin se alun perin oli.

Myös Hadoopissa olevan datan tulee olla laadukasta ja tarvittaessa laatua voidaan parantaa erilaisten puhdistusmenetelmien avulla. SAS Data Loader for Hadoop hyödyntää SAS:n testattuja tiedonlaadun menetelmiä Hadoopissa olevan datan laadun kehittämiseen.

Profilointi paljastaa puutteet tehokkaasti

Datan laatua arvioitaessa profilointivälineet antavat hyvän yleiskuvan laadusta. Tiesitkö, että profilointi on mahdollista tehdä myös suoraan Hadoopissa olevalle datalle (kuvassa yläpuolella)?

Profiloinnin tulokset paljastavat datassa ilmenevät puutteet, sekä kuvaavat dataa tunnuslukujen ja graafien kautta, jolloin esimerkiksi poikkeamat ja puuttuvat arvot on helposti havaittavissa.

Tarvittaessa korjaavia toimenpiteitä, kuten standardointi, duplikaattien löytäminen tai parserointi on mahdollista tehdä suoraan Hadoop-klusterin sisällä.

Kun data on todettu sopivaksi aiottuun käyttötarkoitukseen, voi sitä tietysti käyttää sellaisenaan suoraan Hadoopista, kunhan analytiikka tai raportointivälineet sitä tukevat. Tämän lisäksi data voidaan ladata ulos toivotussa muodossa, oli se sitten SAS-taulu tai taulu jossakin relaatiokannassa.

Ulkoisiin relaatiokantoihin SAS Data Loader kytkeytyy Sqoop-adapterin avulla, joka on Hadoop-ympäristöissä oletusväline datan lataamiseen näistä lähteistä.

Lopullinen hyöty viimeistellään analytiikalla

Nykyajan muistinvaraiset bi-välineet ovat tehokkaita välineitä Hadoopin rinnalla käytettäväksi. Erityisesti SAS:n visualisointiratkaisu SAS® Visual Analytics osaa hyödyntää Data Loaderia tehokkaasti käyttämällä rinnakkaislatausta suoraan Hadoopista muistinvaraiseen analytiikkamoottoriin. Tällä saadaan ennennäkemätöntä tehokkuutta Big Datan lataukseen: suoraan Hadoopista muistiin rinnakkaisesti koko kaistan leveydeltä.

Koeajo kertoo enemmän

Mikäli tämä herätti mielenkiintosi, käy kokeilemassa SAS® Data Loader for Hadoopia. SAS tarjoaa ratkaisusta maksuttoman 90-päivän koekäyttöversion.

Kokeilua varten tarvitset lisäksi joko Clouderan tai Hortonworksin Hadoop-hiekkalaatikon. Nämä muuten ovat kaikki virtuaalikoneita, joten koeajo on nopeaa ja vaivatonta. Ja maksutonta.

Post a Comment