Elephant in a china shop

 “What on earth is this elephant doing in our china shop?” This is what a surprised IT manager might utter on discovering a yellow elephant inside his carefully constructed information architecture landscape.    

Next, he sees his rational data scientists feed the new pet with data coming from social media as well as unstructured documents and real-time sales data collected from the company’s online shop. The elephant also has a name: Hadoop.

What is this new zoo all about?  Let us begin with a quick glance into the Enterprise Information Management scene.

Data warehouses have been built for 20 years. They are used for:

  • Collecting data from different operative data sources
  • Transform it into a structured format
  • Produce new information to for decision-making for businesses or public organizations

The results are then processed with various Business Intelligence and advanced analytics solutions to make use in decision-making.

Data warehouses are typically based on relational databases that understand SQL. The S stands for “structured”. Hence, it is all about structural, i.e. numeric information, such as financial figures, sales information, production volumes or raw material costs.

However, we live in a world in which information is churned out from all directions and in all formats. Businesses want to know what consumers are saying about their products and services on Twitter and Facebook. They also want to understand why people prefer one product to another. On the other hand, businesses want to handle information in real time and be able to make decisions more swiftly. There is also a need to match operative data with clients’ contract information and other documents.

This is where the new elephant stomps in. Hadoop is a storage solution for handling varied information in different formats. It also provides a powerful platform for advanced analytics.

Despite its name, Big Data does not necessarily always stand for large amounts of data, but rather data in different structures, which has previously been impossible to combine in traditional relational databases. Fundamentally, Hadoop is also an Open Source solution, and therefore its arrival in your own zoo could be very cost efficient.

Hadoop also distributes the processing power needed in data handling within several computers. Hence, its maintenance and data scalability is more flexible than with traditional data warehouse solutions.

In other words, it provides better capacity, cheaper maintenance and more varied data handling.

How can the collected Big Data then be utilized?

The data contained in Hadoop can be utilized with advanced analytical solutions. By combining, for example, the purchasing behavior data from retailers with comments in social media, it will be easier to understand consumers’ preferences. With this information, marketing campaigns can focus more effectively on different geographical areas.

We will also be able to understand changes in massive sensor data within industrial equipment and anticipate maintenance requirements. With the aid of text analytics, we could analyze maintenance records stored in Hadoop as well as use them to optimize the resource usage, while improving customer service.

Data Mining methods, on the other hand, provide wide social network analysis to fraudulent individuals trying to obtain social security benefits.

There is enormous potential in advanced analytics, which are way beyond the uses that we are currently aware of.

Hadoop is the new generation of data management and warehousing. It is not a direct replacement of relational data warehouses, but it offers more options for organizations that want to take analytics to new levels.

Time will tell whether this elephant is able to move delicately in china shops, or whether it is needed to stump over some other methods that no longer serve organization’s information needs.

Henrikki Hervonen, Professional Services Director, Finland

Post a Comment

HADOOP: En søt, liten elefant med store krefter

Er du litt usikker på hva hypen rundt open source-systemet HADOOP går ut på? Da er du ikke alene. Når sant skal sies snakker vi her om avansert teknologi, som kun folk som får et kick av 0-er og 1-tall har en sjanse til å komme til bunns i. (Se videoen nedenfor for en rask introduksjon til de nye tekniske buzz-ordene).

Mulighetene som den nye teknologien fører med seg, er det likevel svært interessant å få med seg. Ikke minst hvis du og virksomheten din kan se potensialet i å arbeide med analyse av store datamengder eller mot mange forskjellige kilder.

 

Mange virksomheter, spesielt i USA, er allerede i gang med HADOOP, og analysefirmaer som Gartner og Allied Market Research spår at HADOOP kommer til å få en kraftig fremgang de kommende årene. Det er altså etter alt å dømme snakk om en viktig teknologi, som kommer til å endre måten vi arbeider med data og analyse på. Koblingen til analytics er opplagt og R&D (forsknings- og utviklingsavdelingen) i SAS Institute har lenge arbeidet med å integrere SAS med HADOOP.

Ekstra muskler til håndtering av big data – på attraktive vilkår
Men hva er det som er så interessant med HADOOP? Jeg deltok på et internt kunnskapsdelingsmøte her i SAS Institute for noen dager siden, og det kastet en god del lys over saken. Kort sagt kan man si at HADOOP leverer ekstra kraft til datarelaterte prosjekter. HADOOP-elefanten er, på tross av sitt søte utseende, en skikkelig muskelbunt, som kan brukes til å lagre og håndtere data på en svært effektiv og kostnadsvennlig måte. Dette gjelder også for enorme datamengder som håndteres hos bl.a. Facebook, eBay og Yahoo ved at data deles opp og håndteres i et cluster av billige servere.

HADOOP er ikke en database i tradisjonell forstand, men et open source-rammeverk, som kan håndtere data i nesten alle størrelser og formater. Det kan brukes til datalagring alene eller i kombinasjon med virksomhetens datavarehus og analyse. Det kan med fordel brukes som sandkasse for utforskning av nye muligheter og innsikt i dine data og flere bruker HADOOP og SAS for å etablere en Big Data Lab. Noen av fordelene med HADOOP inkluderer:

  • Lavere kostnader til lagring av big data. Open source-programvare er som utgangspunkt gratis, og HADOOP benytter standard maskinvare
  • Hastighet. På grunn av den distribuerte modellen (hvor mange maskiner deler på å levere regnekraft), kan svært store datamengder behandles svært raskt
  • Skalerbarhet. Det krever ikke mye administrasjon for å legge til flere maskiner og kostnaden er kjent og oversiktlig
  • Fleksibilitet. Du behøver ikke å bearbeide data før de lagres, det samme gjelder for ustrukturerte data som tekst, bilder og videoklipp. Du kan lagre så mye data du vil og senere beslutte hvordan de skal benyttes
  • Pålitelighet. HADOOP er et svært robust system, som ikke går ned ved maskinvarefeil. Maskinens jobber sendes videre til en annen server og prosessen fortsetter

Dette høres nesten for godt ut til å være sant, så noen få ulemper må det finnes. F.eks. mener mine tekniske kolleger at det ikke er snakk om en "plug & play"-løsning. Generelt er HADOOP et litt umodent økosysten, med en del løse tåder. Det bruker flere programmeringsspråk, og det finnes få grafiske brukergrensesnitt, slik at det ofte krever mange (nye) kompetanser. Via en kommersiell partner som Hortonworks eller Cloudera blir det likevel enklere å innføre HADOOP, og det skjer en enorm utvikling på området.

HADOOP leverer "analytisk brennstoff" til SAS
Virksomheter som bruker SAS får også enklere tilgang til den nye teknologien. Fordelen ved å kombinere de to verdene er at man dermed får enda bedre muligheter for å hente verdifull innsikt ut av big data – innenfor et rimelig serverbudsjett.

Det finnes allerede flere SAS-løsninger som integrerer HADOOP og utnytter regnekraften i clusteret. Det gjelder både innenfor data management, business analytics og avansert analyse, og mer er på vei. SAS-brukere kan på denne måten trekke på HADOOP via SAS, som de allerede kjenner og eventuelt ta i bruk noen av de grafiske brukergrensesnittene fra SAS som kjører i HADOOP.

Hvis du vil vite mer om SAS-produkter tilpasset HADOOP, kan du lese dette whitepaperet. Hvis du vil vite mer om HADOOP, kan du lese flere artikler og rapporter her.

Post a Comment

Risk scoring: How analytics can improve UK border security

A safer and more efficient approach to border control.

Border management agencies are faced with a constant balancing act between security, convenience and cost. They need to decide whether to carry out checks on huge numbers of travellers, resulting in long delays and inconvenience or – if they scale down the checks – risk letting in travellers and cargo that are illegal or pose a threat.

Attempts to categorise travellers are often ineffective and can be seen as discriminatory if they aren't based on relevant facts. Accurately identifying factors linked to risk is difficult. Powerful tools are needed that can analyse data in real time to highlight security risks.

Tricky decisions

This leaves border agencies and customs offices facing a difficult choice. Do they carry out comprehensive checks, incurring inevitable delays and inconvenience and driving up costs, or do they scale down operations and risk letting in travellers or cargoes which are illegal or pose a threat? In the worst case scenario, more stringent controls can increase delays, without necessarily detecting illegal movements, especially with offenders finding ever more sophisticated ways of evading detection.

Crude attempts at profiling often cause resentment without being effective in identifying high-risk individuals. However, accurately identifying where the risk lies is difficult without tools which can analyse and make sense of all of the available data, and do it quickly.

Risk scoring

So what is the solution to the seemingly intractable problems outlined above? Ultimately, security is the most important issue here and to achieve an appropriate balance between cost, passenger convenience and security, we believe an approach based on risk scoring is the only viable option.

Risk scoring offers an increasingly viable alternative to the traditional security approach of blanket checking all passengers. At its best, it effectively involves using intelligence, behavioural modelling and data analytics to assess the levels of risk individuals pose.

The approach employs complex algorithms and advanced risk management to evaluate whether an individual is a legitimate traveller and as such should freely pass through our borders or be subject to further scrutiny. Rather than leading to more open borders, it can actually significantly enhance protection.

Number of benefits

This risk scoring approach can bring benefits across a range of different applications. It can help identify people who pose a risk based on accurate profiling of all available information, including known activity patterns, watch lists, advanced passenger information (API), containing information like passport number, age, sex, seat number and other data, including where and how the ticket was bought. Analysing all of this together to create a risk score for each passenger not only produces more accurate results, but reduces the potential for inefficiency and resentment which can result from cruder forms of 'traveller scoring'.

Critically, risk scoring can help reduce border queues by enabling border staff to make rapid and accurate decisions about which travellers to question or detain, and which to let pass. Indeed, the approach can enable decisions about whether to stop travellers or freight to be made very quickly. This is especially important when keeping immigration queues to acceptable levels.

Continually tuned

Border agencies also benefit from an approach in which risk models are continually tested against live data and optimised to improve performance and further reduce the number of false positives.

In an ideal scenario, models can be deployed based on advanced and detailed analysis of the information most associated with risk, which are continually evaluated and optimised. By continually optimising the risk model, the company helps ensure that high risk travellers and shippers of high risk freight will be identified even when they try to second-guess the checks that are in place and find ways of evading them.

Agencies can therefore direct their resources to where they know the potentially illegal travellers or cargo are to be found (representing a tick in both the security and cost boxes) and they can also – conveniently – speed up the throughput of cargo and passengers. Combining increased security with a better experience for the great majority of both passengers and freight users is a win/win scenario that makes the case for using appropriate tools highly compelling.

It is time for a change of approach in border management and I believe that risk scoring is clearly the best route forward.

 

This chronicle was published techradar.pro October 6th 2014

Post a Comment

Sensorene kommer til din virksomhet. Du kan like godt begynne å glede deg allerede nå.

Mer data og bedre data er tilgjengelig for stadig flere virksomheter, men hvor gjemmer de seg og hvordan finner du dem? Vår ekspert har svar på begge deler.

Kommentar: Google har det. Facebook, Amazon og Twitter har det. Big data, altså.

Vi snakker mye om data og nå finnes det også mange ikke-teknologisk orienterte virksomheter som har begynt å interessere seg for hvordan data kan være en del av forretningen. Men dette er bare helt i startgropen.

For mange virksomheter og organisasjoner hvor IT-støtte ikke historisk har vært en del av kjernevirksomheten, finnes det kun data på visse områder.

Det finnes kanskje en bilimportør som har en database over kjøretøy og salg, men som ikke kan måle kjøpernes preferanser direkte. Eller et offentlig kontor, hvor det selvfølgelig finnes en saksmappe, men hvor selve møtet med borgeren og utviklingen i saken ikke danner et direkte dataspor.

Men akkurat som finanssektoren, som en av de første sektorene på 1970-tallet, begynte å sørge for IT-støtte for store deler av kjerneoppgavene, gjør stadig flere andre sektorer nå det samme.

Tradisjonelt sett har IT-støtte betydd at et menneske registrerer et eller annet i en database ved hjelp av inntasting av opplysninger på et tastatur.

Dette er fremdeles mulig, men revolusjonen ligger i at data i stadig større grad blir samlet inn av teknologiske sensorer og lagret automatisk.

Selv om det vanligvis er snakk om enheter som er forbundet til et nettverk, er det avgrenset til internett-tilknyttede enheter, som for eksempel:

  • RFID-tags i Rejsekortet kan nå fortelle trafikkselskapene hvor samtlige passasjerer beveger seg hver eneste dag på hver enkelt reise

    Rejsekortet

    Rejsekortet er et av de stedene som det hver dag samles inn store mengder data fra hver dag.

  • WiFi på Københavns lufthavn er med på å fortelle hvordan passasjerene beveger seg rundt, før de går ombord i flyet
  • Akselerometre i vindmøller måler etter unormale rystelser, noe som Vestas og Siemens bruker til å forutsi behov for vedlikehold
  • EEG-sensorer under huden bak ørene, som HypoSafe benytter til å måle mønstre i hjernens aktivitet og finne tidlige varseltegn på epileptiske anfall eller diabetespasienter, som står i fare for å miste bevisstheten
  • Firmaet MC10 har utviklet en elastisk sensor festet direkte på huden, som bl.a. kontinuerlig måler pasientens temperatur
  • GPS i biler til å bestemme posisjon og hastighet, f.eks. til kommunikasjon med alle andre biler om hvor det er tett trafikk eller kødannelse
  • Strekkoder ved betaling på dagligvarebutikken gir mulighet for løpende tilpasning av lageret
  • Automatic Identification System (AIS) er en måte for identifisering av alle skip og deres bevegelser, slik at man bedre kan unngå kollisjoner og juks med fiskekvoter

Alle disse sensorene kan måle nye forhold og skape langt større lengder data. Disse dataene vil være entydig definert, og dermed vil den viktigste kilden til problemer med datakvaliteten være eliminert.

Uten de tradisjonelle utfordringene med datakvalitet, kan mange prosjekter leveres til halve kostnaden, hvilket gjør data mining til et tilgjengelig alternativt for mange flere virksomheter.

De mange sensorene gir altså både mer data og renere data, men mest avgjørende er at de leverer data på prosesser, som tidligere ikke er blitt registrert.

Er virksomheten i gang?
Hvis man skal svinge seg helt opp i de øvre luftlag av analogier, er datamaskinens beregningskraft og utvikling innenfor dataanalyse en parallell til selve hjernen, mens de teknologiske sensorene er en parallell til våre sanser. Man kan si at vi med revolusjonen innenfor sensorer får flere øyne og ører til å støtte beslutningene våre på.

Så hva med din virksomhet – har dere utnyttet sensorrevolusjonen på de riktige områdene?

Se på utgiftssiden, som kan være lønninger eller lagerbinding, finnes det dataspor på disse aktivitetene? Eller på prosesser som innebærer kundekontakt? Eller på kundenes holdninger til seg selv?

Det er mange områder i en organisasjon som kan være interessante å utvikle, så det er mer enn nok å ta tak i.

Du kan jo ta en utvalgt gruppe medarbeidere på et par dagers intensiv workshop, slik at dere sammen kan være ett skritt foran og streke opp retningen for hvordan sensorrevolusjonen vil transformere deres virksomhet eller organisasjon.

Kronikken er tidligere publisert i Computerworld.

Post a Comment

Gratis SAS programvare for studenter og ansatte!

Offentlig og privat sektor opplever et gap i tilbud og etterspørsel når det gjelder avanserte IKT- og analyseferdigheter*. Som verdens største privateide IT-selskap ønsker vi i SAS Institute å bistå til å redusere dette gapet ved å tilby akademia gratis tilgang til ledende analytisk programvare.

I disse dager går det et tilbud ut til norske høyskoler og universiteter om gratis programvare til bruk i undervisning og studier. Programvarepakken heter SAS® University Edition og kan enkelt, raskt og kostnadsfritt lastes ned fra nettet, uavhengig om du bruker til PC, Mac eller Linux arbeidsstasjon.

Flere enn 50 000 personer har lastet ned pakken i sommer og det er stor pågang på e-læringskursene, med
9 000 nedlastinger på bare to måneder.

SAS® University Edition lastes nå ned av elever og lærere ved høyskoler og universiteter verden over. Flere enn 50 000 personer har lastet ned pakken i sommer og det er stor pågang på e-læringskursene, med 9 000 nedlastinger på bare to måneder. Dette er ikke såkalte lett-versjoner av analyseløsninger, men den nyeste programvaren for statistisk og kvantitativ analyse som benyttes av næringsliv, offentlig sektor og akademia i 140 land.

KORT - HVA INNEBÆRER TILBUDET?

  • Du får som student, eller ansatt på en høyere studieinstitusjon, gratis programvarepakke, SAS® University Edition. Pakken inneholder følgende SAS-program: Base SAS®, SAS/STAT®, SAS/IML®, SAS/ACCESS® Interface to PC Files og SAS Studio®. SAS University Edtion er spesialtilpasset for undervisning og læring av statistikk og kvantitative metoder, og er tilrettelagt med enkel tilgang til statistisk programvare for å utføre analyse i et akademisk eller forskningsmiljø. Lær mer og Last ned gratis SAS® University Edtion
  • Du får tilgang til det nettbaserte fellesskapet Analytics U der du kan ta gratis kurs og dele erfaringer og tips, få tilgang til egen gruppe på LinkedIn og Facebook og du kan se opplæringsvideoer på YouTube. Lær mer om Analytics U felleskapet

Ønsker du mer informasjon eller har spørsmål, ta kontakt med meg, Bettina Stibolt, som programansvarlig på bettina.stibolt@sas.com eller på telefon: 23 08 30 50. Vi kommer gjerne ut til din utdanningsinstitusjon for å fortelle mer om tilbudet og programvarene, samt tilbyr om gjesteforelesere og studenttiltak.

JOIN THE U!

AnalyticsU_logo_low

 

 

 

 

 

*) Kilde: DAMVAD. Samfunnsøkonomisk analyse. 2014

Post a Comment

Make the ‘New Deal’ handshake with Your Customers! Gain full and up-front permission to use their data.

scale

Loyalty cards and loyalty programs have existed for many years in the retail trade. Discounts, benefits, special offers, stickers and much else have been tried, but with mixed or no success. In practice, the stores have found it difficult to develop and strengthen customer loyalty, and this probably because we as customers are so price-conscious.

Omni-Channel is on the way
However, most chains also work on introducing more channels and utilizing the increasing amount of information on the individual customer. The industry talks about ‘omni-channel’, i.e. when it takes a unified approach towards the individual customer, regardless of whether this is face-to-face at the store, in the web shop, via phone or via mail. Many talk about Omni-Channel and 1:1 but very few actually do it. This area both holds great potential and considerable challenges.

Read More »

Post a Comment

Guest blog: 5 Useful things about experimentation that business can learn from the world of science

By Stefan Ahrens, Sr. Solutions Architect, SAS Germany

556Recently, there has been a hot debate about a Facebook experiment where users unwillingly participated in a psychological study with manipulated news feeds. While the fact that Facebook customers are involved without their prior consent is an entirely valid discussion, let’s not throw away the idea of experimentation entirely.

Quite the contrary, experiments – done the right way – can help us gain knowledge with a minimum amount of exposure by those that are affected. In other words, if you know how to set up the experimental conditions in a proper way, you may be able to get the same amount of information – with a lower number of what in statistics we would call „experimental units“. It goes without saying, that it’s still a good idea to seek approval by your customers before you start experimenting on a grand scale.

Read More »

Post a Comment

Hvem tar ansvar for å operasjonalisere "big data" initaitiver innenfor helse?

Når vi beveger oss bort fra teoretiske definisjoner (volume, velocity, variety) til konkrete anvendelser med nytteverdi for pasienter, pårørende og ikke minst klinikere? Finnes det helseledere i Norge som vil ta initativet til en større satsning på utnyttelse av den informasjonsmengden som genereres hver dag. Jeg håper det, for jeg er sikker på at bedre utnyttelse og forvaltning av informasjon vil øke pasientsikkerheten, bedre kvaliteten og bidra til bedre, riktigere og mer effektive beslutningsprosesser innenfor mange områder.

Figuren illustrerer ulike "dataområder" av interesse for behandlingen av pasienten, og min påstand er at vi bare utnytter en brøkdel av denne informasjonen i dag.

Informasjonsområder innenfor helse

Informasjon i kliniske systemer utnyttes i den daglige pasientbehandlingen og endel av informasjonen benyttes som grunnlag i enkel rapportering. Informasjonen i ulike registre utnyttes stort sett i forskningsøyemed og lite inn i de operative kliniske prosessene. Hvordan benyttes økt informasjonsmengde fra medisinsk teknisk utstyr, ulike sensorer og økt bruk av smarthusteknologi? Hva gjøres med all den informasjonen som pasienter og pårørende genererer selv? Poenget mitt med å stille disse spørsmålene er å fremtvinge en diskusjon som litt lenger ned i veien vil føre til økt og mer avansert bruk av dataanalyse.

Jeg påstår at vi er midt i et paradigmeskifte drevet av minst 4 sterke trender;

  1. Tilgjengeligheten til ulike typer av data vil fortsette å vokse med utbredelsen av sensorer ("internet of things") og pasientgererert informasjon og vi vil få et stort variert analysegrunnlag (illustrert over).
  2. Beslutningen knyttet til å slette data koster mer enn kostnadene knyttet til forlenget datalagring og mengden data vil vokse eksponensielt ("big data").
  3. Rimlige datamaskiner med ny teknologi kan benyttes til datalagring og parallell prosessering (Hadoop)
  4. Ny teknologi gjør det mulig å utnytte den enorme informasjonsmengden i operative beslutningssituasjoner knyttet til behandlingen av pasienter.

Når vi ser oss tilbake om 5-10 år vil vi lure på hvorfor vi ikke gjorde noe tidligere. Behov, data og teknologi fantes, men vi manglet "fanebærere" og "talerør", sponsorer som gikk foran, brøyte vei og sikrer finansiering.

"Hvorfor tok jeg ikke den rollen, jeg hadde jo alle mulige forutsetninger til å prioritere ressurser til akkurat dette området."
Avtroppende Adm Dir,  Et Norsk Helseforetak

Post a Comment

Sätt vårdens ledare i simskola och lär dem simma i information istället för att drunkna i data!

Vårdens ledare står inför en stor utmaning i och med kommande års minskade skatteintäkter och ökade vårdbehov. Men besparingstider behöver inte alltid betyda sämre vårdkvalitet. En analys av resurser och kapacitet kan förhindra slöseri med vårdens tillgångar, ge en förbättrad vårdkvalitet och se till att sjukvården fokuserar på att rädda liv istället för att bidra till att skada dem.

Det pratas mycket om evidensbaserad medicin, men sällan om kunskapsbaserad styrning av hälso- och sjukvården. Trots att vi det senaste året sett en lavinartad ökning av elektroniskt lagrad information i vården så används den inte på ett effektivt sätt. Frågan ”Drunknar du i data eller simmar du i information?” är befogad. Tyvärr så fortsätter vården att styras utifrån magkänsla och manuella rutiner då analysmognaden fortfarande är låg. De få analytiska resurser som finns sitter dessutom ofta långt ifrån ledningens beslut.

Förvirringen är stor kring vad begrepp som analys egentligen innebär.  Det är inte ovanligt att beslutsfattare ser analys som detsamma som att rapportera siffror och visa fina rapporter. Men en analys ska inte bara redovisa vad som hänt, utan även ge svar på frågorna varför och hur och ge underlag för att förutse och förhindra eventuella framtida utmaningar.

Att styra vården endast med redovisning av budget och utfall utan analys av bakomliggande orsak och framtida prognos, är som att behandla en svår vårdrelaterad infektion med att endast ge febernedsättande läkemedel för symptomen.

Proaktiv-vårdanalys

Lösningen är självklar. Det är hög tid att sjukhus- och landstingsledningar ändrar sin attityd till teknik och analys och börjar tänka strategiskt kring resursförvaltning och sätter sig själv och sina medarbetare i ”simskola”. Börja rekrytera fler analytiker och ge analyschefen en lika självklar plats i ledningsgruppen som ekonomidirektören! Priset för en alltför uråldrig attityd till teknik och analys är alldeles för högt för sjukhus, landsting, skattebetalare och patienter.

Post a Comment

Guest blog: Why shifting baseline impacts big data analysis

By Carsten Schmidt, Fellow, Henry Corporation

Carsten Schmidt, Fellow, Henry Corporations

Carsten Schmidt

In a 1969 manifesto titled “Design with Nature," a landscape architect named Ian McHarg introduced a concept called the shifting baseline.

The concept essentially describes a form of “generational blindness,” which means that our experiences and immediate views limit our perception of reality. Otherwise stated, our reference point for any given analysis or perspective determines our initial approach and the final result.

Let’s imagine for a moment that data in itself is merely a mirage of wisdom. Whether we apply our knowledge of history and engage our ability to think and consider are ways we can be more wise.

To think beyond our immediate knowledge; to change reference points; to include unstructured data; and to consider for a moment what we may not know…That is to imagine! And that is what fosters great ideas.

From a business perspective, accumulated big data (i.e. measurable, historic data) until recently has been comprised of structured digital trails—proliferation of so-called unstructured data generated by all our digital social interactions—and of analogue workflows.

However, in order to extract knowledge from big data, we may also need to emphasize what has not happened: we should find ways to query the absence and to think beyond our baseline.

Combining what we know with what we do not know can lead to disruptive business models. Let me give you two examples:

1.
When Apple launched the iPhone 3 in 2007, this represented an entirely new approach to mobile phone design. Around the same time, companies such as Motorola, Ericsson and Nokia were spending billions of dollars and euros on mobile phone analysis and design. During this process, none of these companies envisioned the idea—which was then introduced by Apple—of the user interface, the soon to be the de-facto standard of mobile phones. At this point in time, the baseline for analysis simply could not anticipate the concept of a touch screen.

2.
My local butcher excels at hanging meat, but he also sells an assortment of red wine. Lately, he has expanded his collection of red wine so that this supply fills approximately 1/3 of the display area where customers wait in line to be served. Perhaps an ethnographic field study would indicate the sensibility of selling wine in a butcher’s shop, but the linkage to consumer demand otherwise seems obvious. But butchers normally do not study ethnography.

Primarily it is useful to collect and to study both manmade and computer generated (IoT) digital trails, but I believe that big data analysis should include something more. Beyond digital trails, big data analysis should include a comprehensive knowledge of human attitudes and behavior. Information about social and cultural anthropology is ripe for in-depth analysis if we use the appropriate analytics software.

In the pursuit of innovative progress, this kind of knowledge complements digital trails. If we engage information from a variety of sources, then we enable ourselves to see beyond our own baseline of knowledge while we register such historical data. And that, to me, is big data analysis.

Recent studies by Henry Corporation indicates that employment of business analysts are on the rise. This profession, however, is only beginning to find its own feet because the industry is changing and adapting to a new world order. Rather than question whether something can be measured, we should contemplate the purpose or reason that we measure and gauge which historical parameter is relevant to apply.

I have no doubt that technology firms can keep up with the digitalisation of processes to provide increasingly advanced tools for analysing and managing our businesses. However, I wonder whether we possess sufficient experience and wisdom, not only to technically operate such analytical software but to something more basic—to ask the right questions and to extract the real value from historic data? And do we educate our college and university students to be able to incorporate historical perspectives, softer behavior, and attitude data into the analysis of our businesses?

 

Post a Comment