Building customer profiles in the era of big data

Following my latest blogpost on the subject of executing omni-channel strategies, the first step is to obtain a greater overview and understanding of your customers.

In recent years, the massive increase in data volumes and the variety of sources have completely changed the concept of customer profiles for most companies. From a marketer's view, this has created what we could refer to as a ‘big data challenge’ in which it becomes very complex to gain an overview of individual customers across multiple platforms and contact points and embed the digital data residing here.

Extensive benefits can be gained from working with these types of master customer profiles, including greater effect of customer interactions and efficiency relating to the underlying processes.

In my experience, master customer profiles can be established through four sets of activities:

  1. Identify customer data
  2. Connect customer identifiers
  3. Establish data hierarchies
  4. Build customer profiles with automated data flows

Activity 1: Identify customer data
The initial activity is to identify and gather customer data located internally and externally. Internal sources are often scattered across the organization, and valuable insights into customer demands and market trends can be derived from these data. Hand in hand there are a great variety of external data sources available such as social media, competitor activities, demographic profiles etc.

Figure 1 illustrates different data sources – and depending on whether they are internal or external, the volumes and variety of sources create big data challenges to which we need a method of structuring data in an intelligent way. This is why it becomes necessary to focus in on the customer identifiers.


Figure 1: Examples of internal and external data sources. With the increasing number of digital platforms and customer engagement, a much wider range of rich data sources is available.

Activity 2: Connect customer identifiers
With the explosion of digital platforms, customers have a wide range of identifiers beyond the traditional ones, i.e. accounts or loyalty memberships. In order to gain a complete picture of the customer, we have to commence the work on gaining a picture of our customers across these platforms. This will provide access to new data, more arenas for interactions as well as understanding of the synergies and mechanism behind these.

Figure 2 shows a number of different digital platforms and identifiers which we need to understand and link together. Once these have been linked, we need to build customer profiles.

Figure 2: Examples of various identification profiles linked to an individual customer. The picture expands continuously as new digital platforms emerge.

Activity 3: Establish data hierarchies
Once we have a clear view of the data available at present and the connection between the different identifiers related to each customer, the next step is to create the master level – or data hierarchies.

Several types of hierarchies exist such as household level, product level and customer level. Household level is key in most industries, as we need to understand e.g. which customers who have already purchased a product from us and who have not. Figure 3 illustrates this.

An example could be an insurer who wishes to understand which customers do not yet have a household insurance. Looking only at customers without an insurance is not sufficient in this aspect, as it does not take into account which customers live together. You might end up wasting marketing investments and compromising contact policies by promoting this to customers already covered through their spouse.

The identification of stakeholders in a household can provide additional insight, e.g. for segmentation purposes.

Another relevant hierarchy to work with is companies that have either several brands or sub-organizations. As brands can have different underlying categories and even more products, the complexity can often be substantial. As we want to obtain an overview of our relations to customers and potentials for cross- and up-selling, the establishment or inclusion of product hierarchies are important.

Once the mapping is done, we cannot rest on our laurels. As part of the process of generating insights, we need to be able to work actively with the mapping on a continuous basis. More on this subject in my next blogpost.


Figure 3: Examples of different types of hierarchical levels that are relevant when establishing and working with customer profiles. The most common ones are on household and product level.

Activity 4: Build customer profiles with automated data flows
Once we have an overview of our data, we can start to develop the bridges between the different systems. I prefer to work with virtual layers, rather than commencing a data warehouse project. As data tends to change over time, we need a flexible foundation to work with – a good example is actuality (look at e.g. fax numbers). As some data sources such as individual customer behavior on websites can provide extensive data volumes, we need to consider storage. Storage options have changed significantly brought forth by a little yellow elephant.

These types of customer profiles have also been named DNA strands by some people, as you might picture all these data as genes on a strand; all connected to each customer enabling us to distinguish them from one another.

What I have found significant in this aspect is that the data bridges need to be automated, and as a key element in terms of working omni-channel – this needs to happen in real time. This demands a change in the old siloed infrastructure in which data flows back and forth in a continuous flow – running data quality processes, running propensity scores, checking contact policies etc. As customers interact with us at all times, we need to move beyond nightly batches and into a world where data is kept fresh at all times.

Figure 4 illustrates this virtual data layer with various data from different sources summing up the customer profile – and with seamless integration in real time illustrated by the arrows.


Figure 4: Example of a flexible data foundation drawing upon data from various sources – maintained in real time for optimal customer interaction in any channel at any time of the day.

Start out building the foundation
Building customer profiles is a key step in terms of executing an omni-channel strategy – and the one, which often demands the greatest effort. It lays the foundation for everything we do as it provides insight into both our customers and markets, internal processes and organization – in general, the current possibilities and limitations.

As I explained in my previous blogpost, the process of executing an omni-channel strategy is an iterative process – and this goes for the individual steps as well. Building customer profiles is no exception as my experience shows that new data continues to appear either from within the organization or externally through e.g. enriched data as well as new identifiers.

For this reason, this step is what I recommend as the first when commencing this type of journey. Data will always be key in any type of project, as it defines the possibilities as well as limitations. To that, any marketing or sales concept should always be validated and supported by facts, which is why I always suggest including data exploration as part of the creative processes.

Post a Comment

Byggeklosser for faktabasert organisasjonsutvikling

Jeg har tidligere redegjort for at bedrifter som får økt innsikt i egne forretningsprosesser og i interessentene rundt egen virksomhet får en sunnere utvikling enn bedrifter som ikke får den samme innsikten. Hovedårsaken til dette er at bedrifter med god innsikt vil justere kursen løpende uten store endringsprosjekter, ofte forbundet med store kostnader, lang gjennomføringstid og en vesentlig risikodimensjon.

Bedrifter som ønsker suksess med faktabasert organisasjonsutvikling må ha et bevisst forhold til hvilke forretningsprosesser som skal verdiøkes med analyse, hvilken kompetanse man trenger samt hva man krever av den tekniske plattformen som skal understøtte analysene og operasjonalisere modellene. Rammeverket under illustrerer aktivitetsområder som bør gjennomføres slik at man sikrer en balanse mellom hva man ønsker å oppnå (prosess), den kompetansen man trenger for å analysere og bygge modeller (organisasjon) samt de verktøyene man trenger for å implementere modellene (teknologi).

Rammeverk for analyse og realisering

Rammeverk for analyse og realisering

Prosess – De fleste virksomheter, uavhengig av størrelse, bør gjennomføre en analyse av «hvor skoen trykker» slik at det analytiske potensialet identifiseres helt overordnet. Med erfarne ressurser kan denne analysen gjennomføres relativt raskt og resultatet er et godt beslutningsgrunnlag for videre analyse. Neste skritt på veien er å vurdere tilgjengelige data gjennom analyse og ikke minst visualisering. Man vil få økt innsikt i egne forretningsprosesser, og man vil identifisere bruksområder for operasjonell analyse, dvs området hvor analytiske modeller kan bidra til å verdiøke eksisterende forretningsprosesser. Innenfor dette området ligger det store gevinstmuligheter i form av automatiserte beslutningsprosesser, raskere gjennomføring, bedre kvalitet, bedre kundeservice osv.

Organisasjon – Faktabasert organisasjonsutvikling krever spisskompetanse innenfor informasjonshåndtering og analyse, og dette er kompetanseområder som kanskje ikke er godt nok dekket med dagens ressurser. Bedrifter må få et bevisst forhold til «verdien av informasjon» slik at informasjon og analytiske modeller blir forvaltet som en ressurs. De ulike informasjonsområdene (kunde, produkt, ordre osv) må forvaltes slik at datakvaliteten opprettholdes over tid. Modellene må forvaltes og videreutvikles slik at de treffer best mulig ift de prosessene som støttes. Alt dette krever kompetanse innenfor informasjonshåndtering og analyse, og bedriftene må ta stilling til om de har denne kompetansen selv, om de skal etablere den eller om de skal kjøpe denne kompetansen eksternt.

Den analytiske livssyklusen

Den analytiske livssyklusen

Teknologi – Faktabasert organisasjonsutvikling krever en «analytisk plattform», og en svakhet ved mange systemarkitekturer er at dette mangler som eget systemområde. De fleste bedrifter har etablert tilfredsstillende rapporteringsløsninger, enten rett fra et forretningssystem (ERP, CRM el) eller fra et felles datavarehus. Med unntak av noen få bransjer (spesielt bank og forsikring) er modenheten innenfor avansert analyse relativt lav, og det er få virksomheter som har implementert operasjonelle modeller i eksisterende arbeidsprosesser. Dagens arkitektur er som regel «batchorientert» og den støtter ikke forretningskrav knyttet til avansert sanntids analyse. Dagens rapporteringsløsninger har vokst frem over tid med den konsekvens at de består av ulike teknologier, de er ofte kompetansekrevende og de har et høyt kostnadsnivå. I tillegg til dette støtter de ikke dagens- og morgendagens forretningskrav. Det finnes både et moderniserings- og konsolideringsbehov i de fleste virksomheter, og det må tenkes nytt ift forretningskrav innenfor dette området. En moderne «analytisk plattform» må gi støtte ulike roller og arbeidsoppgaver i en «analytisk livssyklus» (se figur), og det er få leverandører som støtter for samtlige arbeidsprosesser i livssyklusen på en enhetlig måte.

Suksess med faktabasert organisasjonsutvikling er ingen uoverkommelig oppgave fordi prosessen kan deles opp i mindre oppgaver innenfor både prosess, organisasjon og teknologi. Nytteverdien vil materialisere seg i form av økt innsikt, bedre styring og riktigere beslutninger. Hvis det i tillegg eksisterer nye behov og/eller hvis det finnes et konsolideringspotensialet kan gevinstbildet for en satsning innenfor "innsikt og analyse" bli meget positivt. Hovedutfordringen er kanskje å finne en god kompetanse- og teknologipartner, en man ønsker å samarbeide med over en litt lengre periode. SAS har markedsledende teknologi og etablerte partnerskap ledende konsulentselskap.

Post a Comment

Innovation Lab - A game changer cross industries?

One of my great take aways from the SAS Global Forum is realted to the Innovation Lab. I embrace the concept and I strongly believe that the Innovation Lab can be a game changer cross industries.

Just as people can be sick without noticing, there are companies that are sick without management being aware of it. Disease is in this context is business processes that that are not optimized, and consequences over time can be severe in for form of lost market share, higher costs and/or lower customer satisfaction. Several of these effects simultaneously can be serious, and necessary turnaround actions can come too late.

Visualization and analytics can be the right medicine because findings enables changes throughout the entire business. Incremental change is necessary in order to stay ahead of competition.  

Innovation Lab (1988)

Innovation Lab (1988)

Verification of business processes is a clear management task, and it is not unusual to take the "temperature" on key areas such as HR, finance, quality and/or sales. The temperature can be taken ad-hoc in form of surveys, but it also can be based upon analysis if data that is already available. Just as people take blood tests and measure blood pressure to detect weaknesses in our own bodies, companies must use data analysis and visualization to detect weaknesses in own business processes.

Unlimited access to information combined with affordable storage technologies and the power of analytics will enforce a new management culture where the objective is to discover signs on weakness so early that minor actions can be implemented without major investments with severe consequences.

Todays companies should invest in an innovation laboratory where analytical models can be tested in a modern environment with the latest technology. We will see more and more Innovation Labs in the near future, and business managers will take actions and purchase preconfigured hardware with the latest software (Hadoop, Event Streaming Processing, In-memory Analytics and Visualization). IT managers should be proactive and enable the change.

Thanks for a great event. You need a network before you need your network, put it forward and share...

@larshouge, SAS Norway

Post a Comment

A process for executing an omni-channel strategy

One of the central marketing concepts for most companies across industries in recent time is omni-channel marketing. The main idea is to ensure a consistent and comprehensive customer experience across all points of interactions, regardless of time, place and context. Appealing as the thought might be, most companies struggle with the actual execution. Experience shows that omni-channel engagement across digital and analogue touchpoints where interactions are based on historic and immediate data captured and utilized in real-time requires radical changes in both organizational mind-set and technological infrastructure.

 “Digital is transforming our job as an insurer and we are convinced that this is a tremendous opportunity to do our job better: protecting people, their goods and their projects on the long term.
It is the customer who will decide the speed of adoption. The important thing is to be ready.”
Véronique Weill, Chief Operating Officer of the AXA Group.

As one of our customers states in this quote, the continuous focus on aligning omni-channel strategy and execution is a necessity to meet the demands of customers, hand-in-hand with our overall objectives as an organization.

In my daily work and in my teaching at Copenhagen Business School, I have been researching, sparring and implementing this type of logic in leading national and international companies for years. I have not seen any company undertaking these changes overnight – albeit identified a somewhat comparable methodology. A process typically has an end; however, in this case I actually consider this a continuous exercise – including new people, processes and technologies as they appear.

OMNI Channel

Figure 1: The figure shows the identified standard process when executing an omni-channel strategy and is based on best practice and experience.

As shown in the figure, the main elements of the process for executing an omni-channel strategy are:

  • Building customer profiles: As a basis for working omni-channel, a company needs to identify and gather all data elements related to prospects and customers to form unified “master customer profiles“. Data resides in a wide range of systems across the organizations such as sales and call center systems, e-mail marketing engines, web and e-commerce sites as well as on various social platforms. Data is automatically merged and managed on a real-time basis.
  • Establish insight: Once data has been gathered on individual customers, it is possible to establish insights to support customer interactions. These insights can be based on both business logic and analytics. Business logic is a series of hypothesis based on experience from historic performance and knowledge of employees, which can be structured against a general contact policy – and gradually adjusted as insights are improved with response and behavior from interactions. Analytics is hypothesis based on statistics, which follows the same iterative adjustments as business logic.
  • Connect channels: When the foundation is in place, the various channels and platforms currently used for interaction are now integrated, initially selecting the channels with most customer interaction to work seamlessly together – creating a consistent and coherent experience at any time relevant. This includes both below the line media and above the line media. Flexibility is needed as new digital platforms and channels continue to emerge.
  • Content and execution: A part of establishing an omni-channel customer engagement is to ensure that there is an overview and availability of all the possible messages to facilitate the interaction. These messages can be service- and sales-related and somewhat different, depending on channels and platforms. The seamless integration ensures that the right message is always chosen at the right time in the right channel.
  • Reporting and learning: Working omni-channel requires a new way of working with performance. Real-time omni-channel interactions imply constant monitoring and analyzing performance together with the identification of new and more adequate indicators. With constant interactions, a key performance indicator (KPI) could be “engagement“ hand-in-hand with “profitability“. The dynamics of competitors and customer interests demands a similar approach to reporting where metrics are constantly challenged, changed and replaced to ensure continued learning and proactive engagement.

The methodology is industry agnostic as one needs to specify the individual steps to the company situation. To that, I have developed a white paper that deals with this in relation to the financial industry here (see top to the right: “The Digital Bank 2.0“). For the retail industry, we have developed a visionary video which shows the possibilities with a structured omni-channel process – see the video here (YouTube).

Customer demands are growing in terms of relevance of our interactions – and although most companies still hold on to existing go-to-market models and organizations structures, it will not last long before others will revolutionize these industries as I have commented on before – and completely change the name of the game. It is therefore fundamental that organizations begin their transformation into a more dynamic and proactive character that enables the execution of these necessary and highly valuable omni-channel strategies.

Post a Comment

Industrialiser analysearbeidet i dag

Hvordan kan du integrere mer data i virksomhetens systemer, øke bruken av prediktiv analyse i hele organisasjonen og sikre kvaliteten på rapportdata fra alle avdelinger? Lær hvordan en "analysefabrikk" kan fungere som et samlebånd for virksomhetens data.

Se for deg virksomhetens data på et samlebånd. Etter hvert som du samler inn data flyter de gjennom et lagersystem eller databehandlingssystem, som sorterer og klassifiserer dataene basert på hvordan de skal brukes. Deretter overflyttes dataene til produksjon og pakking, hvor de brukes til å bygge modeller og analyser. Det siste trinnet er distribusjon, hvor rapporter og resultater blir levert.

Vi liker å tenke på dette som en analysefabrikk, noe som skaper en interessant metafor for industrialisering av analyseprosessen. La oss se nærmere på hvert trinn, med fokus på fordelene du kan realisere med denne tilnærmingen.


Dataklargjøringsfasen handler om å lede dataene til analytikeren til riktig tid og på en strukturert måte. Det finnes mange løsninger for innsamling av data, fra kopiering av enkle datasett til det å motta produksjonsdata fra IT-avdelingen. Analysefabrikken er en tilnærming som befinner seg midt mellom disse to ytterpunktene, og tilnærmingen gir analytikerne både fleksibilitet og et strukturert rammeverk for forankring. Dette virker fornuftig når det handler om lette prosesser som skal støtte en enkeltstående aktivitet under modellbygging. Men når dataene må være tilgjengelige for mange brukere i produksjonsprosesser, er det nødvendig å sikre at egnede ytelsesmålinger og kontroller er på plass.

Analysefabrikken handler om å definere et sett med prosesser som skal støtte dataanalyseprosessene. Dette krever deltagelse fra mange ulike deler av organisasjonen, samt at toppledelsen bidrar ved å drive frem tilpasninger på tvers i organisasjonen.

Dataklargjøringsprosessen skal gjøre det enkelt å gå raskt mellom to statuser. Dette trinnet krever kreativitet i kombinasjon med effektive IT-prosesser og effektiv drift. Bruk av en slik tilnærming fjerner gråområdet som finnes i mange organisasjoner, slik at konfliktene som oppstår som følge av dupliserte data og manglende effektivitet reduseres.

Utvikling av modellen

Fasen som omhandler utvikling av modellen skal sikre at analytikerne har et fleksibelt og effektivt miljø med tilgang til nødvendige data. Analysefabrikken tilbyr et sentralt styrt miljø, slik at brukerne kan fokusere på oppgave sine fremfor å måte lure på hvor de skal utføre selve databehandlingen.

Styring av modellen

Styring av modellen er tett knyttet til utvikling av modellen, som i fabrikktilnærmingen gir en arbeidsflyt med dokumentasjon, notater, kode og dataprøver i en endringslogg. Dette er viktig når man arbeider i en stadig mer regulert verden. Fabrikktilnærmingen sikrer også tilstrekkelig forankring og styring når man arbeider med store data- og databehandlingsressurser i organisasjonen. På samme måte demonstrerer godkjenninger og kontroller at modellen som objekt er klar for bruk i organisasjonen.

Distribusjon av modellen

Distribusjon av modellen er tett forbundet med klargjøring av data, utvikling av modellen og styring av modellen. I analysefabrikken henter modellen resultatene fra hvert foregående trinn, for å opprette en produksjonsmodellpakke, som kan plasseres inn i en driftsprosess. I analysefabrikken fokuserer dette trinnet på driftsmessig effektivitet og må gjennomføres på en kontrollert måte.

Utviklingen av moderne dataplattformer og analytisk databehandling tilbyr mange teknologialternativer som skal bidra til styrket scoring eller analytisk databehandling. Fabrikktilnærmingen sikrer at ikke noe av forretningslogikken går tapt når modellen settes i drift på en annen plattform. Resultatet? Analytikerne får større tiltro til modellen og IT-teamene får muligheten til å innføre modellen på den mest effektive måten. Ved hjelp av fabrikktilnærmingen skal dette trinnet bidra til å bygge opp tilliten mellom forretning og IT.


Driftssystemer er både der prosessen starter og slutter. Dataene blir i utgangspunktet hentet fra driftssystemene helt i starten av prosessen, og helt til slutt blir resultatene fra analysene som utføres konsumert av en driftsprosess eller applikasjon. Disse systemene er underlagt streng kontroll på grunn av at de er så sentrale for driften av virksomheten. Enhver interaksjon med dem er derfor underlagt strenge regler.

En fabrikktilnærming definerer egnede grensesnitt og standarder, som sikrer at data er tilgjengelig downstream og at alle analysedata vil være i en slik form at de kan handles etter. Disse standardene blir tett styrt av driftsteamene med det ønskede resultatet nøye definert på forhånd. Som du kan se handler analysefabrikken om å definere et sett med prosesser som skal støtte bruk av analyser. Dette krever deltagelse fra mange ulike deler av organisasjonen, samt at toppledelsen bidrar ved å drive frem tilpasninger på tvers i organisasjonen.

Flere fordeler fra fabrikkgulvet

Det å forstå hvordan man presenterer analysedata både i praksis og i strategisk sammenheng er helt sentralt for at analysefabrikken skal fungere. Mange organisasjonen strever med å komme videre fordi analyseprosjekter blir løsrevet fra andre systemer og prosesser i organisasjonen.

Med analysefabrikken kan du sikre at dette henger sammen og industrialisere livssyklusen til analysene. Du bringer også effektivitet og verdi til prosessen ved å skalere ut analyseproduksjonen.

For å kunne benytte noen av disse konseptene må du bli mer fleksibel i den måten virksomheten bruker analyser på, samtidig som man ønsker å øke effektiviteten og unngå unødvendige kostnader forbundet med teknologioppgraderinger. Hvis du stimulere til mer bruk av dataanalyser i organisasjonen vil du se store fordeler i form av bedre beslutninger i hele organisasjonen, samt spart tid for analytikere, IT og beslutningstakere.

Adrian Jones er medlem av SAS Analytical Platform Centre of Excellence, hvor han arbeider med high-performance analytics og enterprise architecture. Han hjelper organisasjoner med å bruke data og dataanalyse strategisk, ved å optimalisere data- og analysearkitekturen. Denne rollen innebærer rådgivning i forhold til utvikling av nye produkter, samt samarbeid med kunder for å innføre disse løsningene i praksis.

Post a Comment

Faktabasert organisasjonsutvikling – Et paradigmeskifte innenfor tradisjonell bedriftsledelse?

Akkurat som at mennesker kan være syke uten å merke det er bedrifter syke uten at ledelsen er klar over det. Sykdom er i denne sammenheng forretningsprosesser som ikke fungerer godt nok, og konsekvensene vil over tid materialisere seg i form av tapte markedsandeler, høyere kostnader eller lavere kundetilfredshet. Flere av disse effektene samtidig kan være svært alvorlig, og tiltak i form av en nødvendig snuoperasjon kan i verste fall komme alt for sent.

Informasjon må analyseres og benyttes i forretningsmessige beslutninger slik at bedriftene holdes friske gjennom løpende iverksettelse av mindre tiltak i ulike forretningsprosesser. Uten en kontinuerlig justering blir organisasjonen svakere og konsekvensen blir en alvorlig sykdom som ikke kan kureres vha tilgjengelige tiltak, helt på linje med en sykdom som ikke lar seg kurere med tilgjengelig medisin.


Det å sikre at forretningsprosesser fungerer optimalt er en klar lederoppgave, og det er ikke uvanlig at man tar «temperaturen» innenfor viktige områder som HR, økonomi, kvalitet eller salg. Temperaturen kan tas «ad-hoc» i form av spørreundersøkelser, men den kan også settes i system som f.eks. lovpålagte kvartals- og årsrapporter. Målsettingen med disse målingene er å oppdage svakheter og tegn på at bedriftene ikke yter godt nok. Svakhetene som oppdages tidlig kan ofte justeres ved enkle grep, mens svakheter som har utviklet seg over tid vil kreve større investeringer.

På samme måte som mennesker tar blodprøver og måler blodtrykket for å oppdage svakheter i egen kropp må bedrifter benytte dataanalyse og visualisering for å oppdage svakheter i egne forretningsprosesser. Bedriftene trenger ny kompetanse med et eget laboratorium, og ansatte må varsles gjennom aktivering av «varsellamper» eller utsendelse av feilmeldinger.

Står vi foran et paradigmeskifte innenfor tradisjonell bedriftsledelse? Vil økt fokus på faktabasert organisasjonsutvikling tvinge frem en ny ledelseskultur? Med dagens informasjonstilgang (internett, internet of things, big data, sensorer osv) er det ikke lenger hensiktsmessig å jobbe slik man gjorde for bare noen få år siden, og dagens toppledere må ta stilling til denne utfordringen. Hva slags leder vil jeg være? Min første anbefaling er å gjennomføre en forretningsmessig analyse som avdekker potensialet i ulike forretningsprosesser. Med dette som utgangspunkt bør "innsikt og analyse" etableres som et eget satsningsområde slik at området får den oppmerksomhet og de ressursene som området helt klart fortjener.

Post a Comment

Elephant in a china shop

 “What on earth is this elephant doing in our china shop?” This is what a surprised IT manager might utter on discovering a yellow elephant inside his carefully constructed information architecture landscape.    

Next, he sees his rational data scientists feed the new pet with data coming from social media as well as unstructured documents and real-time sales data collected from the company’s online shop. The elephant also has a name: Hadoop.

What is this new zoo all about?  Let us begin with a quick glance into the Enterprise Information Management scene.

Data warehouses have been built for 20 years. They are used for:

  • Collecting data from different operative data sources
  • Transform it into a structured format
  • Produce new information to for decision-making for businesses or public organizations

The results are then processed with various Business Intelligence and advanced analytics solutions to make use in decision-making.

Data warehouses are typically based on relational databases that understand SQL. The S stands for “structured”. Hence, it is all about structural, i.e. numeric information, such as financial figures, sales information, production volumes or raw material costs.

However, we live in a world in which information is churned out from all directions and in all formats. Businesses want to know what consumers are saying about their products and services on Twitter and Facebook. They also want to understand why people prefer one product to another. On the other hand, businesses want to handle information in real time and be able to make decisions more swiftly. There is also a need to match operative data with clients’ contract information and other documents.

This is where the new elephant stomps in. Hadoop is a storage solution for handling varied information in different formats. It also provides a powerful platform for advanced analytics.

Despite its name, Big Data does not necessarily always stand for large amounts of data, but rather data in different structures, which has previously been impossible to combine in traditional relational databases. Fundamentally, Hadoop is also an Open Source solution, and therefore its arrival in your own zoo could be very cost efficient.

Hadoop also distributes the processing power needed in data handling within several computers. Hence, its maintenance and data scalability is more flexible than with traditional data warehouse solutions.

In other words, it provides better capacity, cheaper maintenance and more varied data handling.

How can the collected Big Data then be utilized?

The data contained in Hadoop can be utilized with advanced analytical solutions. By combining, for example, the purchasing behavior data from retailers with comments in social media, it will be easier to understand consumers’ preferences. With this information, marketing campaigns can focus more effectively on different geographical areas.

We will also be able to understand changes in massive sensor data within industrial equipment and anticipate maintenance requirements. With the aid of text analytics, we could analyze maintenance records stored in Hadoop as well as use them to optimize the resource usage, while improving customer service.

Data Mining methods, on the other hand, provide wide social network analysis to fraudulent individuals trying to obtain social security benefits.

There is enormous potential in advanced analytics, which are way beyond the uses that we are currently aware of.

Hadoop is the new generation of data management and warehousing. It is not a direct replacement of relational data warehouses, but it offers more options for organizations that want to take analytics to new levels.

Time will tell whether this elephant is able to move delicately in china shops, or whether it is needed to stump over some other methods that no longer serve organization’s information needs.

Henrikki Hervonen, Professional Services Director, Finland

Post a Comment

HADOOP: En søt, liten elefant med store krefter

Er du litt usikker på hva hypen rundt open source-systemet HADOOP går ut på? Da er du ikke alene. Når sant skal sies snakker vi her om avansert teknologi, som kun folk som får et kick av 0-er og 1-tall har en sjanse til å komme til bunns i. (Se videoen nedenfor for en rask introduksjon til de nye tekniske buzz-ordene).

Mulighetene som den nye teknologien fører med seg, er det likevel svært interessant å få med seg. Ikke minst hvis du og virksomheten din kan se potensialet i å arbeide med analyse av store datamengder eller mot mange forskjellige kilder.


Mange virksomheter, spesielt i USA, er allerede i gang med HADOOP, og analysefirmaer som Gartner og Allied Market Research spår at HADOOP kommer til å få en kraftig fremgang de kommende årene. Det er altså etter alt å dømme snakk om en viktig teknologi, som kommer til å endre måten vi arbeider med data og analyse på. Koblingen til analytics er opplagt og R&D (forsknings- og utviklingsavdelingen) i SAS Institute har lenge arbeidet med å integrere SAS med HADOOP.

Ekstra muskler til håndtering av big data – på attraktive vilkår
Men hva er det som er så interessant med HADOOP? Jeg deltok på et internt kunnskapsdelingsmøte her i SAS Institute for noen dager siden, og det kastet en god del lys over saken. Kort sagt kan man si at HADOOP leverer ekstra kraft til datarelaterte prosjekter. HADOOP-elefanten er, på tross av sitt søte utseende, en skikkelig muskelbunt, som kan brukes til å lagre og håndtere data på en svært effektiv og kostnadsvennlig måte. Dette gjelder også for enorme datamengder som håndteres hos bl.a. Facebook, eBay og Yahoo ved at data deles opp og håndteres i et cluster av billige servere.

HADOOP er ikke en database i tradisjonell forstand, men et open source-rammeverk, som kan håndtere data i nesten alle størrelser og formater. Det kan brukes til datalagring alene eller i kombinasjon med virksomhetens datavarehus og analyse. Det kan med fordel brukes som sandkasse for utforskning av nye muligheter og innsikt i dine data og flere bruker HADOOP og SAS for å etablere en Big Data Lab. Noen av fordelene med HADOOP inkluderer:

  • Lavere kostnader til lagring av big data. Open source-programvare er som utgangspunkt gratis, og HADOOP benytter standard maskinvare
  • Hastighet. På grunn av den distribuerte modellen (hvor mange maskiner deler på å levere regnekraft), kan svært store datamengder behandles svært raskt
  • Skalerbarhet. Det krever ikke mye administrasjon for å legge til flere maskiner og kostnaden er kjent og oversiktlig
  • Fleksibilitet. Du behøver ikke å bearbeide data før de lagres, det samme gjelder for ustrukturerte data som tekst, bilder og videoklipp. Du kan lagre så mye data du vil og senere beslutte hvordan de skal benyttes
  • Pålitelighet. HADOOP er et svært robust system, som ikke går ned ved maskinvarefeil. Maskinens jobber sendes videre til en annen server og prosessen fortsetter

Dette høres nesten for godt ut til å være sant, så noen få ulemper må det finnes. F.eks. mener mine tekniske kolleger at det ikke er snakk om en "plug & play"-løsning. Generelt er HADOOP et litt umodent økosysten, med en del løse tåder. Det bruker flere programmeringsspråk, og det finnes få grafiske brukergrensesnitt, slik at det ofte krever mange (nye) kompetanser. Via en kommersiell partner som Hortonworks eller Cloudera blir det likevel enklere å innføre HADOOP, og det skjer en enorm utvikling på området.

HADOOP leverer "analytisk brennstoff" til SAS
Virksomheter som bruker SAS får også enklere tilgang til den nye teknologien. Fordelen ved å kombinere de to verdene er at man dermed får enda bedre muligheter for å hente verdifull innsikt ut av big data – innenfor et rimelig serverbudsjett.

Det finnes allerede flere SAS-løsninger som integrerer HADOOP og utnytter regnekraften i clusteret. Det gjelder både innenfor data management, business analytics og avansert analyse, og mer er på vei. SAS-brukere kan på denne måten trekke på HADOOP via SAS, som de allerede kjenner og eventuelt ta i bruk noen av de grafiske brukergrensesnittene fra SAS som kjører i HADOOP.

Hvis du vil vite mer om SAS-produkter tilpasset HADOOP, kan du lese dette whitepaperet. Hvis du vil vite mer om HADOOP, kan du lese flere artikler og rapporter her.

Post a Comment

Risk scoring: How analytics can improve UK border security

A safer and more efficient approach to border control.

Border management agencies are faced with a constant balancing act between security, convenience and cost. They need to decide whether to carry out checks on huge numbers of travellers, resulting in long delays and inconvenience or – if they scale down the checks – risk letting in travellers and cargo that are illegal or pose a threat.

Attempts to categorise travellers are often ineffective and can be seen as discriminatory if they aren't based on relevant facts. Accurately identifying factors linked to risk is difficult. Powerful tools are needed that can analyse data in real time to highlight security risks.

Tricky decisions

This leaves border agencies and customs offices facing a difficult choice. Do they carry out comprehensive checks, incurring inevitable delays and inconvenience and driving up costs, or do they scale down operations and risk letting in travellers or cargoes which are illegal or pose a threat? In the worst case scenario, more stringent controls can increase delays, without necessarily detecting illegal movements, especially with offenders finding ever more sophisticated ways of evading detection.

Crude attempts at profiling often cause resentment without being effective in identifying high-risk individuals. However, accurately identifying where the risk lies is difficult without tools which can analyse and make sense of all of the available data, and do it quickly.

Risk scoring

So what is the solution to the seemingly intractable problems outlined above? Ultimately, security is the most important issue here and to achieve an appropriate balance between cost, passenger convenience and security, we believe an approach based on risk scoring is the only viable option.

Risk scoring offers an increasingly viable alternative to the traditional security approach of blanket checking all passengers. At its best, it effectively involves using intelligence, behavioural modelling and data analytics to assess the levels of risk individuals pose.

The approach employs complex algorithms and advanced risk management to evaluate whether an individual is a legitimate traveller and as such should freely pass through our borders or be subject to further scrutiny. Rather than leading to more open borders, it can actually significantly enhance protection.

Number of benefits

This risk scoring approach can bring benefits across a range of different applications. It can help identify people who pose a risk based on accurate profiling of all available information, including known activity patterns, watch lists, advanced passenger information (API), containing information like passport number, age, sex, seat number and other data, including where and how the ticket was bought. Analysing all of this together to create a risk score for each passenger not only produces more accurate results, but reduces the potential for inefficiency and resentment which can result from cruder forms of 'traveller scoring'.

Critically, risk scoring can help reduce border queues by enabling border staff to make rapid and accurate decisions about which travellers to question or detain, and which to let pass. Indeed, the approach can enable decisions about whether to stop travellers or freight to be made very quickly. This is especially important when keeping immigration queues to acceptable levels.

Continually tuned

Border agencies also benefit from an approach in which risk models are continually tested against live data and optimised to improve performance and further reduce the number of false positives.

In an ideal scenario, models can be deployed based on advanced and detailed analysis of the information most associated with risk, which are continually evaluated and optimised. By continually optimising the risk model, the company helps ensure that high risk travellers and shippers of high risk freight will be identified even when they try to second-guess the checks that are in place and find ways of evading them.

Agencies can therefore direct their resources to where they know the potentially illegal travellers or cargo are to be found (representing a tick in both the security and cost boxes) and they can also – conveniently – speed up the throughput of cargo and passengers. Combining increased security with a better experience for the great majority of both passengers and freight users is a win/win scenario that makes the case for using appropriate tools highly compelling.

It is time for a change of approach in border management and I believe that risk scoring is clearly the best route forward.


This chronicle was published October 6th 2014

Post a Comment

Sensorene kommer til din virksomhet. Du kan like godt begynne å glede deg allerede nå.

Mer data og bedre data er tilgjengelig for stadig flere virksomheter, men hvor gjemmer de seg og hvordan finner du dem? Vår ekspert har svar på begge deler.

Kommentar: Google har det. Facebook, Amazon og Twitter har det. Big data, altså.

Vi snakker mye om data og nå finnes det også mange ikke-teknologisk orienterte virksomheter som har begynt å interessere seg for hvordan data kan være en del av forretningen. Men dette er bare helt i startgropen.

For mange virksomheter og organisasjoner hvor IT-støtte ikke historisk har vært en del av kjernevirksomheten, finnes det kun data på visse områder.

Det finnes kanskje en bilimportør som har en database over kjøretøy og salg, men som ikke kan måle kjøpernes preferanser direkte. Eller et offentlig kontor, hvor det selvfølgelig finnes en saksmappe, men hvor selve møtet med borgeren og utviklingen i saken ikke danner et direkte dataspor.

Men akkurat som finanssektoren, som en av de første sektorene på 1970-tallet, begynte å sørge for IT-støtte for store deler av kjerneoppgavene, gjør stadig flere andre sektorer nå det samme.

Tradisjonelt sett har IT-støtte betydd at et menneske registrerer et eller annet i en database ved hjelp av inntasting av opplysninger på et tastatur.

Dette er fremdeles mulig, men revolusjonen ligger i at data i stadig større grad blir samlet inn av teknologiske sensorer og lagret automatisk.

Selv om det vanligvis er snakk om enheter som er forbundet til et nettverk, er det avgrenset til internett-tilknyttede enheter, som for eksempel:

  • RFID-tags i Rejsekortet kan nå fortelle trafikkselskapene hvor samtlige passasjerer beveger seg hver eneste dag på hver enkelt reise


    Rejsekortet er et av de stedene som det hver dag samles inn store mengder data fra hver dag.

  • WiFi på Københavns lufthavn er med på å fortelle hvordan passasjerene beveger seg rundt, før de går ombord i flyet
  • Akselerometre i vindmøller måler etter unormale rystelser, noe som Vestas og Siemens bruker til å forutsi behov for vedlikehold
  • EEG-sensorer under huden bak ørene, som HypoSafe benytter til å måle mønstre i hjernens aktivitet og finne tidlige varseltegn på epileptiske anfall eller diabetespasienter, som står i fare for å miste bevisstheten
  • Firmaet MC10 har utviklet en elastisk sensor festet direkte på huden, som bl.a. kontinuerlig måler pasientens temperatur
  • GPS i biler til å bestemme posisjon og hastighet, f.eks. til kommunikasjon med alle andre biler om hvor det er tett trafikk eller kødannelse
  • Strekkoder ved betaling på dagligvarebutikken gir mulighet for løpende tilpasning av lageret
  • Automatic Identification System (AIS) er en måte for identifisering av alle skip og deres bevegelser, slik at man bedre kan unngå kollisjoner og juks med fiskekvoter

Alle disse sensorene kan måle nye forhold og skape langt større lengder data. Disse dataene vil være entydig definert, og dermed vil den viktigste kilden til problemer med datakvaliteten være eliminert.

Uten de tradisjonelle utfordringene med datakvalitet, kan mange prosjekter leveres til halve kostnaden, hvilket gjør data mining til et tilgjengelig alternativt for mange flere virksomheter.

De mange sensorene gir altså både mer data og renere data, men mest avgjørende er at de leverer data på prosesser, som tidligere ikke er blitt registrert.

Er virksomheten i gang?
Hvis man skal svinge seg helt opp i de øvre luftlag av analogier, er datamaskinens beregningskraft og utvikling innenfor dataanalyse en parallell til selve hjernen, mens de teknologiske sensorene er en parallell til våre sanser. Man kan si at vi med revolusjonen innenfor sensorer får flere øyne og ører til å støtte beslutningene våre på.

Så hva med din virksomhet – har dere utnyttet sensorrevolusjonen på de riktige områdene?

Se på utgiftssiden, som kan være lønninger eller lagerbinding, finnes det dataspor på disse aktivitetene? Eller på prosesser som innebærer kundekontakt? Eller på kundenes holdninger til seg selv?

Det er mange områder i en organisasjon som kan være interessante å utvikle, så det er mer enn nok å ta tak i.

Du kan jo ta en utvalgt gruppe medarbeidere på et par dagers intensiv workshop, slik at dere sammen kan være ett skritt foran og streke opp retningen for hvordan sensorrevolusjonen vil transformere deres virksomhet eller organisasjon.

Kronikken er tidligere publisert i Computerworld.

Post a Comment
  • About this blog

    SAS Institute er globalt ledende innen Business Analytics og Intelligence. Redaktør Bettina Stibolt deler her tanker og tips fra selskapets mange fageksperter. Delta gjerne i diskusjonene du også.
    Om meg
    Følg meg på Twitter
  • Subscribe to this blog

    Enter your email address:

    Other subscription options

  • Archives