Wie funktioniert die Analyse unstrukturierter Daten? Ein Beitrag zu Datability

1

Autor: Dr. Michael Jungbluth, Project Manager und Analytics Experte bei SAS Deutschland

„Datability“, das Leitthema der CeBIT 2014, steht sinnbildlich für die derzeit wesentlichen Markttrends in der IT-Branche: (Big) Data in Verbindung mit der Fähigkeit (ability) diese Daten nachhaltig (sustainability) und verantwortungsvoll (responsibility) zu nutzen. Zusammengefasst gesagt: Datability steht für den Wunsch nach einem intelligenten Umgang mit „Big Data“ unter starken Datenschutzgesichtspunkten.

Big Data geht alle an

Die reine Größe, das vorhergesagte exponentielle Wachstum der Datenmengen sowie die technischen und organisatorischen Voraussetzungen zur Verarbeitung von Big Data werden intensiv diskutiert seit das Phänomen der großen und variantenreichen Datenmenge einen Namen bekam. McKinsey hat 2011 in dem häufig zitierten Artikel „Big Data: The Next Frontier for Innovation, Competition, and Productivity” das Thema „Big Data” branchenübergreifend als strategisches Kernthema positioniert und das ist es bis heute weitestgehend geblieben. Die Unternehmensberater zeigen in diesem Beitrag ein klares Bild auf: Sind Unternehmen in der Lage „Big Data“ für sich zu nutzen, so sind die gewonnenen Erkenntnisse Innovationsmotoren, die mit Wettbewerbsvorteilen und Produktivitätssteigerungen einhergehen.

Inmitten dieser Diskussionen wurde auch schon in der Vergangenheit oft betont, dass das reine Datenmanagement und die konventionelle Datenanalyse eben nicht final den bestmöglichen Nutzen aus „Big Data“ ziehen können, sondern dass es dafür Vorhersagemodelle und statistische Analysen braucht – sprich „Big Analytics“. Neben dem Wissen über gesetzliche Vorschriften und einem Gefühl für moralische und ethische Grenzen beim Umgang mit Daten erhält die generelle Fähigkeit analytischer Datenverarbeitung nun prominent Einzug in den Kunstbegriff „Datability“.

Texte werden nach wie vor nur zurückhaltend als wichtige Quelle für wirtschaftlich nutzbare Informationen wahrgenommen – unter anderem weil sie im Vergleich zu strukturierten Informationen (Tabelle, …) meist überproportional schützenswerte Informationen enthalten. Und: Es herrscht die Meinung vor, dass mit einem fehlenden Skalenniveau, also einer erschwerten Messbarkeit von Zusammenhängen, das Informationspotential der Daten in analytischen Modellen sinkt. Dies ist jedoch definitiv nicht der Fall.

Wer „Datability“ aufbauen will, sollte sich darüber im Klaren sein.

Über das Potenzial unstrukturierter Daten 

Nach einer Studie von Booz & Company sind 80-90% der Daten unstrukturierte Texte, z.B. aus Call-/ Service Centern und Social Media Quellen. Und dieser Anteil wird noch weiter wachsen: mit einer 15-fachen Rate im Vergleich zu strukturierten Daten. Demzufolge wird erwartet, dass bereits in 2015 ca. 68% der unstrukturierten Informationen eines Unternehmens direkt von Kunden kommen. Für Sektoren mit hoher Kundenorientierung ein essentieller Faktor.

Das Angebot eines Unternehmens, ein verbessertes Produkt- oder Serviceangebot zu entwickeln, wird generell von den Kunden positiv aufgenommen – sofern die konsequente Berücksichtigung schützenswerter Informationen vom Kunden sensibel als Bestandteil der Kundenorientierung wahrgenommen wird. Daher ist dem Ziel der „Datability“ gedient, wenn Unternehmen die Datenschutzauflagen von Beginn an als wertstiftende analytische Nebenbedingung begreifen. Nur am Rande: Trotz vielen kritischen Medienstimmen ist das auch in der Realität tatsächlich der Fall. Das ist zumindest mein Eindruck.

Zusammenfassend steht für Unternehmen, die „Big Data“ nachhaltig und verantwortungsvoll kapitalisieren wollen, somit schon heute fest, dass sie

a) „Big Analytics“ benötigen,
b) im Zuge dessen an unstrukturierten Daten nicht vorbeikommen und
c) konsequent Datenschutz als analytische Nebenbedingung in Modellen berücksichtigen müssen.

Die IDC Studie „The Digital Universe in 2020“ verweist ebenfalls auf die Notwendigkeit, unstrukturierte Daten zu verstehen. Dabei ist Datenschutz keine Randerscheinung, sondern gestaltet den Prozess der Datenauswertung grundlegend: Zu schützende Informationen sind linguistische Konzepte wie Vornamen, Nachnamen oder Kontoverbindungen, die mittels Tagging anonymisiert werden können. Damit ist das sogenannte Tagging der erste Schritt der Text Analyse. Danach geht es um ein performantes Zusammenspiel von Hard- und Software: Die Anforderungen an Text Analytics sind hoch, da aus Dokumenten – mitunter sehr schnell – mehrere Millionen Wörter und Konzepte extrahiert werden müssen.

Dr. Radhika Kulkarni, Vice President of Advanced Analytics R&D, SAS Institute Inc. adressiert diesen Performance-Bedarf ganz konkret in ihrem Blog-Beitrag „Accelerating the Pace to High-Performance Analytics“, in dem sie den Wertbeitrag von High Performance Umgebungen gerade im Bereich Text Analytics hervorhebt.

Text Analytics – Definition, Prozess, Beispiele

Im Folgenden soll kurz umrissen werden, was unter Text Analytics genau zu verstehen ist und welche zentralen Verarbeitungsschritte und Verfahrensgruppen bereits heute zur Verfügung stehen, um „Datability“ sicherzustellen.

Die folgende Abbildung zeigt die vielfältigen Entwicklungslinien, die maßgeblichen Einfluss auf die derzeit zur Verfügung stehenden Methoden in der Text Analyse genommen haben.

Abbildung 1: Begriffsklärung Text Analytics, Miner et al. (2012)

Text Analytics ist folglich keinesfalls eine junge Domäne, sondern ein breiter Fächer elaborierter Verfahrensgruppen, die in diversen Disziplinen unterschiedlich über die Jahre gewachsen sind. Ein wesentlicher Unterschied zum Data Mining besteht in der Notwendigkeit, unstrukturierte Daten zunächst sprachenabhängig aufzubereiten (Natural Language Processing). Liegen aufbereitete Informationen vor, so können analog zum Data-Mining multivariate strukturprüfende oder strukturentdeckende Verfahren aufgesetzt werden.

Das Natural Language Processing startet mit der sogenannten „Tokenization“. In diesem Schritt werden Texte zunächst in alle relevanten Bestandteile (z.B. Wörter und Symbole) zerlegt. Morphologische, lexikografische wie auch semantische Anreicherungsschritte können sich anschließen: Ein Standardschritt dabei ist das so genannte „Part-of-Speech-Tagging“, das den extrahierten Wortbestandteilen ihre morphologische Bedeutung (z.B. Verb) zukommen lässt und das Flexionsformen auf deren Grundform mappt (z.B. „ging“ auf „gehen“).

Um auf Basis dieser Zerlegung und ersten Anreicherungen von textuellen Informationen möglichst valide und datenschutzkonforme semantische Informationen zu generieren sind folgende Schritte von zentraler Bedeutung:

  1. Systematisches Filtern von Textbestanteilen (z.B. Vor- und Nachnamen),
  2. Orthogonalisierung („Latent Semantic Analysis“) und
  3. Einbeziehen sogenannter „Custom Entities“ (z.B. Kontoverbindungen oder Telefonnummern)

Ein systematisches Filtern von Textbestandteilen kann zum einen von Experten gestaltet werden, die bestimmte Schlagwörter vorgeben. Es kann aber auch auf Basis statistischer Methoden, wie bspw. der Entropie, determiniert werden.

Unter einer Orthogonalisierung versteht man eine systematische Komplexitätsreduktion (Zusammenfassen von wichtigen Wortkombinationen zu sogenannten Topics), die trotzdem noch hinsichtlich des erfassten Informationswertes in den Dokumenten vergleichbar mit der Ausgangsdatenlage ist. Das Vorgehen ähnelt somit stark der klassischen Hauptkomponentenanalyse. Für Details zu diesem Thema sei auf Albright 2004 verwiesen.

Der dritte Punkt, das Einbeziehen der "Custom Entities" schlägt eine Brücke zwischen linguistischen/regelbasierten Ansätzen und einem statistischen/maschinellen Vorgehen im Text-Mining: Auf statistische Verfahren kann man beim Text-Mining allein aufgrund des Datenvolumens – Stichwort „Big Data“ – nicht verzichten.

Fazit

Experten werden stets Kontexte in Texten definieren können, deren Erkennen und Berücksichtigen erhebliche Mehrwerte liefert. Beispielsweise kann eine Ähnlichkeit von Dokumenten oft viel besser über kontextuelle Ähnlichkeit als über textuelle Ähnlichkeit auf Basis verwendeter Wörter ermittelt werden. Ebenso sind Kontexte des Datenschutzes zu berücksichtigen, also das Ausklammern oder Anonymisieren personenbezogener Daten. Erst wenn diese wichtigen Parameter richtig gesetzt sind kommt die statistische Auswertung. So bietet ein intelligentes Verknüpfen linguistischer und statistischer Ansätze den besten Weg in der Verarbeitung unstrukturierter Informationen.

Albright et al. (2013) beleuchten in einem aktuellen Paper “Relate, Retain, and Remodel: Creating and Using Context-Sensitive Linguistic Features in Text Mining Models” die Möglichkeit statistische Text-Mining Prozeduren signifikant zu verbessern, über eine Extrahierung kontextsensitiver Inhalte auf Basis linguistischer Verfahren.

Beispielsweise stiftet der Kontext „positive/negative Tonalität“ häufig einen größeren Mehrwert in der Bewertung von Texten als es die reinen Wortbestandteile in einem statistischen „Bag-of-Words“-Ansatz zulassen würden. Daher ist es in jedem Fall von großer Bedeutung, Kontext – und somit insbesondere schützenswerten Kontext – in unstrukturierten Texten als solchen zu taggen und in den folgenden Text Analytics Prozessen mit entsprechend besserer Informationsqualität zu berücksichtigen.

Das SAS Institute bietet zwei Lösungen, die kontext-sensitives Text-Mining (auch in High Performance Umgebungen) ermöglichen. Dabei dient SAS Enterprise Content Categorization als Umgebung zur Spezifikation linguistischer Ansätze und der SAS Text Miner als Umgebung zur Spezifikation statistischer Ansätze. In SAS Enterprise Content Categorization spezifizierte Regeln zur Extrahierung wichtiger Kontexte können über so genannte LITI-Konzepte im SAS Text Miner als „Custom Entities“ übergeben werden und stehen somit in der bewährten SAS Enterprise Miner Umgebung zur Verfügung. Als solche können die Kontexte dann beispielsweise als Prädiktoren oder Segmentierungsvariablen im weiteren SAS Enterprise Miner Stream verarbeitet werden.

SAS bietet darüber hinaus weitere Lösungen im Bereich Text Analytics, die gerne im Web unter http://www.sas.com/text-analytics/ nachvollzogen werden können.

Mein Fazit: Sowohl ein intelligenter Umgang wie auch starke Datenschutzauflagen erfordern zwingend analytische Fähigkeiten im Kontext „Big Data“. Ohne die notwendige analytische „Ability“ können weder die vielversprechenden Chancen aus „Big Data“ genutzt noch ein nachhaltiger und verantwortungsvoller Umgang mit den gewonnenen Erkenntnissen abgesichert werden.

 

Quellen:

  • CeBit (2013), “Datability - Die CeBIT 2014 geht mit Big Data als Top-Thema an den Start“ (http://www.cebit.de/top-thema/datability/big-data)
  • Finanzen.net (2013), „CeBIT 2014 steht unter dem Top-Thema Datability“ (http://www.finanzen.net/nachricht/aktien/CeBIT-2014-steht-unter-dem-Top-Thema-Datability-NEU-Sehen-Sie-das-Video-zu-Datability-unter-www-cebit-de-2627234)
  • McKinsey Global Institute (2011), “Big Data: The Next Frontier for Innovation, Competition, and Productivity”.
  • Booz & Company (2012), “Benefitting from Big Data, Leveraging Unstructured Data, Capabilities for Competitive Advantage”.
  • IDC's Digital Universe Study, sponsored by EMC 2011/2012.
  • Miner et al. (2012), “Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications”.
  • Kulkarni (2012), „Accelerating the Pace to High-Performance Analytics“ (https://blogs.sas.com/content/sascom/2012/04/03/accelerating-the-pace-to-high-performance-analytics/)
  • Albright et al. (2013), “Relate, Retain, and Remodel: Creating and Using Context-Sensitive Linguistic Features in Text Mining Models” (http://support.sas.com/resources/papers/proceedings13/100-2013.pdf)
  • Albright (2004), “Taming Text with the SVD” (ftp://ftp.sas.com/techsup/download/EMiner/TamingTextwiththeSVD.pdf)

 

Tags Statistik
Share

About Author

Dr. Michael Jungbluth

Program Manager CI Analytics Lead

Dr. Michael Jungbluth ist als Program Manager CI Analytics Lead verantwortlich für analytische Fragestellungen rund um das Thema Customer Intelligence Delivery im Bereich Professional Services DACH des SAS Institutes. Er ist Spezialist für analytisches CRM mit Branchenfokus Handel und Dienstleistungen. Im Nachgang zu diversen Marktforschungs- und Beratungsprojekten im Bereich CRM war Michael Jungbluth zweieinhalb Jahre als Assistent der Geschäftsführung und Senior Consultant Consumer Insights bei der Bertelsmann AG tätig, bevor er 2012 zu SAS kam. Im Anschluss zeigte sich Michael Jungbluth bis 2015 als SAS Projektmanager und Analytics Experte für die operative Umsetzung von Customer Intelligence- und Text Mining Projekten verantwortlich.

1 Comment

  1. Ausgezeichneter Artikel mit Tiefgang, danke dafür.
    Aus meiner Sicht ist Big Data und Technologie auch dafür erforderlich, um nicht nur Statistik über die Texte zu erzeugen, sondern insbesondere deren Inhalte zu "verstehen" und in Zusammenhänge mit anderen Datenquellen zu bringen.

Leave A Reply

Back to Top