Textanalyse – von unstrukturiert zu strukturiert

0

Textmining ist im Grunde wie Recycling, eine Art Alchemie, die aus unstrukturierten strukturierte Textdaten macht. Ich kann einiges Unbrauchbare vorne rein kippen und hinten kommt Brauchbares und Neues raus. Je besser das Rohmaterial allerdings ist, desto besser das Ergebnis. Dann veredelt unser Recyclingautomat den unstrukturierten Input. Und darüber möchte ich sprechen, nämlich wie dieser Automat das macht.

------ Infos zu SAS Text Analytics ------

Textanalysen mögen manchem Laien wie Magie erscheinen. Man drückt auf einen Knopf und große Datenmengen werden automatisiert in entscheidungsrelevantes Wissen übersetzt. Bspw gibt es da die Kundenbriefe, die automatisch eingelesen und kategorisiert werden. Oder es gibt Zeitungsartikel, aus denen Infos gefiltert werden können, die für eine Risikoabteilung einer Bank oder Versicherung von großer Bedeutung sein können – oder für jedes andere Unternehmen. Doch wir haben es beim Text Mining nicht mit Magie zu tun, sondern mit realen Technologien und Anforderungen. Bewegen wir uns gedanklich nun weg vom Automaten und schauen auf ein fiktives Projekt: Was gilt es zu beachten? Vor allem sollte man vorher  wissen, was man reinkippen bzw erreichen will. Der Use-Case sollte vor Projektbeginn definiert sein. Erst dann kann der probateste Weg gesucht und gefunden werden, der zum gewünschten Ziel führt. Wir beginnen idealerweise damit, die in Frage kommenden Daten zu qualifizieren (quasi das Rohmaterial) und sie dann automatisiert einzulesen.

Sind die Daten dann analysefertig (oder recyclingfertig) – auch in qualitativer Hinsicht-, gibt es im Bauch unseres Automaten fünf miteinander kombinierbare Analysebausteine oder Zahnräder, die ineinander laufen:

  1. Kategorisierungsregeln finden: Es liegen bekannte Kategorien sowie ein Trainingsdatensatz mit vorkategorisierten Textdaten vor. Aus diesem Trainingsdatensatz sollen Kategorisierungsregeln automatisch gelernt werden. Kategorisierungsregeln können etwa ein mit den Daten abgeglichenes prädiktives Modell, eine einfache oder eventuell gewichtete Schlagwortliste oder auch Boolesche Regeln sein.
  2. Kategorisierungsregeln abbilden: Es liegen Kategorisierungsregeln bekannter Kategorien vor. Diese werden abgebildet um Texte diesen Kategorien zuzuordnen, ohne sie zu lesen.
  3. Kategorien finden: Es liegen keine Kategorien vor. Stattdessen sollen die Daten selbst Kategorien vorschlagen. Dabei werden Texte in ein Zahlenwerk übersetzt, sodass Distanzen messbar werden. Näher aneinander liegende Texte bilden ein Thema, das wiederum eine Kategorie definiert. Durch Ausgabe identifizierender Terme können die Themen auch inhaltlich interpretiert werden.
  4. Spezifische Textbausteine auffinden: Bestimmte, für das Analyseproblem relevante Textbausteine, können in den Texten aufgefunden und ausgelesen werden. Diese sogenannten Entitäten können etwa Produktnamen oder Adressen sein.
  5. Tonalität: Es wird die Stimmungslage der Texte untersucht. Dabei können Texte oder Textpassagen zum Beispiel den Tonalitäten „neutral“, „positiv“ oder „negativ“ zugeordnet werden.

Die Praxis - hier darf kombiniert werden Oft können alle fünf Wege miteinander kombiniert werden, Beispiel Beschwerdemanagement. Hier steht am Ende ein interpretierbarer Kategoriebaum, mit dem die Beschwerden künftig standardisiert und automatisiert zugeordnet werden. Doch fangen wir vorne an: Zunächst werden die Beschwerde-Mails auf Themen hin durchsucht (Baustein 3). Nur die wirklich relevanten Themen werden sortiert und danach werden automatisch Kategorisierungsregeln entwickelt, etwa die Booleschen Regeln (Baustein 1). Diese Regeln sind editierbar und somit um das wertvolle Wissen des Fachbereichs erweiterbar (Baustein 2).

Anderes Beispiel Tonalitätsanalyse: Hier ist es oft wenig informativ, die Texte als Ganzes zu bewerten. Äußert sich etwa ein Kunde positiv über Produkt A, aber negativ über Produkt B, ist die Gesamttonalität zwar neutral, doch ist diese Information wertlos. Stattdessen sollten die spezifischen Textbausteine aufgefunden werden (Baustein 4), um diese auf ihre Tonalität hin zu bewertet (Baustein 5). Dann weiß man, dass einerseits Produkt A und Produkt B angesprochen wurden und zusätzlich, dass Produkt A positiv und Produkt B negativ behaftet sind. Auch diese Tonalitätsregeln können automatisiert abgearbeitet werden.

Nun zur Metaebene

Jeder Analysebaustein leitet aus unstrukturierten Textdaten strukturierte Metadaten ab! Wir erinnern uns jetzt an unseren Use-Case. In ihm haben wir definiert, wie diese Metadaten weiter verwendet werden sollen. Vielleicht zur semantischen Suche oder für ein Reporting? Wir können sie aber auch als wichtige Grundlage für weitere Entscheidungen benutzen, um einen anderen Workflow im Unternehmen anzustoßen.

Dabei ist es keinesfalls ausgeschlossen, die neuen strukturierten Informationen mit bereits vorhandenen strukturierten Information zu verknüpfen. Dann könnten wir nicht nur neue Analyseprozesse entwickeln, sondern die bestehenden weiter optimieren! Beispiel Kündiger-Prävention. Textdaten dienen hier als „neues Futter“ für bereits bestehende prädiktive Modelle. Und das ist gut so, denn schließlich sind bestehende strukturierte Daten wie Alter und Geschlecht oft träge! Um ein Ereignis vorherzusagen, braucht man aber eine erklärende Variable die sich plötzlich ändert, wie etwa „Kunde hat das Thema Service angesprochen“.

Und hier schließe ich den Kreis mit einem Resumeé Im Bauch des Automaten gibt es fünf Zahnräder, die sehr gut einzeln Ergebnisse liefern, noch besser aber in Kombination. SAS® Contextual Analysis steht nun übrigens zum ersten Mal ein Produkt bereit, mit dem technische Repräsentanten aller fünf Analysebausteine in einem Produkt bearbeitet werden können.

Und das kann sogar der Laie erleben, also der, der sich mit Big Data beschäftigen muss, dass er es nicht mit Magie zu tun hat, sondern dass im Bauch des Automaten handhabbare Technologie verlässlich wie ein Uhrenwerk arbeitet. Denn trotz der großen Funktionalität ist die Modellbildung durch die Oberfläche auch für den analytisch nicht so Versierten möglich.

Übrigens: Das System ist in die SAS Metadaten integriert. Das vereinfacht die Erstellung eines ganzheitlichen Systems aus Data Integration, Textanalyse und einer geeigneten Verwertung der so gewonnenen strukturierten Daten.

Hier die Sicht von IDC und Bitkom

Share

About Author

Max Köhler

Solutions Architect

Dr. Max Köhler arbeitet seit 2012 als Solution Architect bei SAS. Sein Aufgabenspektrum umfasst sowohl pre-sales als auch projektbezogene Aktivitäten aus dem Bereich Data Science. Das beinhaltet neben Datenvorverarbeitung und -visualisierung vor allem Data Mining und Text Analytics. Der Diplom-Wirtschaftsmathematiker promovierte vor seiner Zeit bei SAS an der Universität Göttingen im Bereich Ökonometrie.

Related Posts

Leave A Reply

Back to Top