These: Zum Daten-MAN-gen braucht man Software. Hat man mehr Daten, nimmt man mehr Software… „Mehr vom selben!“ – jener Kulturtechnik aus der Ecke „viel hilft viel“. Stimmt das so? Man kann dies‘ knifflige Thema von verschiedenen Seiten beleuchten – im Folgenden einige mehr oder minder ernste Ansätze dazu:
Sprachwissenschaftlicher Ansatz: Der Singular von „Daten“ ist „Datum“. Und das klingt nach „Kalender“: Da ist ja jedes Datum irgendwie gleich, nur halt täglich etwas anders. Man wird älter, Feiertage fallen querbeet auf Wochentage und dass mal zehn Tage ausfallen, das ist lange her.
⇒ Erkenntnis: mehr Daten derselben Struktur = alles gut! Das „Extract-Transform-Load“ pumpt über Nacht dem Analysten seine Zahlen in den Mart.
Kulinarischer Ansatz: Mehr Daten, mehr Zutaten, mehr Töpfe? Das skaliert bei Familienfeiern in der kleinen Küche ja schon eher so mittelprächtig. Statt mehr Köchen ‘nen größeren Herd kaufen? Oder „in der Cloud“ Essengehen? Na, ja. Besser die Zutaten im jeweils passenden Gerät verarbeiten, warmhalten, abschmecken.
⇒ Erkenntnis: mehr Daten unterschiedlicher Struktur = Rezepte befolgen und die Garzeiten beachten. Und mal experimentieren. Oder immer Eintopf kochen – was nicht jedem schmecken wird. Speziell wenn feierlich der Chef zu verköstigen ist.
Publizistischer Ansatz: Timothy King bloggt über die Idee, man möge die manuelle Mühsal beim Datenmanagement intelligent reduzieren (“Taking the “man” out of data management“). Und tatsächlich erweitern Hersteller wie SAS ihre Lösungen aktuell um mehr eingebautes „machine learning”: Da Fehler bekanntlich seltener sind als korrekte Werte, kann doch der Computer gleich eigenständig ‘was vorschlagen, beispielsweise aus Anreden wie “Hr.” oder “Hrrr” darauf schließen: „Ja, das meint wohl ’Herr‘!“ Und da viele andere Datensätze mit jenem „Herr“ auch im Nachbarfeld „männlich“ drinstehen haben, ist dieser Kunde keine Frau. Da kann der Computer doch gleich eine universelle Regel als Vorschlag „von sich aus“ generieren… was erheblich besser wäre als das heute gängige Verfahren: Man starrt im Profiling auf die üblichen Ausreißer und muss sich dann aber manuell eine Liste ungültiger Werte zusammentippen.
⇒ Erkenntnis: Doch mehr Daten als Verarbeiter in der Belegschaft = Autopilot zuschalten, die Maschine aufschlauen und von Spamfiltern lernen. Man wird zwar nicht ersetzt, aber prima entlastet.
Geek’iger Ansatz (oder: was in der Zwischenzeit geschah): Der alte Datenschubser lässt sich jüngst zum hippen Data Scientist aufspritzen (weil “sexiest job alive”!, Quelle: hier, hier und hier), zeitgleich feiert das exzessive Kommandozeilen-Skripting der Achtziger mit Hadoop seine unverdiente Renaissance… derweil circa 9 von 10 Bestandskunden das gediegene „%macro“ immer noch für das Tollste seit Erfindung der Digitaluhren halten. Hm. Bös’ formuliert, Finger in die Wunde, aber Realität bei manch „Modernisierungs-Workshop“, zu dem ich eingeladen werde.
⇒ Erkenntnis: Das schlau zu kombinieren, ist die Herausforderung für Softwarehäuser. Unser Auftrag: Jenseits pathetischem „modernisiere oder verharre!” den geschätzten Kunden auf Augenhöhe abholen. Beispiel SAS Studio, der Programm-Editor im Browser: zunehmend mächtiger, grafischer und kollaborativ – aber überraschend unbekannt im Kreis der Nutzer. Dabei ist’s der zeitgemäße Ersatz des SAS Display Managers (aka „mein gutes altes SAS“), der in jeder SAS-Plattform-Installation eh drin ist…
Zeitgemäßer Ansatz: SAS-Software misst Qualität. Die Qualität – im Sinne von „Erkenntnis über Zustände“ – wird dadurch nicht besser, sondern schlechter. Zum Beweis machen wir im Presales gnadenlos den „Tag mit Ihren Daten”: nach drei Klicks im Profiling weiß der Kunde, wie schlecht es um seine Daten steht. Besser wird die Qualität nur mit Menschen, die geordnet und nachvollziehbar die Güte in ihren Quellen anheben. Basierend auf Vorgaben (Glossar), Messpunkten (DQ) und Zusammenhängen (Lineage). Dieser Prozess heißt Governance. Einfach.
⇒ Erkenntnis: We transform the way the world works.
Nutzloses Wissen für den Nachbarn am Grill: Jeder produziert pro Minute 1,7 MB Daten. Die Bibel hat 4½ MB. Alle PDFs des SAS 9.4M3-Depots haben zusammen 1470 MB – etwas mehr als das menschliche Genom mit 1359 MB…