Big Data: Theorie versus Praxis

Letztens ist mir das Buch des Naturwissenschaftlers und Comedians Vince Ebert in die Hände gefallen. Es war anfangs sehr lustig und unterhaltsam, bis zu dem Kapitel, in dem es um das Thema Big Data ging. Danach führe die Analyse großer Datenmengen dank des Phänomens „Zufall“ zum Big Fail. Im Folgenden möchte ich ein paar Beispiele aus dem Kapitel genauer durch meine Big-Data-Brille betrachten.

Thema Warenkorb-/Bondatenanalyse: Herr E. schlägt zurück! So kauft er pro Woche mehrere Artikel, die überhaupt nicht zusammen passen und stellt sich dann vor, dass ein Datenbankexperte durch seinen Einkauf verwirrt ist und ihn nicht in ein Kundencluster einordnen kann. Falsch gedacht, denn das Einkaufsmuster von Herrn E. wird als statistischer Ausreißer aussortiert und spielt damit keine Rolle mehr. Außer, dass Herr E. viele Produkte kauft, die er und seine Frau nicht wirklich brauchen, hat sein Handeln keine weiteren Effekte.

Data Mining nur auf das Finden von Korrelationen zu reduzieren, ist zu kurz gedacht! In dem Buch heißt es, man habe herausgefunden, dass Waldbrände und der Verkauf von Eis korrelieren. Mit solch einer lapidaren Aufgabe würde sich sicher kein Data Scientist beschäftigen. Das erinnert mich eher an Dr. Bakterius, der einen auch am Nordpol kühlenden Kühlschrank erfindet.

In dem Buch findet auch der 2012 von Google entwickelte Algorithmus zur Katzenerkennung aus Youtube-Videos Erwähnung, der eine Katze ja nur mit einer Wahrscheinlichkeit von 75 Prozent erkennt. Einen Augenblick, Herr E., bei dem Experiment ging es nicht um die Entwicklung eines Algorithmus zur Erkennung von Katzen, sondern um ein neuronales Netzwerk bestehend aus 16.000 CPUs Cores. Es wurden auch keine Videos gescannt wie im Buch behauptet. Als Input dienten 10.000.000 Screenshots. Die Künstliche Intelligenz hat aus den Fotos 22.000 unterschiedliche Gegenstände eigenständig erkannt und Objektkategorien gebildet. Das Experiment verfolgte das Ziel, nicht – wie bisher – einen Algorithmus mit allen Eventualitäten zu füttern, sondern dieser sollte mittels „Deep Learning“ selbst lernen. Details finden Sie hier: https://googleblog.blogspot.de/2012/06/using-large-scale-brain-simulations-for.html

Was man mit Big Data erreichen kann, verdeutlichen zum Beispiel die Sprachassistenten der Smartphones. Vor ein paar Jahren noch hieß es oft „Ich habe Ihre Frage nicht verstanden“… Heute können Sprachassistenten nicht nur die Frage beantworten: „Wie wird das Wetter heute in xy?“, sondern auch E-Mails/SMS schreiben und versenden, den nächsten Geldautomaten finden und vieles mehr. Auch die Erkennung des gesprochenen Wortes hat sich mit Big Data erheblich verbessert.

Herr E. wird bei Hadoop auch glauben, dass es sich um einen gelben Elefanten handelt 🙂 Ein Tipp für ihn: Das hat mit Big Data zu tun, denn irgendwo müssen die großen Datenmengen auch gespeichert und verarbeitet werden.

Warum Big aber nicht besser bedeutet, damit beschäftige ich mich in meinem nächsten Blog.