Diese Frage bekomme ich von Nicht-Data-Scientists immer häufiger gestellt. Und es ranken sich viele Meinungen und Mythen um diese Expertengruppe.
Genau aus diesem Grund habe ich mich mit Simon Greiner, einem angehenden Data Scientist und erfahrenen IT-Berater, unterhalten. Ein Mythos über Data Scientists: sie lesen keine Bücher mehr. Stimmt nicht! Und sie können eine großartige Inspirationsquelle sein.
Anita Lakhotia: Data Science ist eine Wissenschaft, die ständig im Wandel ist. Wie bleibst du auf dem Laufenden? Woher beziehst du deine Informationen, oder wo tauschst du dich mit anderen Experten aus?
Greiner: Eine tolle Plattform mit sehr interessanten Artikeln ist Medium. Es unterscheidet sich von anderen Blogs, weil man hier echtes Insider-Wissen bekommt, und das ist sehr „down to earth“. Da wird nicht abstrakt über Themen geschrieben, sondern darüber, was Data Scientists wirklich beschäftigt, über Herausforderungen, denen sie täglich begegnen. Zweitens: Bücher, Bücher, Bücher! Das hört sich vielleicht seltsam oder überholt an, aber einige der besten Algorithmen sind in den 70ern und 80ern entstanden. Sie konnten nur nicht ihr volles Potenzial entfalten, weil der Data Scientist einfach nicht über die nötige Rechenleistung verfügte. Um bei aktuellen Entwicklungen up to date zu bleiben, sind Papers sehr gut geeignet. Aber auch beim Austausch mit Kollegen, zum Beispiel auf Konferenzen wie dem World AI Summit, bekommt man viel Neues mit und erhält hilfreiche Tipps. Zu Meetups gehe ich ebenso gerne, wenn ich Zeit dafür finde. Und meine absolute Leidenschaft sind Kaggle-Wettbewerbe mit meinen Kommilitonen aus der Universität. Sie kosten zwar viel Zeit, aber man hat so viel Spaß, dass es sich lohnt. Hier ist übrigens ein Link zu einem Beitrag von einem Freund, Joshua Görner, auf Medium, mit dem er es unter die ersten zwei Prozent der beliebtesten Beiträge geschafft hat.
Lakhotia: Bezeichnest du dich selbst als Data Scientist?
Greiner: Sobald ich meinen Master abgeschlossen habe, ja. Aber ich sehe mich eher als Brücke zwischen der Business-Perspektive und der technologischen Data Science. Zurzeit bezeichnen sich sehr viele als Data Scientists, weil es „in“ ist, aber eigentlich hat das, was sie tun, nur wenig mit Data Science zu tun.
Was macht denn ein typischer Data Scientist? #datascience #artificialintelligence #datascientist Click To TweetLakhotia: Was macht denn ein typischer Data Scientist?
Greiner: Vor allem kümmert er sich um große Datenmengen. Normalerweise gibt es schon eine bestimmte Vorstellung für einen Business Case, bevor sich der Data Scientists an die Daten macht. Dann ist seine Aufgabe: klassisches Aufbereiten, Bereinigen und Analysieren der Daten. Im Anschluss wird Machine Learning eingesetzt, um die Daten in den Business Case zu überführen. Das ist aber weniger die Aufgabe eines Einzelnen, sondern geschieht meist in einem Team aus Statistikern, die Modelle entwickeln und Daten analysieren, und Data Scientists. Letztere kümmern sich um den Input, mit dem die Modelle gefüttert werden, bestimmen Benchmark-Infrastruktur und erstellen die eigentlichen Machine-Learning-Algorithmen, um sie auf die Daten anzuwenden.
Lakhotia: Wo wir beim Thema sind: Worin liegt konkret der Unterschied zwischen Statistikern und Data Scientists?
Greiner: Data Scientists bereinigen Daten, analysieren sie und entwickeln Modelle. Tatsächlich sind das aber Aufgabenbereiche, in die unterschiedlichste Personen involviert sind. Klassische Statistiker haben in der Vergangenheit lediglich Daten bereinigt, vorbereitet und in die Modelle geführt – waren also Mathematiker ohne IT-Hintergrund.
Ich bin zum Beispiel eher ein Allrounder und übernehme sehr vielseitige Aufgaben: statistische Analyse, Überprüfen der Daten auf ihre Nützlichkeit, Bereinigen der Daten, Bauen von Algorithmen und schließlich auch die Präsentation der Ergebnisse. Um die Prozesse von Anfang bis Ende zu beherrschen, habe ich mich für das Masterstudium entschieden.
Im Grunde muss ein Data Scientist wissen, was der Algorithmus liefern soll, um ihn dann mit den richtigen Daten zu füttern, aus denen er lernt. Da profitiere ich von meinem Wirtschaftsstudium: Ich kann Geschäftsprobleme viel schneller erkennen und vielleicht auch besser verstehen. Aber natürlich gibt es andere, die um einiges fitter im Programmieren sind als ich. Die eigentliche Aufgabe des Data Scientist ist, eine Vorstellung davon zu haben, welche Erkenntnis die unstrukturierten Kundendaten bergen könnten – und dafür ist ein Verständnis für wirtschaftliche Zusammenhänge sehr hilfreich.
Lakhotia: Wieso hast du dich für einen Master in Data Science entschieden? Was hat dich dazu bewegt?
Greiner: Ich bin fast der Einzige in meinem Studiengang ohne IT-Hintergrund. Deshalb musste ich als Erstes eine Eignungsprüfung absolvieren. Anfangs war es wirklich schwer, weil man von Tag eins an sehr tief ins Programmieren einsteigt. Aber mein Wirtschaftsstudium wird mir wiederum im Berufsleben weiterhelfen. Denn wer Daten richtig interpretieren will, braucht auch Fachkenntnisse.
Ich habe mich schon immer für Statistik begeistert und war fasziniert von der Idee, dass Menschen mithilfe von Technologie sehr komplexe Ereignisse vorhersagen können. Und ein weiterer Interessenbereich von mir war Psychologie: Warum tun Menschen dieses oder jenes? Mit Data Science habe ich die Werkzeuge an der Hand, um genau das zu analysieren – auf einem ganz anderen Level und in einem viel größeren Maßstab.
Also habe ich mir ein Buch über verschiedene Data-Science-Anwendungsfälle bestellt, und gleich der erste war besonders interessant: Basierend auf Daten der letzten drei American-Football-Seasons wurde der Sieger des Super Bowls vorhergesagt. Von da an stand mein Entschluss zu 100 Prozent fest 😊. Und zwei Wochen später habe ich im Forbes Magazine gelesen, dass Data Scientist der Job des 21. Jahrhunderts sein wird – eine gute Entscheidung also.
Lakhotia: Welche weiteren Fähigkeiten braucht deiner Meinung ein Data Scientist, um erfolgreich und fit für die Zukunft zu sein? Wo sollten Interessierte anfangen?
Greiner: Ich denke, auch nach dem Masterabschluss ist es wichtig, immer am Puls der Zeit zu bleiben, denn Data Science verändert sich sehr schnell. Statistik-Interessierten, die zwar nicht studieren wollen, aber davon überzeugt sind, dass innovative Technologien völlig neue Möglichkeiten erschließen können, möchte ich mitgeben: Auch mit kleinen Taten lässt sich Großes bewirken. Manchmal hilft es schon, darüber zu lesen, wie mit Data Science wirklich wichtige globale Probleme gelöst werden, um seinen Horizont zu erweitern. Außerdem gibt es viele tolle Webinare, die sich gerade anfangs sehr gut eignen, und wer bereits ein wenig Übung im Programmieren hat, kann schon mit wenig Aufwand viel erreichen.
Lakhotia: Wie groß ist die Lücke zwischen „klassischen Statistikern“ und den „neuen Data Scientists“? Oder sind Data Scientists die modernen Statistiker? Werden sie zusammenarbeiten können?
Greiner: Data Science ist im Grunde Teamwork. Man braucht immer beide Welten. Für ein erfolgreiches Data-Science-Projekt sind Entwickler, Fachexperten und Statistiker gefragt. Die modernen Data Scientists bringen zwar von allem etwas mit, aber ohne die Fachexperten wird es schwer, echte Erkenntnisse zu gewinnen oder sie zu bestätigen. Ein Data Scientist kann bereits in kurzer Zeit viel erreichen, und manchmal reicht diese Expertise schon für ein erfolgreiches Projekt. Genau deshalb sind Data Scientists so attraktiv für Unternehmen. Damit will ich aber natürlich nicht sagen, dass alle Data Scientists „nur“ Allrounder sind. Aber jeder hat seine eigenen speziellen Kompetenzen, und die ergänzen sich im Team.
Abgesehen davon braucht man auch Softwarearchitekten, die die Infrastruktur für die Analyse bereitstellen. Ohne sie kommt man schnell an seine Grenzen, wenn das Datenvolumen zunimmt und die Berechnungen immer umfangreicher und komplexer werden.
Lakhotia: Was ist dein Schwerpunkt? Und warum hast du dich dafür entschieden?
Greiner: Ich interessiere mich am meisten für Data Mining, statistische Analyse und Advanced Machine Learning.
Lakhotia: Welche Programmiersprache beherrschst du – und welche magst du am liebsten?
Greiner: Python!!! Aber ich kann auch R und ein bisschen Java.
Lakhotia: Data Science entwickelt sich rasend schnell. Was sind die künftig geforderten Fähigkeiten und Kenntnisse eines Data Scientist – etwa in fünf bis zehn Jahren?
Greiner: Die Zukunft der Data Science liegt in automatisiertem Machine Learning. Das heißt für uns: Data Scientists sind vor allem am Anfang und am Ende des Prozesses gefragt, also wenn es ums Bereinigen und Aufbereiten von Daten geht. All die Tätigkeiten dazwischen – Feature Engineering, Training oder Modelle anpassen – sind Aspekte, die Maschinen übernehmen werden.
In diesem Zusammenhang, denke ich, müssen wir damit anfangen, auch die skeptischen Senior Manager zu überzeugen, die nicht schon mit KI aufgewachsen sind. Viele erkennen nicht die Bedeutung und den Wert dieser Technologie – auch für die Zukunft. Wenn wir sie nicht überzeugen, verpassen wir den Anschluss.
Lakhotia: Wie erklärst du deiner Familie, was ein Data Scientist macht?
Greiner: Ich sage, dass ich basierend auf einer riesen Datenmenge Vorhersagen mache. Oder dass ich selbstlernende Algorithmen entwickle, die das sogar noch besser können.
Aber meine Mutter erzählt anderen Leuten meistens, dass ich einfach Dinge mit dem Computer mache😊.
1 Comment
Hallo!
"Also habe ich mir ein Buch über verschiedene Data-Science-Anwendungsfälle bestellt, und gleich der erste war besonders interessant: Basierend auf Daten der letzten drei American-Football-Seasons wurde der Sieger des Super Bowls vorhergesagt."
Welches Buch wurde denn da gelesen?
Beste Grüße, Inga