Wo können Sie Ihr Können mit dem von anderen Experten vergleichen? Und in der Data Science Community über den Tellerrand blicken? Oder einfach ungezwungen programmieren - wie zu Studienzeiten - weil es Spaß macht? Zum Beispiel bei einem Hackathon.
Mit Fabian Buchert, selbst Data Scientist, sprach ich über seine Erfahrungen beim letzten Data4good-Hackathon. Der fand am 6. Mai in Heidelberg auf dem SAS Campus statt.
Wie bist du auf diesen Data4Good Hackathon aufmerksam geworden?
Ich bin über das DataViz Meet-up auf den Hackathon aufmerksam geworden. Die DataViz Community um Frankfurt am Main, hat den Hackathon organisiert. Ich persönlich suche immer nach Möglichkeiten, mich bezüglich aktueller Trends der Datenanalyse weiterzubilden. Meet-ups bieten mir eine hervorragende Plattform, persönliches und geschäftliches Interesse miteinander zu verbinden. Das Spektrum der Themen – von Visualisierung bis Machine Learning – und der Teilnehmer – von Studenten bis sehr erfahrenen Persönlichkeiten aus Bildung und Wirtschaft – macht Meet-ups zusätzlich interessant. Dabei erfährt man eben auch von solchen Events, wie dem Hackathon.
Was genau war das Thema des Hackathons am 6. Mai auf dem SAS Campus in Heidelberg? Weshalb hast du daran teilgenommen?
Das Thema war „Open Data in Action“. Es ging um den Zugang und die Nutzung von Open Data auf verschiedene Art und Weise. Zum einen wurde das in Keynotes erläutert, zum anderen wurde im anschließenden Mini-Hackathon konkret mit den Daten gearbeitet. Das Spannende an einem solchen Hackathon ist, dass jeder mit dem Tool arbeiten konnte, das ihm am meisten lag. Also angefangen mit Excel, Python und Microsoft Power BI hin zu SAS Viya. Das erweitert für jeden Teilnehmer den Horizont. Man kann zum einen direkt am Puls der Szene fühlen, was gerade aktuelle Themen und Trends sind, und zum anderen hat man die Möglichkeit, sehr direkt und ungezwungen zu begeistern. Es ist als Mitarbeiter eines „traditionellen“ Softwareanbieters wie SAS oft nicht so leicht, in der Community gesehen zu werden. Aber an diesem Meet-up war der Umgang miteinander sehr ungezwungen und offen – bei allen Teilnehmern. Das hat mich persönlich begeistert. Und den Teilnehmern ging es genauso. Da waren Studenten der TU Darmstadt, die noch ganz am Anfang ihrer Data-Science-Karriere stehen, und erfahrene Power User, die für große Firmen aus der Region arbeiteten. Berater und Blogger und auch ein paar, denen es einfach nur Spaß machte zu hacken.
Was genau war das Thema des Hackathons? Wie war dein Ansatz?
Der Hackathon lief unter der Initiative „Data4good“. Dazu gibt es auf der ganzen Welt Projekte, und SAS engagiert sich zusammen mit verschiedenen Organisationen dafür. In Deutschland konnten die Organisatoren die nicht-kommerzielle Organisation „CorrelAid“ für die Zusammenarbeit mit uns gewinnen. CorrelAid ist ein Netzwerk von Data Scientists, die Pro-Bono-Projekte für andere NGOs machen. Auf deren Website www.correlaid.org sind einige Beispiele aufgeführt. Die Daten für den Hackathon kamen von openpetition.de. Das ist die deutschsprachige Pattform für Online-Petitionen. Jeder kann dort Petitionen einreichen bzw. unterschreiben. Wir bekamen einen kompletten Datenabzug der MySQL-Datenbank und durften damit praktisch machen, was wir wollten. D. h., es wurde uns nichts vorgegeben, sondern jeder konnte eigene Ideen entwickeln, wie die Plattform verbessert werden könnte oder wie der Service der Plattform verbessert werden könnte. Dafür hatten die Teilnehmer „nur“ 3 Stunden Zeit, deshalb auch Mini-Hackathon.
Wie haben sich die anderen Teilnehmer den Daten genähert?
Das Schöne an einem solchen Hackathon ist, dass die Teilnehmer auf verschiedene Arten und mit verschiedenen Tools an die Daten herangegangen sind – ganz nach Präferenz und Vorkenntnissen. Das ging von Excel über MS Power BI bis hin zu Python oder wie bei mir zu SAS Viya. Durch Gruppenbildung sind dabei natürlich teilweise spannende Kombinationen entstanden, die sehr vielseitige Ergebnisse von der Skizzierung eines Konzeptes auf dem Flipchart über Visualisierung bis hin zu Recommender-Systemen und prädiktiven Modellen hervorgebracht haben.
Kannst du bitte noch mal etwas genauer auf deinen Ansatz zu den Daten eingehen? Wie hast du das gemacht und was genau war deine Fragestellung?
Da ich mich insbesondere in der Analyse unstrukturierter Daten zu Hause fühle, habe ich mich mit den Freitexten der Petitionsbeschreibungen befasst. Petitionen können aus verschiedenen Gründen von der anderen Seite abgelehnt werden – z. B. wegen Beleidigungen. Eine solche Variable mit dem Grund der Ablehnung ist in den Daten hinterlegt. Auf Basis der Freitexte lassen sich mittels Text Mining und Verfahren maschinellen Lernens prädiktive Modelle trainieren, die nur auf Basis des Textes eine Ablehnungswahrscheinlichkeit prognostizieren. Das könnte eventuell eine Hilfe für die Administratoren der Seite sein, um verdächtigen Inhalt bereits sehr früh zu identifizieren und gegebenenfalls genauer zu betrachten.
Was war das Feedback zu deiner Fragestellung und deren Lösung?
Ich denke, die Herangehensweise Freitexte und strukturierten Informationen zu verbinden und die daraus resultierenden Ergebnisse haben trotz des kurzen Zeitraumes des Mini-Hackathons großes Interesse geweckt. Natürlich ist dem geneigten Zuschauer aufgefallen, dass noch etwas an der Güte des Modells gearbeitet werden muss.
Was ist dein Fazit zu diesem Format, und kannst du es weiterempfehlen?
Hackathons sind eine hervorragende Möglichkeit, kreative Köpfe mit ganz verschiedenem Hintergrund an der Lösung einer Fragestellung arbeiten zu lassen. Dabei entstehen in sehr kurzer Zeit verschiedenste Lösungsansätze und Vorschläge, die die Horizonte aller Teilnehmer erweitern und natürlich der ausschreibenden Gruppe – in diesem Fall CorrelAid – weiterhelfen. Meet-ups an sich sind ein tolles Format, um sich mit seiner Community auszutauschen oder vielleicht auch eine neue Community zu finden. Das ist für die einzelnen Teilnehmer attraktiv und bietet Unternehmen direkt die Möglichkeit, am Puls der Community zu horchen, Trends zu verstehen und vielleicht neue Nachwuchstalente zu finden. Daher kann ich die Teilnahme uneingeschränkt weiterempfehlen.
Vielen Dank Fabian für diese Einblicke.
Wenn Sie das Thema "Open Data" noch weiter interessiert, empfehle ich Ihnen das Webinar "Open Data Use Cases - der Visual Analytics Ansatz" mit Prof. Dr. Jörn Kohlhammer vom Fraunhofer IGD.