Woran denken wir, wenn wir das Wort Innovation hören? An Expansion, an Erweiterung, an Immermehr. Kurz um: An alles, was noch nicht ist. Innovation kann aber auch Rückbesinnung sein. Nämlich darauf, dass nicht nur aus vielen Daten Tolles, sondern ebenso auch mit wenigen Daten Beeindruckendes erreicht werden kann.
Davon erzählt uns Dr. Edgar Klenske. Er richtet sich an einen mittelständischen Bedarf und bemüht bei unserem Gespräch immer und immer wieder die Kaffeemaschine. Bei ihm geht es um das Spannungsfeld der Verfügbarkeit von vielen Daten und wenigen Daten. Viele Ansätze zielen darauf ab, mit möglichst vielen Daten klarzukommen und die Probleme, die im KI-Umfeld beziehungsweise im Machine Learning-Terroir auftauchen, mit einfach noch mehr Daten zu erschlagen. Er hält wenig von dem Slogan, Daten seien das neue Öl.
„Ich argumentiere zwar nicht dagegen, aber ich sage eben, dass es auch andere Varianten gibt, mit Daten umzugehen. Wir haben definitiv ein Spannungsfeld zwischen vielen Daten, wenigen Daten, aktiven Daten und passiven Daten. AlphaGo zum Beispiel ist ein aktiver Algorithmus. Das funktioniert nur mit aktivem Datensampling.“
Die Daten da suchen, wo man vermutet, viel Lernen zu können. Das aber kann auch genau an der Stelle sein, wo kaum Daten vorliegen. Und hier ist Klenske zuhause. „Wir sind in einem Regime unterwegs, wo wir wenig bis gar keine Daten haben.“
Und wieso die Kaffeemaschine? Weil Edgar sich an Hersteller und Nutzer von Industriemaschinen wendet. Und er hat die kleinen und mittelständischen Betriebe im Visier. Diejenigen, die zwar wissen, dass sie KI brauchen, sie auch durchaus wollen, aber eben aufgrund ihres Metiers gar nicht so viele Daten haben, wie ihnen gesagt wird, wie sie sie eigentlich bräuchten. Und nun kommt Klenske mit seiner Kaffeemaschine. Denn die ist ein geschlossenes kleines System, das nicht verbunden ist mit anderen Systemen. Wo also noch nicht mal ein Datenaustausch stattfindet.
Das Setting ist das folgende:
"Du hast eine Maschine oder einen Prozess, den du optimieren möchtest, also du möchtest das Optimum finden." Man gibt die Parameter rein, dann passiert etwas in einer Blackbox und dann kommt irgend ein Ergebnis raus. Und bei diesen Prozessen ist es schwierig, die Daten vorher zu erfassen, denn jedes Experiment kostet Geld und es ist nicht klar, welche Daten wirklich gebraucht werden.
Und da liegt das Problem, denn es gibt Algorithmik, die eben für viele Daten ausgelegt ist. „Das ist Mainstream.“ KI bedeutet klassischerweise, dass möglichst viele Daten in ein neuronales Netz gespeist werden, um eine gute Vorhersage zu bekommen. Und es gibt aber auch andere Algorithmen, die mit weniger Daten auskommen. Da wird versucht, das Maximum mit wenigen Daten aus etwas rauszuholen. Eben mit denen arbeiten, die man hat und die das System selbst generiert - auch das geschlossene System.
Bayesian Optimization
„Wir können mit ganz wenigen Datenpunkten trotzdem generalisieren und von sehr wenigen Daten Vorhersagen machen.“ Klenske will mit dem Algorithmus namens Bayesian Optimization das Optimum einer Anlage oder Maschine finden. Mit wenig Daten und sehr zielgerichtet evaluieren und optimieren, nennt er das. Dahinter steckt der Aufbau eines Machine Learning Modells für diesen zu optimierenden Prozess.
Klenske will sein Publikum mitnehmen und deshalb kann man sich seinen Machine Learning Ansatz anhand einer Kaffeemaschine visualisieren. Denn auch die ist eine kleine Anlage, die wenige Parameter braucht, wollte man die Qualität des Kaffees optimieren. Und zu dieser Optimierung braucht er mit seinen Modellen nur die Kaffeemaschine selbst, die aus sich heraus immer wieder Daten produziert, die seine Algorithmen zur eigenen Optimierung verwenden.
Aber hat die Kaffeemaschine dann nicht einen Bias zu sich selbst aufgebaut? Ist sie wohl am Ende sogar selbstverliebt von dem, was sie macht, weil sie keine Impulse von außen bekommt? „Das kann durchaus sein, aber wenn der Kaffee am Ende besser schmeckt und der Verbrauch von Bohnen reduziert wird, soll es mir recht sein, dass die Kaffeemaschine ein überzogenes Selbstbild von sich hat.“
Doch wie gesagt, die Kaffeemaschine dient ihm nur als Beispiel. Sein Start-up GaussML kümmert sich um den kleinen Mittelstand im produzierenden Gewerbe. Mit wenigen Daten mittels KI-Methode das Optimum aus einer Maschine oder Anlage herauszuholen. Woran denken wir nun, wenn wir das Wort Innovation hören? Immer noch bloß an Expansion, Erweiterung, an Immermehr? Richtig, an alles, was noch nicht ist. Und das ist auch und vielleicht gerade im kleinen Datenhaufen zu finden. Innovation soll nicht nur Rückbesinnung sein, wie am Anfang suggeriert. Aus vielen Daten kann Tolles werden und ebenso kann aus wenigen Daten Beeindruckendes werden.
Übrigens, wer Edgar Klenske einmal persönlich treffen will, kann das am 2. März 2021 ab 16 Uhr im Rahmen des KI Labs Kurpfalz tun. Da stellt er das GaussML - Prinzip mal vor. Online dazuschalten geht hier. Gemeinsam mit David Weik sprechen sie über gute und schlechte, große und kleine Daten.