Die Versicherungsbranche steht seit Jahren wegen der „Fair Bias“-Praktiken unter Beobachtung. Schlechtes Datenmaterial und Bias sind in der Tat bekannte Probleme im Versicherungswesen. Dies führt leider zu einer Ausgrenzung von Bevölkerungsgruppen.
Einige Branchenexperten, darunter auch ein ehemaliger Versicherungskommissar in den USA, befürchten, dass das Thema Diskriminierung im Zusammenhang mit der Regulierung von KI zum größten Problem werden wird. Das liegt daran, dass Kundendaten leicht zu viele nachteilige Daten offenbaren können, was es Versicherungsunternehmen ermöglicht, nur die wünschenswertesten Risiken abzudecken.
Welche Daten sind für Versicherungsunternehmen schlecht?
Beim Aufbau von Modellen sind Trainingsdaten sehr wichtig. Da wäre zum Beispiel der Body-Mass-Index (BMI) als Kriterium bei Lebensversicherungen. Dies ist ein Beispiel dafür, wie unzureichende, nicht repräsentative und qualitativ minderwertige Versicherungsdaten über einen Zeitraum von 80 Jahren ein „ideales Risiko“ entstehen ließen, das die American Medical Association schließlich als von Natur aus diskriminierend anprangerte.
Die BMI-Daten basierten in diesem Fall auf einem Datensatz mit Größen- und Gewichtsangaben von überwiegend weißen Männern. Aktuelle Forschungsergebnisse zeigen jedoch, dass der BMI Faktoren wie Knochendichte und Muskelmasse nicht berücksichtigt und daher für viele Menschen keine genaue Risikoeinschätzung ermöglicht.
Wie das BMI-Beispiel zeigt, kann ein Datenmangel zu Voreingenommenheit aufgrund von Verfügbarkeit führen – also zu einem übermäßigen Vertrauen in Daten, die leicht zugänglich sind – was negative Folgen hat. Und da künstliche Intelligenz auf Daten angewiesen ist, führt das Einspeisen von schlechten Daten in KI-Systeme zu schlechten Ergebnissen.
Was sind Algorithmen und warum sind sie wichtig?
Bei einem KI-Algorithmus handelt es sich um eine Liste von Schritt-für-Schritt-Anweisungen zur Erfüllung einer bestimmten Aufgabe oder Lösung eines bestimmten Problems. Bei der Generierung synthetischer Daten kommen KI-Algorithmen wie Machine Learning-Algorithmen und neuronale Netze zum Einsatz.
Bias: Ein Wort mit potenziell großen Auswirkungen
Seit jeher berechnen Versicherer die Versicherungsprämien anhand von Postleitzahlen oder Ortsteilen. Scheinbar harmlose Angaben wie diese können jedoch Hinweise auf sensible Daten wie Rasse, Geschlecht oder Religion geben. Und sie können Voreingenommenheit verschleiern.
Ein Beispiel hierfür ist ein Bericht von Propublica aus dem Jahr 2017 über einen Fall in Chicago. Dabei werden Streuungen bei den Prämien für Kfz-Versicherungen untersucht, wobei zur Festlegung der Tarife Postleitzahlen als primärer Datenpunkt verwendet wurden. Spätere Untersuchungen ergaben, dass Einwohner von Postleitzahlgebieten, in denen überwiegend Minderheiten leben, höhere Prämien zahlten – und zwar unter Berücksichtigung konstanter Faktoren wie Alter, Versicherungsschutz, Geschlecht und Schadenshistorie.
Beim extremsten Beispiel war die Differenz der Versicherungsprämie zwischen zwei Postleitzahlen mehr als 300 % höher in Wohngegenden, in denen der Anteil der Minderheiten mehr als 50 % betrug. Und sie war für jedes einzelne Angebot bei allen 34 untersuchten Unternehmen höher.
Wenn solche Diskriminierungen nicht erkannt und abgebaut werden, führt dies zu einer weiteren Marginalisierung gefährdeter Bevölkerungsgruppen. Durch künstliche Intelligenz werden diese Ungleichheiten nur noch verschärft.
KI und Vertrauenswürdigkeit: Die Bemühungen zur Förderung einer besseren KI-Kompetenz, eines inklusiven Beitrags und einer nachweisbaren Vertrauenswürdigkeit sind auf höchster Regierungsebene angekommen.Die Rolle generativer KI
Die meisten Geschäftsszenarien der generativen KI (GenAI) weisen umfangreiche Sprachmodellfähigkeiten (LLM) auf. Synthetische Daten, eine andere Art von GenAI, sind jedoch besonders nützlich, um Bedenken hinsichtlich des Datenschutzes und der Fairness auszuräumen. Mit synthetischen Daten müssen Modellierer keine Daten maskieren, um sensible personenbezogene Daten zu schützen. Dazu äußern sich diese Unternehmen wie folgt:
- Property Casualty 360 zitiert diese Aussage: „Bis 2027 werden bis zu 40 % der von Versicherern verwendeten KI-Algorithmen auf synthetische Daten zurückgreifen, um faire Prozesse zu gewährleisten und Vorschriften einzuhalten“ (Prognose von IDC FutureScape).
- MAPFRE bezeichnet synthetische Daten als „strategischen Vorteil“ für die Versicherungsbranche: „Synthetische Daten sind nicht mit bestimmten Personen verknüpft und gewährleisten dadurch sowohl die Einhaltung des Datenschutzes als auch der strengen regulatorischen Vorschriften.“
Zu schön, um wahr zu sein? Keineswegs.
Ein Praxisbeispiel für synthetische Daten
2022 konnte SAS in Zusammenarbeit mit Syntho und der Dutch AI Coalition nachweisen, dass synthetische Daten zuverlässigere Ergebnisse liefern als anonymisierte Daten, wobei die für eine erweiterte Analyse erforderlichen detaillierten statistischen Muster erhalten bleiben.
Aufgrund dieser Fortschritte und der zunehmenden Bedeutung des Datenschutzes geht IDC davon aus, dass bis 2027 40 % der KI-Algorithmen, mit denen Versicherer in der gesamten Wertkette für Versicherungsnehmer arbeiten, synthetische Daten einsetzen werden, um ein faires System zu gewährleisten und Vorschriften einzuhalten.
Synthetische Daten in der Versicherungsbranche: Heiliger Gral oder Mogelpackung im KI-Gewand?
Synthetische Daten allein können nicht die Lösung für alle Probleme sein. Zu ihrer Erzeugung werden nämlich weiterhin die Originaldaten benötigt. Aus diesem Grund könnten sich in den Originaldaten nach wie vor festgefahrene Vorurteile verbergen.
Jede Diskussion über den sicheren Konsum von KI, darunter auch GenAI, muss folgende Tatsachen anerkennen:
- Bias schafft Ungleichheiten.
- Alle Modelle neigen zu Voreingenommenheit.
- Bias kann reduziert, aber nicht vollständig ausgeschlossen werden.
Um sich in diesem Bereich als führend zu positionieren, müssen Unternehmen ihre eigenen Prinzipien für vertrauenswürdige KI entwickeln. Sie sollten außerdem:
- eine Kultur der Datenkompetenz und datengestützter Entscheidungen fördern.
- eine Kultur der Datenkompetenz und datengestützter Entscheidungen fördern.
- einen Datenethikkodex als integralen Bestandteil ihres Unternehmens anerkennen.
SAS führte erst kürzlich ein Projekt in Zusammenarbeit mit einem großen Versicherer durch, bei dem mit synthetischen Daten und Kreditwürdigkeitsprüfungen experimentiert wurde. Die Ergebnisse waren ermutigend. Dabei wurden auch einige unangenehme Fakten über die Verwendung von Krediten und andere Faktoren, die sich auf die Prämienhöhe auswirken, diskutiert. Beispiel:
-
-
- Verschiedene Studien haben bestätigt, dass Minderheiten und weibliche Fahrer mehr für Kfz-Versicherungen bezahlen.
- Die Vorgeschichte kann durch Diskriminierung seitens der Polizei beeinflusst werden.
- Eine Verfolgung des Fahrverhaltens mithilfe smarter Geräte kann je nach Straßenverhältnissen, die je nach Wohngegend variieren, verzerrt sein.
-
Wie sieht die Zukunft synthetischer Daten in der Versicherungsbranche aus?
Versicherer nutzen GenAI auf vielfältige Weise.
Sie können mithilfe generativer KI-Modelle Szenarien erstellen, um dann proaktiv Risiken zu identifizieren und Ergebnisse vorherzusagen. GenAI kann bei Entscheidungen zur Preisgestaltung und zum Versicherungsschutz helfen. Außerdem können die Prozesse der Schadensbearbeitung automatisiert werden, um Kosten zu senken und die Kundenerfahrung und -zufriedenheit zu verbessern. GenAI kann auch zur Verbesserung der Betrugserkennung eingesetzt werden und Kunden gezielte Empfehlungen zur Vermeidung von Risiken geben, wodurch die Wahrscheinlichkeit von Schadensfällen verringert wird.
Synthetische Daten können den Teufelskreis der Voreingenommenheit in der Versicherungsbranche durchbrechen.
Statt sich auf die möglichen negativen Aspekte der KI zu konzentrieren, sollte die Versicherungsgemeinschaft die richtigen Fragen stellen und sich auf die Qualität der Daten konzentrieren, aus denen die synthetischen Daten generiert werden. So können wir den Datenschutz gewährleisten und Diskriminierung erheblich reduzieren – und gleichzeitig den enormen Wert generativer KI erschließen.
Lassen Sie sich den SAS Data Maker privat vorführen – eine codearme, codefreie Schnittstelle für die schnelle Erweiterung oder Generierung von Daten