De verzekeringssector wordt al jarenlang onder de loep genomen vanwege “fair bias”-praktijken. Slechte data in bedrijfspraktijken en vooroordelen zijn inderdaad typische kenmerken van verzekeringsmaatschappijen. Helaas leidt dit tot gemarginaliseerde bevolkingsgroepen.
Volgens bepaalde experts in de sector - waaronder een voormalig verzekeringscommissaris in de VS - zal het grootste probleem op het gebied van AI-regulering discriminatie worden. De reden hiervoor is dat klantgegevens gemakkelijk te veel nadelige gegevens kunnen blootleggen, waardoor verzekeringsmaatschappijen enkel de meest wenselijke risico's kunnen selecteren.
Wat zijn slechte gegevens voor verzekeraars?
Bij het ontwikkelen van modellen zijn trainingsgegevens van groot belang. Denk bijvoorbeeld aan de body mass index (BMI) bij levensverzekeringen. In dit voorbeeld is te zien hoe een gebrek aan gevarieerde, representatieve en kwalitatief hoogwaardige verzekeringsgegevens leidde tot 80 jaar van een “ideaal risico” dat uiteindelijk door de American Medical Association werd verworpen als per definitie bevooroordeeld.
De BMI-gegevens waren in dit geval gebaseerd op een set gegevens over lengte en gewicht van overwegend blanke mannen. Recent onderzoek heeft uitgewezen dat de BMI geen rekening houdt met bijvoorbeeld botdichtheid en spiermassa, waardoor het een onjuiste maatstaf is om risico's in te schatten voor veel mensen.
Zoals blijkt uit het BMI-voorbeeld, kan een tekort aan gegevens leiden tot een beschikbaarheidsbias (een overmatig vertrouwen in gegevens die gemakkelijk toegankelijk zijn) - en dat leidt tot slechte resultaten. Aangezien gegevens de brandstof zijn voor kunstmatige intelligentie, zal het invoeren van slechte gegevens in AI-systemen leiden tot slechte uitkomsten.
Wat zijn algoritmen en waarom zijn ze belangrijk?
Een AI-algoritme is een verzameling stapsgewijze instructies die zijn ontworpen om een specifieke taak uit te voeren of een specifiek probleem op te lossen. Het genereren van synthetische gegevens (het creëren van synthetische gegevens) werkt met AI-algoritmen, zoals algoritmen voor machinaal leren en neurale netwerken.
Bias: een woord met 4 letters
Sinds jaar en dag gebruiken verzekeraars postcodes of gebiedscodes om verzekeringspremies te berekenen. Maar zulke schijnbaar onschuldige variabelen kunnen proxy's zijn voor gevoelige gegevens - zoals afkomst, geslacht of religie. Dergelijke variabelen kunnen dan weer vooroordelen verbergen.
Bekijk bijvoorbeeld dit Propublica-verhaal uit 2017 in Chicago. Het artikel ging over ongelijkheden in autoverzekeringspremies waarbij postcodes werden ingezet als primair datapunt voor het vaststellen van tarieven. Later onderzoek toonde aan dat inwoners van postcodegebieden met minderheidsgroepen hogere premies betaalden - waarbij factoren als leeftijd, dekking, geslacht en schadeverleden niet werden meegerekend.
In het meest schandalige voorbeeld was het premieverschil bij het veranderen van postcode meer dan 300% hoger in wijken die voor meer dan 50% uit minderheden bestonden. En het was hoger in elk van de 34 genoemde bedrijven.
Als dit soort vooroordelen niet worden onderzocht en beperkt, zullen kwetsbare bevolkingsgroepen verder worden gemarginaliseerd. AI zal deze ongelijkheid alleen maar erger maken.
AI en betrouwbaarheid: inspanningen om AI-kennis, inclusieve inbreng en aantoonbare betrouwbaarheid te bevorderen zijn inmiddels tot in de hoogste overheidslagen doorgedrongen.Waar generatieve AI een rol speelt
De meeste business cases van generatieve AI (GenAI) hebben een groot taalmodel (LLM). Een ander type GenAI - synthetische data - is met name nuttig voor het oplossen van problemen met gegevens zoals privacy en eerlijkheid. Synthetische gegevens bieden ontwikkelaars het voordeel dat ze geen gebruik hoeven te maken van gegevensmaskering om gevoelige persoonlijke gegevens te beschermen. Lees wat deze bedrijven zeggen:
- Property Casualty 360 haalt deze uitspraak aan: “In 2027 zal maar liefst 40% van de AI-algoritmen die verzekeringsmaatschappijen gebruiken synthetische gegevens integreren om ervoor te zorgen dat hun processen eerlijk verlopen en aan de regelgeving voldoen” (een voorspelling van IDC FutureScape).
- MAPFRE noemt synthetische gegevens een “strategisch voordeel” voor verzekeringen. In hun eigen woorden: “Synthetische gegevens, die helemaal losstaan van specifieke individuen, zorgen ervoor dat zowel de privacy wordt gerespecteerd als de regelgeving strikt wordt nageleefd.”
Te mooi om waar te zijn? Absoluut niet.
Een praktijkvoorbeeld van synthetische dataresultaten
In 2022 toonde SAS, in samenwerking met Syntho en de Nederlandse AI Coalitie, aan dat synthetische gegevens betrouwbaardere resultaten opleverden dan geanonimiseerde gegevens, waarbij de diepe statistische patronen die vereist zijn voor geavanceerdere analyses intact werden gehouden.
Deze ontwikkelingen, gekoppeld aan groeiende zorgen over de bescherming van privacy, zijn de reden dat IDC voorspelt dat tegen 2027 40% van de AI-algoritmen van verzekeraars in de waardeketen voor polishouders gebruik zullen maken van synthetische gegevens om te garanderen dat het systeem eerlijk is en om te voldoen aan de regelgeving.
Synthetische gegevens voor verzekeringen: heilige graal of AI-wondermiddeltje?
Synthetische gegevens alleen zullen niet alle wonden helen. Onthoud dat je nog steeds de originele gegevens nodig hebt om de synthetische gegevens te creëren. Hierdoor kunnen blijvende vooroordelen in de oorspronkelijke gegevens nog steeds de overhand hebben.
Elke dialoog over het veilig gebruik van AI, inclusief GenAI, moet een aantal feiten onder ogen zien:
- Vooroordelen creëren ongelijkheid.
- Alle modellen hebben vooroordelen.
- Vooroordelen kunnen worden beperkt, maar niet uitgesloten.
Om zich als leiders in deze sector te positioneren, moeten bedrijven hun eigen betrouwbare AI-principes ontwikkelen. Ze moeten ook:
- Een cultuur van datageletterdheid en het gebruik van datagestuurde beslissingen bevorderen.
- Werknemers in staat stellen om onbedoelde AI-risico's te signaleren.
- Een code voor gegevensethiek omarmen als integraal onderdeel van hun onderneming.
Recentelijk heeft SAS een verzekeringsproject met synthetische gegevens gehost met een grote verzekeringsmaatschappij die experimenteerde met synthetische gegevens en kredietscores. De resultaten van het experiment waren veelbelovend. De discussie die daarop volgde, bracht ook een aantal onaangename waarheden aan het licht over het gebruik van krediet en andere factoren die de premiebeoordeling beïnvloeden. Bijvoorbeeld:
-
-
- Meerdere onderzoeken hebben bevestigd dat minderhoudsgroepen en vrouwelijke bestuurders meer betalen voor autoverzekeringen.
- Rijgedrag kan worden beïnvloed door vooroordelen van de politie.
- Het bijhouden van rijgedrag via smart devices kan een vertekend beeld geven op basis van de wegomstandigheden die per buurt verschillen.
-
De toekomst van synthetische gegevens in verzekeringen
Er zijn veel verschillende manieren waarop verzekeraars GenAI kunnen gebruiken.
Verzekeraars kunnen generatieve AI-modellen inzetten om scenario's te creëren en vervolgens proactief risico's te herkennen en resultaten te voorspellen. GenAI kan informatie verschaffen voor beslissingen over prijsstelling en dekking. Het kan ook claimverwerking automatiseren om de kosten te verlagen en de klantervaring (en -tevredenheid) te verbeteren. Daarnaast kan GenAI worden gebruikt om fraude beter op te sporen en kan het gerichte risicopreventieaanbevelingen doen aan klanten om de kans op claims te verkleinen.
Synthetische gegevens doorbreken de cyclus van vooroordelen in de verzekeringssector.
De collectieve verzekeringsgemeenschap zou zich niet moeten richten op mogelijke negatieve aspecten van AI, maar zou de juiste vragen moeten stellen en zich discreet moeten richten op de kwaliteit van de gegevens die worden gebruikt om hun synthetische gegevens te genereren. Zo kunnen we de privacy beschermen en vooroordelen sterk verminderen - en tegelijkertijd de enorme waarde van generatieve AI benutten.
Ontvang een exclusieve preview van SAS Data Maker - een low-code, no-code interface voor het snel augmenteren of genereren van data