Anekdoten aus dem wahren Leben im Umgang mit fehlenden Werten: taktisch, manipulativ, ignorant, professionell, oder gar blitzschnell… Bevor die Menschheit mit Aufzeichnungen durch Chroniken und Messungen begonnen hat, gab es nur subjektive Informationen über Menschen, Natur und Gesellschaft. Objektive Informationen in der heutigen Form von Datentabellen fehlten vollkommen und sind auch nicht überliefert. Erst mit dem Aufkommen erster Symbol- und Schriftsprachen ca. 3500 Jahre v. Chr., konnten Daten und Informationen überliefert werden.
Sofern die damaligen „Datenträger“, Papyrus, Lehmziegel und Steinplatten überlebt haben und konserviert wurden, sind diese Informationen heute noch zugängig. Zunächst handelte es sich nur um partielle Informationen aus den ersten Kulturhochburgen der Menschheit im antiken Ägypten, Babylonien, oder Indien. Überliefert sind Informationen über Regierungszeiten von Geschlechtern, Herrscherwissen, Mythologie, Religiöse Feste und Praktiken, sowie Naturkatastrophen oder astronomische Kalenderereignisse. Die meisten Informationen über diese Gesellschaften und ihre Individuen sind jedoch nicht überliefert. Sie bilden also „fehlende Werte“.
Verführt durch das Informationsangebot des Smartphones in der digitalisierten Welt, neigen wir heutzutage leicht zu der naiven Annahme, dass die Datengrundlagen allumfassend, komplett und qualitativ hochwertig sind. Trotz der großen Datenverfügbarkeit ist dies ein Irrtum, denn es gilt immer noch Bonmot aus dem Physikunterricht, zu dem der Lehrer oder der Dozent greift, wenn das Experiment nicht die gewünschten Ergebnisse liefert:
Wer misst, misst auch Mist und wer viel misst, misst viel Mist.
Aber nicht nur in den Naturwissenschaftler, auch die Sozialwissenschaftler, Fitness Tracker, operative 24/7 Unternehmenssysteme und die Internet Giganten (Google, Apple, Facebook, Amazon) messen manchmal „Mist“. Daran ändert auch nichts, dass Facebook sich z.B. kürzlich durch Umbenennung in Meta, ganz den virtuellen Freizeit- und Arbeitswelten, deren Marktplätze und der Nutzung der darin anfallenden Daten fokussieren möchte. Der 6-stündige Total-Ausfall von Facebook, WhatsApp und Instagramm am 04. Oktober 2021 hat ein klaffendes „Datenloch“ in die Timeline von Milliarden Nutzern gerissen. Grob geschätzt fehlt bei Facebook alleine 1 Petabyte an Daten mit 1 Millionen „Likes“ und 89 Millionen Fotos, die während dieses Systemausfall nicht vergeben oder hochgeladen werden konnten. Das Beispiel zeigt, dass fehlende Werte heutzutage in jedem System vorkommen können und nicht nur Probleme von keinen unprofessionellen Internetklitschen sind.
Quelle Brandwatch
Im Vergleich zum 6-stündigen „Facebook Datenloch“ vom 4 Oktober 2021 umfasst der der fehlende Text der abgebrochenen Ecken und Kanten der Tafel 11 des Gilgamesch Epos weniger als ein Milliardstel des Speicherplatzes. Vom kulturellen Wert für die Menschheit jedoch wäre eine historisch korrekte textuelle Vervollständigung der Tafel 11 des Gilgamesch Epos milliardenfach wertvoller als eine die Befüllung der Facebook Datenbank Systeme mit einem Petabyte durch eine wie auch immer sinnvoll geartete Substitution der Fehlenden Werte vom 4 Oktober 2021.
Fehlende Werte auch genannt „Missing Values“ sind ein alltägliches Phänomen unserer Wahrnehmung, durch das wir unvorhergesehen in unangenehme Situationen geraten können. Mal werden wir aus taktischen Gründen von anderen Menschen auf fehlende Informationen verwiesen, mal werden fehlende Werte strategisch zur Manipulation datenbasierter Aussagen eingesetzt. Aber auch mangelnder Sachverstand im professionellen Umgang mit fehlenden Werten, oder pragmatische Lösungsansätze, die in der Not des Zeitdrucks erfunden wurden, können zu völlig unnötigen Falschaussagen, peinlichen Situationen und katastrophalen Fehlentscheidungen mit schmerzlichen Bumerangeffekten führen.
Wie auch immer der Praktiker mit fehlenden Werten umgeht, taktisch, manipulativ, ignorant, professionell oder gar blitzschnell, es droht manchmal ein zielsicherer Tritt ins Fettnäpfchen. Diese Blog Serie widmet sich dem sehr technischen und häufig unterschlagen oder vergessenen Thema der „fehlenden Werte“ mit kleinen Beispielen über „was da so alles schief laufen kann“ im Umgang mit fehlenden Werten und zu welchen Konsequenzen es jeweils geführt hat.
Empfehlungen zum professionellen Umgang mit fehlenden Werten
Um aber nicht nur mit „schlechten Nachrichten“ Aufmerksamkeit zu erzeugen stelle ich dieser Blog Serie vorab meine persönlichen Empfehlungen aus 30 Berufsjahren im Data Science Umfeld vor:
- Nehmen Sie sich alle Zeit der Welt, um einen Sachverhalt mit fehlenden Werten sinnvoll und gründlich zu durchdringen.
- Nur mit vollem Verständnis für den Prozess der Datenerzeugung kann ein sinnvoller Umgang zur Behandlung von fehlenden Werten gewählt werden. Mit einer „0815-Lösung“ zur Missing Value Imputation ist die Validität der Analyse und die daraus abgeleiteten Handlungsempfehlung oft fragwürdig.
- Annotieren Sie alle Maßnahmen der Behandlung von Fehlenden Werten in Ihrer Tabelle auf Zeilen und Spaltenbasis. Dadurch erhalten nachgelagerte Benutzer ihrer Tabelle die volle Transparenz, welche Datenwerte belastbar oder original aus der Datenquelle stammen und welche mit Vorsicht zu genießen sind.
- Moderne baumbasierte Verfahren (Random Forest, Gradient Boosting, Decision Tree) können fehlende Werte direkt verwenden, und benötigen keine Imputation. Dennoch heißt das nicht, dass man ihren Prognosen auf den fehlenden Werten blind vertrauen kann.
- Überprüfen sie noch vor der Veröffentlichung ihrer Analysen die Sensitivität ihrer Aussagen im Hinblick auf unterschiedliche Methoden der Behandlung von fehlenden Werten.
- Seien sie misstrauisch gegenüber blitzschnell hervorgezauberten Black-Box Ergebnissen. Hinter ihnen verbergen sich oft ungewollt Fettnäpfchen.
- Lassen sie auch immer den gesunden Menschenverstand walten.
Natürlich gibt es zum Umgang mit fehlenden Werten ausgiebige Literatur- und gute Software Lösungsansätze. Es wäre jetzt müßig die vorhandenen Ansätze detailliert zu erklären. Anbei deshalb hier der Verweis auf einige praktische Beispiele und Videos der Lösungsumsetzung, teilweise in der SAS Software für verschiedene Anwendungsszenarien.
Allgemeine Klassifikation von fehlenden Werten und Überblick über die Behandlungsmethoden:
How to Deal with Missing Data
Guide to Handling Missing Values in Data Science
7 Ways to Handle Missing Values in Machine Learning
Handling Missing Values in SAS
Inbuild Missing Data Analysis in SAS STAT Procedures
SAS Behandlungsmethoden für Fehlenden Werte in Umfragedaten:
Handling missing values In Survey Data
How many imputations are enough?
Visualize patterns of missing values
SAS Behandlungsmethoden im Umgang mit Fehlenden Werten beim Predictive Modelling:
Treatment of missing values in less than 95 seconds
Imputing Missing Values in Model Studio
SAS Tutorial | Missing value imputation using SAS Model Studio
SAS Behandlungsmethoden von Fehlenden Werten in Zeitreihen:
Replace MISSING VALUES in TIMESERIES DATA using PROC Timeseries and PROC EXPAND