The missing value blog

0

Anekdoten aus dem wahren Leben im Umgang mit fehlenden Werten: taktisch, manipulativ, ignorant, professionell, oder gar blitzschnell… Bevor die Menschheit mit Aufzeichnungen durch Chroniken und Messungen begonnen hat, gab es nur subjektive Informationen über Menschen, Natur und Gesellschaft. Objektive Informationen in der heutigen Form von Datentabellen fehlten vollkommen und sind auch nicht überliefert. Erst mit dem Aufkommen erster Symbol- und Schriftsprachen ca. 3500 Jahre v. Chr., konnten Daten und Informationen überliefert werden.

Sofern die damaligen „Datenträger“, Papyrus, Lehmziegel und Steinplatten überlebt haben und konserviert wurden, sind diese Informationen heute noch zugängig. Zunächst handelte es sich nur um partielle Informationen aus den ersten Kulturhochburgen der Menschheit im antiken Ägypten, Babylonien, oder Indien. Überliefert sind Informationen über Regierungszeiten von Geschlechtern, Herrscherwissen, Mythologie, Religiöse Feste und Praktiken, sowie Naturkatastrophen oder astronomische Kalenderereignisse. Die meisten Informationen über diese Gesellschaften und ihre Individuen sind jedoch nicht überliefert. Sie bilden also „fehlende Werte“.

Tafel 11 Fragment des Gilgamesch Epos aus altbabylonischer Zeit mit der Sintflut-Erzählung, die im Alten Testament in ähnlicher Form übernommen wurde (Quelle: British Museum, London)
Tafel 11 Fragment des Gilgamesch Epos aus altbabylonischer Zeit mit der Sintflut-Erzählung, die im Alten Testament in ähnlicher Form übernommen wurde. Quelle des Bildes: The British Museum, London 

Verführt durch das Informationsangebot des Smartphones in der digitalisierten Welt, neigen wir heutzutage leicht zu der naiven Annahme, dass die Datengrundlagen allumfassend, komplett und qualitativ hochwertig sind. Trotz der großen Datenverfügbarkeit ist dies ein Irrtum, denn es gilt immer noch Bonmot aus dem Physikunterricht, zu dem der Lehrer oder der Dozent greift, wenn das Experiment nicht die gewünschten Ergebnisse liefert:

Wer misst, misst auch Mist und wer viel misst, misst viel Mist.

Aber nicht nur in den Naturwissenschaftler, auch die Sozialwissenschaftler, Fitness Tracker, operative 24/7 Unternehmenssysteme und die Internet Giganten (Google, Apple, Facebook, Amazon) messen manchmal „Mist“. Daran ändert auch nichts, dass Facebook sich z.B. kürzlich durch Umbenennung in Meta, ganz den virtuellen Freizeit- und Arbeitswelten, deren Marktplätze und der Nutzung der darin anfallenden Daten fokussieren möchte. Der 6-stündige Total-Ausfall von Facebook, WhatsApp und Instagramm am 04. Oktober 2021 hat ein klaffendes „Datenloch“ in die Timeline von Milliarden Nutzern gerissen.  Grob geschätzt fehlt bei Facebook alleine 1 Petabyte an Daten mit 1 Millionen „Likes“ und 89 Millionen Fotos, die während dieses Systemausfall nicht vergeben oder hochgeladen werden konnten.  Das Beispiel zeigt, dass fehlende Werte heutzutage in jedem System vorkommen können und nicht nur Probleme von keinen unprofessionellen Internetklitschen sind.

Quelle Twitter
Quelle Twitter

 

Quelle Brandwatch

Im Vergleich zum 6-stündigen „Facebook Datenloch“ vom 4 Oktober 2021 umfasst der der fehlende Text der abgebrochenen Ecken und Kanten der Tafel 11 des Gilgamesch Epos weniger als ein Milliardstel des Speicherplatzes.  Vom kulturellen Wert für die Menschheit jedoch wäre eine historisch korrekte textuelle Vervollständigung der Tafel 11 des Gilgamesch Epos milliardenfach wertvoller als eine die Befüllung der Facebook Datenbank Systeme mit einem Petabyte durch eine wie auch immer sinnvoll geartete Substitution der Fehlenden Werte vom 4 Oktober 2021.

Fehlende Werte auch genannt „Missing Values“ sind ein alltägliches Phänomen unserer Wahrnehmung, durch das wir unvorhergesehen in unangenehme Situationen geraten können.  Mal werden wir aus taktischen Gründen von anderen Menschen auf fehlende Informationen verwiesen, mal werden fehlende Werte strategisch zur Manipulation datenbasierter Aussagen eingesetzt. Aber auch mangelnder Sachverstand im professionellen Umgang mit fehlenden Werten, oder pragmatische Lösungsansätze, die in der Not des Zeitdrucks erfunden wurden, können zu völlig unnötigen Falschaussagen, peinlichen Situationen und katastrophalen Fehlentscheidungen mit schmerzlichen Bumerangeffekten führen.

Wie auch immer der Praktiker mit fehlenden Werten umgeht, taktisch, manipulativ, ignorant, professionell oder gar blitzschnell, es droht manchmal ein zielsicherer Tritt ins Fettnäpfchen. Diese Blog Serie widmet sich dem sehr technischen und häufig unterschlagen oder vergessenen Thema der „fehlenden Werte“ mit kleinen Beispielen über „was da so alles schief laufen kann“ im Umgang mit fehlenden Werten und zu welchen Konsequenzen es jeweils geführt hat.

Empfehlungen zum professionellen Umgang mit fehlenden Werten

Um aber nicht nur mit „schlechten Nachrichten“ Aufmerksamkeit zu erzeugen stelle ich dieser Blog Serie vorab meine persönlichen Empfehlungen aus 30 Berufsjahren im Data Science Umfeld vor:

  • Nehmen Sie sich alle Zeit der Welt, um einen Sachverhalt mit fehlenden Werten sinnvoll und gründlich zu durchdringen.
  • Nur mit vollem Verständnis für den Prozess der Datenerzeugung kann ein sinnvoller Umgang zur Behandlung von fehlenden Werten gewählt werden. Mit einer „0815-Lösung“ zur Missing Value Imputation ist die Validität der Analyse und die daraus abgeleiteten Handlungsempfehlung oft fragwürdig.
  • Annotieren Sie alle Maßnahmen der Behandlung von Fehlenden Werten in Ihrer Tabelle auf Zeilen und Spaltenbasis. Dadurch erhalten nachgelagerte Benutzer ihrer Tabelle die volle Transparenz, welche Datenwerte belastbar oder original aus der Datenquelle stammen und welche mit Vorsicht zu genießen sind.
  • Moderne baumbasierte Verfahren (Random Forest, Gradient Boosting, Decision Tree) können fehlende Werte direkt verwenden, und benötigen keine Imputation. Dennoch heißt das nicht, dass man ihren Prognosen auf den fehlenden Werten blind vertrauen kann.
  • Überprüfen sie noch vor der Veröffentlichung ihrer Analysen die Sensitivität ihrer Aussagen im Hinblick auf unterschiedliche Methoden der Behandlung von fehlenden Werten.
  • Seien sie misstrauisch gegenüber blitzschnell hervorgezauberten Black-Box Ergebnissen. Hinter ihnen verbergen sich oft ungewollt Fettnäpfchen.
  • Lassen sie auch immer den gesunden Menschenverstand walten.

Natürlich gibt es zum Umgang mit fehlenden Werten ausgiebige Literatur- und gute Software Lösungsansätze. Es wäre jetzt müßig die vorhandenen Ansätze detailliert zu erklären. Anbei deshalb hier der Verweis auf einige praktische Beispiele und Videos der Lösungsumsetzung, teilweise in der SAS Software für verschiedene Anwendungsszenarien.

Allgemeine Klassifikation von fehlenden Werten und Überblick über die Behandlungsmethoden:
How to Deal with Missing Data
Guide to Handling Missing Values in Data Science
7 Ways to Handle Missing Values in Machine Learning
Handling Missing Values in SAS
Inbuild Missing Data Analysis in SAS STAT Procedures

SAS Behandlungsmethoden für Fehlenden Werte in Umfragedaten:
Handling missing values In Survey Data
How many imputations are enough?
Visualize patterns of missing values

SAS Behandlungsmethoden im Umgang mit Fehlenden Werten beim Predictive Modelling:

Treatment of missing values in less than 95 seconds
Imputing Missing Values in Model Studio
SAS Tutorial | Missing value imputation using SAS Model Studio

SAS Behandlungsmethoden von Fehlenden Werten in Zeitreihen:
Replace MISSING VALUES in TIMESERIES DATA using PROC Timeseries and PROC EXPAND

Share

About Author

Toby Text

Principal Solutions Architect

Sie schauen gerade auf mein Profilbild und verstehen wahrscheinlich genau so wenig wie ich, nämlich gar nichts. Vermutlich sehen Sie wahrlos verstreute Pixel auf einem Quadrat. Einige davon bilden wenige offensichtliche Grundmuster, die aber auch nichts konkretes aussagen. Man hat nicht die geringste Idee über die Zusammenhänge der Pixel und den Gesamtinformationen des Bildes. So sieht die mühsame Realität des Alltages eines Data Scientist aus. Wie das menschliche Auge bei der Betrachtung des Bildes, so ist der Data Scientist ratlos und benötigt Hilfe, wenn sich die Berge an operativen Daten vor ihm anhäufen. Hätten Sie gedacht, dass Sie die Lösung zum Verständnis des obigen Bildes vielleicht sogar schon seit langem mit sich in Ihrer Tasche tragen, davon nur noch nicht wussten? Überlegen Sie mal kurz und probieren Sie es aus. Und so wie Sie mit Ihrer Intuition vielleicht eine praktikable Lösung gefunden haben, so hat ein Data Scientist im richtigen Moment den genialen Einfall und findet einen erleuchtenden methodischen Ansatz den er allerdings noch nie konkret angewendet hat, zu dessen Realisierung er nur noch in die Tasche greifen muss, um die passende Softwarefunktionalität für die Implementierung herauszuziehen. Über solche interessante Softwarefunktionalität für Ihre Projekte möchte ich Sie informieren in meinem Blog.

Leave A Reply

Back to Top