Am 25. Mai dieses Jahres ist die EU-Datenschutzgrundverordnung (DSGVO) in Kraft getreten. Was wurde nicht alles im Vorfeld berichtet – da war zum Beispiel die Rede von einem Meilenstein in Sachen Datenschutz. Schaut man ein paar Monate später auf die Schlagzeilen, so kann man lesen, dass ein Verstoß gegen die
Author
„Die IT liefert nicht, der Fachbereich weiß nicht, was er heute oder morgen an Daten haben will“… Beide haben recht, ein Dilemma, das darin endet, dass Selbsthilfe betrieben wird. Der Informationshunger besteht weiterhin, und was nicht geliefert wird, besorgt man sich auf anderem Wege. Da wären: die SAP-Maske, Excel, Datenbank(en),
Die aktuelle BARC-Studie verrät die Sicht der Unternehmen auf modernes Datenmanagement mittels Hadoop und Data-Lake-Konzepten. Die Anwenderbefragung gibt einen interessanten Blick auf den derzeitigen Status von Hadoop und Data Lakes in Europa und Nordamerika. Wo wird das Ecosystem eingesetzt, was ist der erhoffte Nutzen, und wo sind die Grenzen, um
Letztens ist mir das Buch des Naturwissenschaftlers und Comedians Vince Ebert in die Hände gefallen. Es war anfangs sehr lustig und unterhaltsam, bis zu dem Kapitel, in dem es um das Thema Big Data ging. Danach führe die Analyse großer Datenmengen dank des Phänomens „Zufall“ zum Big Fail. Im Folgenden möchte
Matchcodes spielen bei der Identifizierung von Dubletten eine zentrale Rolle. Um die Dubletten anhand von Matchcodes zu finden, müssen die Daten meistens erst noch aufbereitet werden. Stehen beispielsweise Anrede und Vor-/Nachname oder Straße und Hausnummer im selben Feld, müssen diese separiert werden, dadurch können bessere Match-Ergebnisse erzielt werden.
Hadoop feiert seinen 10. Geburtstag und ist zum Synonym für Big Data geworden. Mit rasant steigendem Datenvolumen werden aber auch die Herausforderungen bezüglich Datengüte größer. Ich hatte bereits einen Beitrag dazu geschrieben. Teil 1 finden Sie hier.
Offener Quelltext, freie Verfügbarkeit, Begeisterung und Engagement für eine Sache, einfach loslegen und mit der Umsetzung anfangen und die Weiterentwicklung durch viele Personen – das sind einige Punkte, die Open Source auszeichnen.
Ein Data Lake ist ein Konzept zur Speicherung von Daten in einem Hadoop-Cluster. Es entstehen heutzutage an vielen Stellen Daten, welche aus Kostengründen nicht ins klassische Data Warehouse fließen. Doch könnten mit diesen Daten zusätzliche Assets generiert werden, vorausgesetzt man speichert sie an einem Ort und hat dann eine analytische
Hadoop breiter nutzen, ohne sich mit der Technologie beschäftigen zu müssen. Je komplexer die zugrunde liegende Technologie ist, um so einfacher und intuitiver sollte das Frontend sein, um die Technologie in der breite zu nutzen. Beispiel Hadoop: Die beste Technologie bietet keinen Vorteil, wenn man die Anwender an einer Hand