Monitorowanie jakości danych - krok 2.

0

W poprzednim poście z tej serii opisany był pierwszy krok procesu monitorowania danych – tworzenie definicji. Dlatego kiedy już mamy zdefiniowany cel naszej inicjatywy, a co za tym idzie także źródła danych oraz określone wymagania względem nich, możemy przejść do zapoznania się z danymi.

Krok 2. Profilowanie

W celu lepszego zrozumienia danych i odkrycia potencjalnych niezgodności należy je przeanalizować. Taki proces analizy nazywamy profilowaniem. Profilowanie pozwoli nam m.in. zweryfikować, czy opisy tabel pasują do ich fizycznej zawartości oraz czy relacje między tabelami są zgodne z powszechnie przyjętymi w organizacji. Profilowanie można podzielić na 4 podstawowe typy analiz:

  • Profilowanie kolumn – ten rodzaj analiz daje nam dostęp do różnego rodzaju miar statystycznych, takich jak: minimum, maksimum, średnia, mediana, moda czy odchylenie standardowe oraz wgląd w rozkłady częstości wartości i wzorców danych. W przypadku wzorców spotykane są dwa rodzaje – słowne i znakowe. Słowne polegają na zastępowaniu wyrazów konkretnym symbolem (np. Jan Nowak wiek 59 przedstawiony zostanie jako ciąg A A A 9), natomiast znakowe polegają na zastępowaniu różnych pojedynczych znaków konkretnym symbolem (np. Jan Nowak wiek 59 przedstawiony zostanie jako ciąg Aaa Aaaaa aaaa 99).
  • Analiza między kolumnami – ten rodzaj analiz polega na weryfikacji spójności kilku kolumn w obrębie pojedynczej tabeli. Weryfikujemy, czy wartości danego atrybutu (np. płeć) pasuje do pola z imieniem albo czy proporcje wartości z trzech różnych kolumn względem kolejnej są zachowane. Podczas weryfikacji wielu kolumn w jednej tabeli będziemy weryfikowali także klucze naturalne.
  • Analiza między tabelami – ta grupa analiz polega na weryfikacji nie tylko spójności między różnymi tabelami, ale również czy w danych nie występuję redundancja. Kluczowe analizy to np. analiza kluczy obcych, wyszukiwanie osieroconych rekordów czy wyszukiwanie różnic i podobieństw danych. Czasem z pozoru różniące się nazwą kolumny mogą zawierać takie same informacje, a kolumny o identycznej nazwie mogą zawierać dane z zupełnie innej dziedziny.
  • Walidacja regułami biznesowymi – ta grupa analiz jest najbardziej proaktywna i polega na wykrywaniu z góry określonych elementów jak np. niezgodność ze standardami organizacji. Przykładowo, możemy wymagać, aby w kartotece klienta pole numer telefonu nie mogło być puste albo aby adres e-mail był wpisany w określonym formacie. Reguły można definiować na poziomie pojedynczej kolumny, zbioru kolumn lub na poziomie wielu kolumn w wielu tabelach.

Wszystkie te analizy pomogą nam nie tylko w lepszym poznaniu danych czy w tworzeniu procesów czyszczenia danych, ale przede wszystkim w weryfikacji użyteczności naszych wskaźników jakości danych i będą wpływać na ich finalny kształt.

Do profilowania danych przydać się mogą takie narzędzia jak SAS Data Management Studio wraz zadaniami profilowania oraz SAS Enterprise Guide. Oba narzędzia pozwolą na analizę danych, jednak przeznaczone są dla różnych typów użytkowników. Pierwsza aplikacja przeznaczona jest dla użytkowników biznesowych, gdyż zawiera gotowy zestaw analiz dedykowany właśnie do zadań profilowania.

profilowanie

Rysunek 1. Raport z zadania profilowania danych w SAS Data Management Studio

W skład tych analiz wchodzą m.in. analiza schematów zapisu, relacji, wartości odstających czy statystyki opisowe. Dodatkowo jest też możliwość definiowania swoich własnych miar czy reguł biznesowych w celu weryfikacji danych. Wszystko dostępne jest z poziomu kreatorów dopasowanych do wymagań użytkownika biznesowego. Użytkownicy o profilu bardziej technicznym mogą być zainteresowani narzędziami bardziej elastycznymi. Tego typu narzędzia wymagają większego nakładu pracy, jednak oferują większą swobodę działania. Dla tego typu użytkowników przydatna będzie aplikacja SAS Enterprise Guide, w której użytkownicy będą mogli samodzielnie definiować zapytania do danych oraz raporty, a następnie będą mogli je grupować w jeden lub kilka  przepływów danych.

profilowanie

Rysunek 2. Przykładowy proces analizy danych w SAS Enterprise Guide

Kiedy znamy już nasze dane i wiemy, co tak naprawdę zawierają, mamy również dopracowane opisy biznesowe reguł, możemy zacząć tworzyć techniczne reguły monitorowania danych.

Share

About Author

Łukasz Leszewski

Certified Business Intelligence Professional, Business Analytics. Ukończył studia na Wydziale Inżynierii Produkcji Politechniki Warszawskiej. Od ponad 10 lat pracuje w firmie SAS Institute, w której pełnił rolę Architekta, Project Managera, Konsultanta oraz lidera. Podczas pracy miał okazję pracować na wielu projektach z sektora telekomunikacyjnego, ubezpieczeń, retail, przemysłowego oraz publicznego. Posiada szerokie doświadczenie w zakresie wdrażania rozwiązań z obszaru integracji i czyszczenia danych.

Leave A Reply

Back to Top