Monitorowanie jakości danych - krok 3.

0

W poprzednich postach z serii dotyczącej monitorowania jakości danych opisane zostały dwa pierwsze kroki - definiowanie danych, a następnie ich profilowanie. Po dokładnym zbadaniu danych i dopracowaniu reguł biznesowych, możemy przejść do ich faktycznego tworzenia.

Krok 3. Tworzenie reguł

Podczas tworzenia reguł, warto oderwać się od fizycznych tabel, kolumn oraz rekordów i pomyśleć o regułach bardziej globalnie. Warto zdefiniować na samym początku tzw. atrybuty abstrakcyjne, które będziemy chcieli monitorować oraz z których chcielibyśmy dodatkowo gromadzić detaliczne wartości w bazie danych. Dla przykładu chcemy zweryfikować, czy wartość wskaźnika A jest zawsze większa od wartości wskaźnika B. Jeżeli wystąpi błąd, to chcielibyśmy aby w raporcie z jego wystąpienia pojawiły się również informacje pozwalające na prostą jego identyfikację w naszych danych. W związku z tym warto gromadzić były poza wartościami wskaźników również np. informacje o systemie oraz identyfikatorze rekordu.

tworzenie reguł

Rysunek 1. Wybór atrybutów abstrakcyjnych logowanych w bazie danych w ramach danej reguły

Nasze przykładowe wskaźniki A i B mogą znajdować się w różnych bazach, w różnych tabelach oraz w różnych kolumnach - jednak ich sposób wyliczenia i konstrukcja są takie same. Podczas konstrukcji reguł nie chcemy zastanawiać się, jak nazywają się konkretne kolumny w konkretnych bazach i dlatego podczas tworzenia reguły pracujemy na atrybutach abstrakcyjnych. Dopiero w fazie implementacji reguły (kolejny krok) osoba techniczna, taka jak deweloper ETL czy analityk danych, będzie wybierała daną regułę i będzie dokonywała mapowania abstrakcyjnych atrybutów na ich fizyczne odpowiedniki w tabeli, którą będzie chciała monitorować.

tworzenie reguł

Rysunek 2. Tworzenie reguły przy pomocy aplikacji DataFlux Data Management Studio

Przy tworzeniu reguł, w zależności od liczby osób i skali przedsięwzięcia monitorowania danych, SAS ma do zaoferowania dwa narzędzia. Pierwsze narzędzie, dla mniejszych środowisk, oparte jest o aplikację DataFlux SAS Data Management Studio. W ramach tej aplikacji dostępny jest komponent dedykowany do monitorowania jakości danych Business Rule Manager. W aplikacji dostępne są kreatory zarówno do tworzenia reguł w oparciu o abstrakcyjne atrybuty, jak i środowisko uruchomieniowe, w którym reguły mapujemy na fizyczne dane. Podczas przetwarzania danych wyniki zapisywane są w centralnym repozytorium monitorowania danych.

tworzenie reguł

Rysunek 3. Podgląd centralnego repozytorium reguł w SAS Data Management Studio

Kiedy za reguły odpowiada większa liczba osób, koordynowanych jest wiele różnych obszarów, za które odpowiada wielu różnych właścicieli biznesowych. Warto w takiej sytuacji pomyśleć o rozwiązaniu, które będzie mogło również wspierać procesy związane z przeglądem i akceptacją reguł. Dodatkowo, będzie ona łatwiej dostępna dla większej grupy użytkowników. Dla takich środowisk można wykorzystać aplikację www - SAS Business Rules Manager. Aplikacja ta ma wbudowany mechanizm workflow oraz mechanizmy wersjonowania. Nie wymaga instalacji żadnych dodatkowych komponentów na stacjach roboczych użytkowników.

tworzenie reguł

Rysunek 4. Tworzenie reguł w SAS Business Rule Manager

Użytkownik po zalogowaniu uzyskuje dostęp do interfejsu, w którym może modyfikować i tworzyć reguły,  akceptować zmiany wprowadzone przez innych użytkowników, a nawet wykorzystać zbiór testowy i zweryfikować, czy wszystko działa zgodnie z założeniami. Podczas tworzenia reguł, podobnie jak to miało miejsce w aplikacji DataFlux, użytkownicy pracują na atrybutach abstrakcyjnych. Proces mapowania atrybutów abstrakcyjnych na fizyczne następuje dopiero podczas fazy implementacji reguł. Dla użytkowników dodatkowo dostępny jest mechanizm workflow, który można dopasować do procesów wypracowanych w danej organizacji.  Dzięki temu mechanizmowi użytkownicy dostają pełną kontrolą nad regułami, które mają być wdrażane na środowisko produkcyjne.

tworzenie reguł

Rysunek 5. Tworzenie zestawu reguł walidacyjnych w SAS Business Rule Manager

Warto jeszcze wspomnieć o dodatkowych możliwościach aplikacji SAS Business Data Network, która zintegrowana jest z komponentem SAS Lineage. SAS Lineage jest wykorzystywany do integracji metadanych i dotyczy to nie tylko metadanych narzędzi SAS, ale również metadanych z narzędzi od innych dostawców. W ramach tej aplikacji możemy prześledzić cały obieg informacji w organizacji - od pojęcia biznesowego do fizycznych procesów raportowych i analitycznych, a nawet wyszukać konkretne analizy czy raporty.

tworzenie reguł

Rysunek 6. Powiązanie reguł, zadań i właścicieli w środowisku SAS Lineage

Taka mapa przepływu informacji nie tylko ułatwia pracę, ale również pozwala na automatyzację szeregu procesów komunikacji w organizacji. Dla przykładu, jeżeli jakiś system ma pogarszające się wskaźniki jakości danych możemy w ramach repozytorium danych SAS Lineage szybko odszukać właściciela biznesowego i automatycznie wysłać do niego komunikat w celu szybkiego naprawienia problemu.

Tworzenie reguł to bardzo ważny krok w procesach wdrażania środowiska do monitorowania danych. Nawet jeżeli początkowo plan zakłada wdrożenie tylko kilku wskaźników w jednym obszarze to jest wysoce prawdopodobne, że po udanym wdrożeniu środowisko zacznie się powoli rozrastać i zacznie obejmować nowe obszary. Przy wyborze aplikacji wspierających ten proces warto najpierw zastanowić się, jakie funkcjonalności są dla nas najważniejsze oraz jak chcielibyśmy, aby nasze środowisko wyglądało za kilka lat. Tutaj pomocne mogą być odpowiedzi na pytania dotyczące liczby potencjalnych użytkowników, systemów, reguł oraz organizacji pracy (np. czy wszystkie osoby są w jednym budynku). Kiedy mamy już opisane i zaimplementowane reguły biznesowe monitorowania danych możemy przejść do kolejnych kroków, czyli do ich implementacji oraz do tworzenia wskaźników i raportów.

Share

About Author

Łukasz Leszewski

Certified Business Intelligence Professional, Business Analytics. He graduated Faculty of Production Engineering at the Warsaw University of Technology. He has been working at SAS Institute for more than 12 years as an Architect, Project Manager and Consultant. During his work, he had the opportunity to work on many projects in many different sectors like telecommunications, insurance, retail, banking and public. He has extensive experience in the area of data integration and data quality.

Leave A Reply

Back to Top