10 Przykazań Ekonometrii Stosowanej, czyli jak nie grzeszyć podczas pracy z realnymi danymi? – część 3

1

W drugim wpisie z serii 10 przykazań Ekonometrii Stosowanej poruszyliśmy kwestię osadzenia narzędzi statystycznych w kontekście problemów biznesowych. Dziś przedstawię kolejne przykazanie, które wiąże się z eksploracją i dobrym poznaniem danych.

4. Poznaj dane.

Zgłębienie kontekstu problemu jest bardzo ważnym elementem procesu analitycznego. Jednakże, przed przystąpieniem do modelowania, nie wolno zapomnieć o kolejnym ważnym kroku, jakim jest eksploracja konkretnego zbioru danych. W dobie komputerowej rewolucji, która stworzyła narzędzia pozwalające estymować modele za pomocą jednego kliknięcia, analitykom coraz częściej zarzuca się brak dbałości o dostateczną jakość danych i ich dogłębne poznanie. Co zatem należy zrobić?

Eksploracja zbioru danych

Na eksplorację zbioru danych składają się następujące elementy: wyznaczanie statystyk agregujących, tworzenie wykresów i czyszczenie danych. Dobre poznanie danych rzadko wymaga wyliczania skomplikowanych miar, często okazuje się, że wystarczają te proste i podstawowe, takie jak: średnia, mediana, odchylenie standardowe, maksimum, minimum czy macierz korelacji. Poza wyznaczaniem statystyk, warto także stworzyć kilka wykresów, np. histogramy, wykresy pudełkowe czy wykresy reszt. Dzięki takiej wizualizacji możemy odkryć zaskakujące, niewidoczne gołym okiem zależności. Kolejnym ważnym etapem eksploracji jest czyszczenie danych, czyli eliminacja występujących w nich niespójności. W tym kroku skupiamy się na wartościach zmiennych, szukając takich, które wydają nam się nierealistyczne lub podejrzane, czyli tzw. obserwacji odstających. Warto także pochylić się nad kwestią braków danych. Powinniśmy zbadać, jaka jest skala ich występowania, czy wiemy jak są kodowane, a następnie podjąć decyzję, jak należy potraktować je w naszej analizie.  Możemy stworzyć z nich dodatkową kategorię zmiennej, dokonać imputacji (uzupełnienia) braków danych czy wykluczyć z modelowania obserwacje z brakującymi wartościami.

Analiza danych

Dobrym przykładem zmiennej, której zawsze warto przyjrzeć się w pierwszej kolejności jest dochód. Występuje on często jako zmienna objaśniająca w różnego rodzaju modelach - od modeli  scoringowych funkcjonujących w bankach przez badania jakości życia i budżetów z zakresu statystyki społecznej, po analizy przeprowadzane przez działy marketingu. Dochód jest zmienną dość specyficzną. Charakterystyczną cechą jej rozkładu jest asymetria prawostronna, będąca odzwierciedleniem tego, że gdy badamy jakąś zbiorowość, to zwykle większość zarabia poniżej średniej, a poza tym istnieje niewielka grupa ludzi, których pensje są bardzo wysokie. Skutkiem takiego rozkładu jest dość wysoka wartość średniej, na którą duży wpływ mają obserwacje skrajne. Przykładowo, jeżeli w firmie X zatrudnionych jest 10 osób, przy czym 8 z nich zarabia po tysiąc złotych, a dwóch pozostałych odpowiednio 10 i 15 tysięcy, to średnia pensja pracownika firmy X wynosi 3300 zł, co nie do końca odzwierciedla istniejącą sytuację. Przy asymetrii prawostronnej zachodzi zależność mediana ≤ średnia, dlatego też do opisu wysokości dochodu dla przeciętnego Kowalskiego bardziej odpowiednie może być stosowanie mediany (w przytoczonym wyżej przykładzie mediana zarobków w firmie X wynosi 1000zł). Ponadto warto zwrócić uwagę na inną kwestię związaną ze zmiennymi dotyczącymi zarobków – ludzie są ostrożni w podawaniu takich informacji, boją się, że ktoś to wykorzysta albo skontroluje, często podają więc zaniżoną wartość dochodów, pomijając np. środki, które spływają do nich ze źródła o dyskusyjnej legalności. Pewnym obejściem tej niechęci może być prośba o wskazanie nie dokładnej wysokości dochodu, ale zaklasyfikowanie go do jednego z wcześniej przygotowanych przedziałów. Inną ważną kwestią związaną ze zmiennymi dotyczącymi zarobków są braki danych. Najlepiej zarabiający mogą mieć większą awersję do podawania swojego dochodu, zatem  wielce prawdopodobne jest, że występowanie braków w danych nie będzie czysto losowe, że będą niosły jakąś informację, którą warto uwzględnić w modelowaniu. Kiedy zatem mamy do czynienia ze zmienną odzwierciedlającą dochód powinniśmy sprawdzić, czy jej rozkład jest prawostronnie asymetryczny (a jeśli nie jest, to czy istnieje racjonalne wyjaśnienie tego faktu), przeanalizować wartości statystyk agregujących i wybrać te, które będą nam potrzebne w analizie oraz zdecydować, jak potraktujemy kwestię występujących braków danych. Dobrą praktyką w przypadku zmiennych o prawostronnym rozkładzie jest ich transformacja za pomocą funkcji rosnących z ujemną drugą pochodną. Można więc wykorzystać logarytm, pierwiastkowanie czy  transformację Box-Coxa. Jak to zrobić w SAS Enterprise Miner przedstawia demonstracja: SAS Enterprise Miner: Impute, Transform, Regression & Neural Models.

Innym ważnym zagadnieniem, o którym niebawem będziecie mogli przeczytać w kolejnym wpisie z listy 10 Przykazań Ekonometrii Stosowanej będzie kwestia zachowania prostoty i jasności stosowanych rozwiązań oraz tzw. interocular trauma test. Zainteresowanych już dziś zachęcamy do sięgnięcia do źródeł, czyli po artykuł Kennedy’ego.

Zachęcamy do zapoznania się z pozostałymi wpisami z serii 10 Przykazań Ekonometrii Stosowanej.

Share

About Author

Joanna Gola

Joanna successfully graduated from Warsaw School of Economics in the field of Quantitative Methods in Economics and Information Systems. She recently joined SAS as Analytical Consultant. She takes an interest in such areas as Econometrics, Data Mining and Data Analysis. Her hobby is dancing, especially kizomba and bachata. In her free time she likes also reading books.

1 Comment

  1. Pingback: Rozsądek w procesie wdrażania modeli analitycznych

Leave A Reply

Back to Top