W piątym wpisie z serii 10 przykazań Ekonometrii Stosowanej poruszyliśmy kwestie związane z wykorzystaniem technik data mining i machine learning. Dziś przedstawię kolejne przykazania, które wiążą się z gotowością do kompromisów przy implementacji rozwiązań z zakresu teorii statystyki i rozwagą w interpretowaniu znaczenia istotności zmiennych.
8. Bądź gotowy do kompromisów.
Gotowość do kompromisów to zasadniczo świadomość istnienia pewnego ograniczenia jeśli chodzi o implementację metod z zakresu teorii ekonometrii i umiejętność radzenia sobie z nimi. Teoria dostarcza standardowych rozwiązań standardowych problemów, jednakże w rzeczywistości nie mamy do czynienia ze standardowymi problemami, każdy jest inny i specyficzny. Natomiast tym co pozostaje niezmienne są standardowe rozwiązania, którymi dysponujemy. A zatem ekonometria stosowana musi zmierzyć się z problemem dostosowania standardowych rozwiązań do nietypowych problemów, tak by możliwe było ich rozwiązanie.
Analityk musi być przygotowany do podjęcia decyzji, która zwykle sprowadza się do wybrania mniejszego zła. Jest to decyzja „coś kosztem czegoś”. Często musimy znaleźć złoty środek między złożonością modeli a jakością prognoz, których dostarczają, dokładnością wyników a czasem przetwarzania czy szybkością działania metod a zasobami sprzętowymi. Analityk staje też przed innymi pytaniami, na przykład: czy można zaniedbać obciążenie próby lub czy w danym przypadku można zaufać wynikom testów statystycznych, pomimo niespełnienia wszystkich teoretycznych założeń. Aby być dobrym ekonometrykiem-praktykiem, trzeba posiadać dużą wiedzę teoretyczną z zakresu statystyki i ekonometrii, a także rozumieć wykorzystywane metody, gdyż należy stosować je świadomie, a nie bezmyślnie.
9. Nie myl statystycznej istotności z prawdą objawioną.
Statystyczna istotność zmiennych jest cechą wyliczaną na podstawie konkretnego zbioru danych, poprzez wyznaczenie wartości statystyki testowej oraz granicznego poziomu istotności. Można go utożsamiać z prawdopodobieństwem popełnienia błędu pierwszego rodzaju, polegającego na odrzuceniu hipotezy zerowej, która tak naprawdę wcale nie jest fałszywa. Decyzja czy dana zmienna jest uznawana w modelu za istotną, czy też nie, nie zależy tylko i wyłącznie, od powyższych wartości, ale także od zakładanego ekspercko poziomu istotności (standardowo 0,05), który mówi o maksymalnym dopuszczalnym prawdopodobieństwie popełnienia błędu pierwszego rodzaju. A zatem jest to miara, którą można łatwo manipulować. Ponadto, opiera się na szeregu założeń dotyczących rozkładów zmiennych. Dlatego też podejście stosowania testów istotności do „uświęcenia” i potwierdzenia teorii jest mocno krytykowane, jako zbyt często stosowane i nieadekwatne.
Praktyka pokazuje, że sam współczynnik istotności nie jest czynnikiem pozwalającym na uzyskanie dobrej jakości modelu. Czynnikami sukcesu w ekonometrii są: dobry zbiór danych, bystrość i krytyczne spojrzenie na wyniki, zdrowy rozsądek, posiadanie podstaw teoretycznych, logiczne rozumowanie, znajomość historycznej perspektywy, wiedza biznesowa, biegłość i doświadczenie w stosowaniu metod. A zatem statystyczna istotność może być jednym z czynników, na którym opieramy się przy doborze zmiennych do modelu, ale nie powinno się utożsamiać jej z prawdziwą zależnością ani stosować jako jedynego i decydującego kryterium. Coraz częściej wskazuje się na potrzebę testowania nie istotności, lecz bliskości oszacowanej i prawdziwej wartości parametru, a także na konieczność powiązania poziomu istotności z wielkością próbki, na której estymowany jest model. Ponadto, zaleca się porównanie z innymi modelami wyjaśniającymi badane zjawisko, a także zdroworozsądkową analizę sensowności wyników. Można też zastosować metody automatycznego doboru zmiennych, takie jak selekcja backward, forward, stepwise czy regresja LASSO i LAR, o których więcej możecie znaleźć w czwartym poście z serii 10 Przykazań Ekonometrii Stosowanej.
10. Przedstaw ścieżkę prowadzącą do uzyskania finalnego modelu.
Często spotykaną praktyką przy omawianiu i prezentowaniu wyników analiz czy modeli, jest celowe bądź nie, przemilczanie niektórych aspektów badania lub wykonanych kroków. Wynika to zwykle z faktu ograniczonej ilości czasu lub długości tekstu, bądź uznania niektórych szczegółów za nieistotne i niepotrzebne. Jednakże takie podejście może prowadzić do błędnego postrzegania zastosowanej metodologii, a co za tym idzie, także stabilności wyników i wniosków. Odbiorcy trudno jest w takiej sytuacji ocenić zakres niepewności, z którą powinien podchodzić do przedstawianych mu treści.
Eksploracja, przetwarzanie danych i modelowanie nie polegają na podążaniu jedną, z góry wytyczoną, automatyczną ścieżką. Każdy przypadek jest inny, wymaga odrębnej analizy oraz podejścia i, na dzień dzisiejszy, nie jest możliwy bez udziału czynnika ludzkiego. O ile sam model można zbudować i „nauczyć” automatycznie, przy wykorzystaniu odpowiednich algorytmów i procedur, o tyle przygotowanie danych, wybór najlepszej specyfikacji i analiza biznesowa są odzwierciedleniem wiedzy i doświadczenia posiadanych przez analityka. Zatem przy tworzeniu dobrego i kompleksowego rozwiązania nie da się uniknąć odrobiny subiektywizmu. Jeżeli dwóm analitykom damy ten sam zbiór danych, mało prawdopodobne jest, że otrzymają oni dokładnie takie same wyniki i wnioski. Wynika to z faktu, że można zastosować różne metody estymacji, imputacji braków danych, próbkowania, modelowania, oceniać rozwiązania pod innymi kątami i przy użyciu różnych kryteriów. Ale nie jest to zjawisko negatywne, ponieważ daje możliwość zastosowania innowacyjnych pomysłów, zejścia z utartych ścieżek, a przez to także szansę odkrycia nowych, ciekawych zależności. Nie można jednak tej kwestii zaniedbywać, powinno się opisać całą metodologię wykorzystaną przy przeprowadzaniu badania, tak, by odbiorca mógł sam możliwie precyzyjnie ocenić, czy zgadza się z takim podejściem, a co za tym idzie, na ile wiarygodne są dla niego przedstawione wyniki. Oczywiście nie da się opisać i przekazać całej historii tworzenia modelu, ponieważ jest to proces skomplikowany. A w dobie popularności rozwiązań data miningowych, wszystkie powstałe pośrednie wersje modelu trudno jest pokazać, jednakże warto zaprezentować nie tylko finalne - najlepsze modele, ale także ścieżkę prowadzącą do ich otrzymania. Dzięki temu odbiorca może krytycznie podejść do przedstawianych wyników, a bez odrobiny krytycyzmu nie ma dobrej analizy danych!
To już ostatnia część z serii 10 Przykazań Ekonometrii Stosowanej. Jeżeli zainteresowała Was tematyka wpisów, zachęcam do sięgnięcia do źródeł, czyli po artykuł Kennedy’ego.
Zachęcamy do zapoznania się z pozostałymi wpisami z serii 10 Przykazań Ekonometrii Stosowanej.