W czwartym wpisie z serii 10 przykazań Ekonometrii Stosowanej poruszyliśmy kwestie związane z zachowaniem prostoty i jasności stosowanych rozwiązań oraz weryfikacją modeli. Dziś przedstawię kolejne przykazanie, które wiąże się z wykorzystaniem technik data mining.
7. Data mining stosuj z rozwagą.
Data mining jest w środowisku ekonometrycznym pojęciem kontrowersyjnym i budzącym mnóstwo emocji. Do niedawna podejście to uważane było przez zajmujących się teorią ekonometrii za jeden z największych grzechów, jakie popełnić może analityk czy ekonometryk-praktyk. Z drugiej strony pojawiały się głosy zwolenników data miningu, którzy wskazywali na jego niewątpliwe przewagi i korzyści, zwłaszcza w pracy z dużymi wolumenami danych. Czym zatem jest data mining? I dlaczego pojawiają się na jego temat tak różne opinie?
Generalnie data mining jest procesem analizy danych z różnych perspektyw, w oparciu o metody statystyczne i ekonometryczne. Ma on na celu odkrycie charakterystyk danych oraz zależności i powiązań między poszczególnymi zmiennymi. Istnieją dwa różne spojrzenia na data minig. Pierwsza i bardziej krytykowana wizja data miningu wiąże się z eksperymentowaniem z danymi (fishing through the data). Druga, zaś, pozycjonuje ten proces jako ważny składnik analizy danych. Niestety podejścia te nie są do końca rozłączne, co ma wpływ na niezgodność opinii dotyczących tematu.
W kontekście data miningu warto także pochylić się nad pojęciem machine learningu, który utożsamiać można z metodami służącymi automatycznej budowie modeli, wykorzystywanymi w procesie analizy danych. Zarówno data minig, jak machine learning zyskują obecnie na popularności i znaczeniu, dzięki coraz nowocześniejszej i bardziej wydajnej technologii, która umożliwia pracę z dużymi zbiorami danych.
Data mining jako eksperymentowanie z danymi, w celu odkrycia empirycznych prawidłowości, rzucających nowe światło na teorię ekonomii, łączony jest często z tzw. eksploracyjną analizą danych (Exploratory Data Analysis). Proces ten, polegający na szukaniu w dużych zbiorach danych interesujących albo wartościowych informacji, może pomóc w odkryciu błędów popełnionych przy tworzeniu teoretycznej specyfikacji. Ekonometria stosowana jest sztuką odróżniania wartościowej teorii wynikającej z danych, od prawidłowości, których nie warto uwzględniać. A zatem wyniki muszą przejść proces weryfikacji w kontekście teorii leżącej u podstaw badanego zjawiska, dzięki czemu możliwe jest zminimalizowanie kosztów związanych z wykorzystaniem data miningu. Pozwala to uniknąć sytuacji, w której badacz „odkryje” nowe prawidłowości, dysponując zbiorem danych o specyficznych charakterystykach, a następnie uogólni je, bezpodstawnie, na całą populację. Zasadniczo ostateczna specyfikacja dobrego modelu powinna być połączeniem teorii ekonomii i wiedzy biznesowej oraz zależności odkrytych na podstawie analizy samych danych, przy czym warto pamiętać, że użyteczny model powinien być w miarę możliwości oszczędny, wiarygodny i informacyjny.
Data mining jako składnik procesu analizy danych może posłużyć do automatycznego odnalezienia najlepszej specyfikacji modelu. Wykorzystanie zbioru danych w tym celu ma, jednakże, jeden zasadniczy minus. Otrzymana postać funkcyjna, wybrane zmienne czy ich istotność, będą mocno zależne od właściwości konkretnego zbioru danych, na którym pracujemy. To może doprowadzić do błędnego rozumienia procesu leżącego u podstaw generowania danych, czyli czynników wpływających na zmienną celu. Co więcej, tradycyjne procedury służące do testowania specyfikacji nie będą dawały tutaj wiarygodnych wyników. Z uwagi na to, że konkretny zbiór danych wykorzystany został do stworzenia specyfikacji, nie można na jego podstawie testować jej adekwatności (wynik takiego testu byłby obciążony).
Innym problemem, z którym musimy się zmierzyć wykorzystując podejście data miningowe, jest niestabilność otrzymanych modeli. Typowym przykładem są tu drzewa decyzyjne. Charakterystyczną cechą tych modeli jest duża wrażliwość na wszelkie zmiany w danych – wystarczy mała zmiana zbioru uczącego, żeby w drzewie wybrane zostały inne zmienne, a co za tym idzie, żeby zmieniły się wyniki. Przykładowo, mamy model drzewa decyzyjnego, z którego otrzymujemy scoring dla klienta banku, pozwalający uszeregować klientów według oszacowanego prawdopodobieństwa spłacenia kredytu. Scoring wyliczany jest na podstawie cech wybranych jako istotne w modelu. Jeżeli zmienimy zbiór uczący – wykluczymy pewnych klientów z analizy albo dodamy/usuniemy zmienne objaśniające, oczekiwać można, że drzewo wskaże jako istotne zupełnie inne zmienne, czego rezultatem może być zmiana scoringu dla konkretnego klienta, mimo że jego cechy nie uległy zmianie. Takie modele są oczywiście nieakceptowalne w produkcyjnym wykorzystaniu. Żeby zminimalizować efekt niestabilności szacuje się często kilka modeli i uśrednia prognozy. Innym wykorzystywanym podejściem jest też budowa modeli bardziej złożonych – na przykład lasów losowych, które łączą kilka, a nawet kilkaset, modeli pojedynczych drzew.
Na co więc należy zwrócić uwagę i jak czerpać korzyści z technik data miningowych?
- Specyfikacja modelu nie powinna być rezultatem ślepej wiary w trafność procedur testowania, lecz dobrze przemyślaną kombinacją teorii i wyników otrzymanych z samych danych.
- Należy unikać oceny modelu na podstawie dyskusyjnych kryteriów, takich jak maksymalizacja wartości współczynnika determinacji R2 na zbiorze treningowym, współczynnik ten charakteryzuje się bowiem tym, że jego wartość rośnie po dodaniu do modelu każdej kolejnej zmiennej objaśniającej, nawet jeżeli nie ma ona istotnego wpływu na badane zjawisko.
- Testy istotności i adekwatności zmiennych, powinny być zaprojektowane tak, żeby zminimalizować koszty, będące efektem użycia procedur data miningowych:
- Podział dostępnej próby na zbiór treningowy (do oszacowania modelu) i testowy (do testowania specyfikacji), pozwoli uniknąć tworzenia i testowania modelu na tych samych jednostkach.
- Podobny efekt można uzyskać wykonując prognozę na zupełnie zewnętrznym zbiorze danych, jest to tzw. prognoza out of sample. Przykładowo możemy zbudować model na podstawie danych za lata 2010-2014, a następnie przetestować jakość prognoz na nowszych danych – z 2015 roku.
- Poprawkę można także uwzględnić już w samej procedurze – poprzez dostosowanie poziomu istotności do problemu wielokrotnego testowania hipotez, stosując na przykład poprawkę Bonfferroniego, zaimplementowaną także w SAS.
Obecnie spór o data mining można utożsamiać ze sporem o źródło hipotez/specyfikacji modelu. Data mining zakłada przeszukiwanie danych, na podstawie których tworzona jest specyfikacja modelu, w ekonometrii specyfikacja opiera się głównie na teorii ekonomii i jest często z góry zadana. W praktyce często łączy się oba podejścia – data minig staje się źródłem hipotez biznesowych, zaś statystyka i ekonometria służy do formalnej weryfikacji i operacjonalizacji rozwiązań.
Na zakończenie tego wpisu, krótkie podsumowanie najważniejszych pokus, które czyhają na adeptów sztuki modelowania, korzystających z narzędzi machine learningu i data miningu:
Pokusa szybkiego i bezkrytycznego korzystania z narzędzi i wyników – łatwy dostęp do narzędzi, umożliwiający szybkie uzyskanie modeli może budzić chęć ich natychmiastowego biznesowego wykorzystania. Jednakże nie jest to podejście zalecane. Najpierw należy przeanalizować wykorzystaną metodę oraz dane, dokonać weryfikacji założeń i podejścia. Dzięki temu możemy sprawdzić poprawność rozumowania, wykryć ewentualne błędy, a co za tym idzie, lepiej wykorzystać wiedzę, jaką daje interpretacja otrzymanych wyników.
Pokusa uogólniania otrzymanych wyników poza modelowaną próbę – jeżeli próba nie jest reprezentatywna, interpretacja powinna dotyczyć jedynie danych na których model został stworzony. Należy zatem dokonać weryfikacji dostępnych danych pod kątem reprezentatywności i losowości próby, co pozwoli zminimalizować prawdopodobieństwo wyciągnięcia z analizy wniosków, które będą mijać się z prawdą. Przykładem może być tutaj problem Reject Inference obecny w Credit Scoringu, o którym więcej przeczytać można w drugim poście z serii 10 Przykazań Ekonometrii Stosowanej.
Pokusa pomijania kwestii niestabilności modeli – cechą modeli, których specyfikacja opiera się na zależnościach obecnych w danych empirycznych jest niestabilność, będąca odzwierciedleniem stochastyczności i złożoności otaczającego nas świata. Zależności obecne w jednym zbiorze danych niekoniecznie będą występowały w innym, a zatem model zbudowany na zmienionej próbie będzie zapewne wyglądał inaczej. Jest to zjawisko nie do uniknięcia, ale trzeba mieć jego świadomość i podjąć kompetentną, biznesową decyzję, czy owa niestabilność jest dla nas do zaakceptowania, czy może wolimy bardziej stabilne i ogólne reguły, których kosztem może być na przykład mniejsza trafność prognozowania.
Innym ważnym zagadnieniem, o którym niebawem będziecie mogli przeczytać w kolejnym wpisie z listy 10 Przykazań Ekonometrii Stosowanej będą kwestie związanie z gotowością do kompromisów przy implementacji rozwiązań z zakresu teorii statystyki i rozwagą w interpretowaniu znaczenia istotności zmiennych. Zainteresowanych już dziś zachęcamy do sięgnięcia do źródeł, czyli po artykuł Kennedy’ego.
Zachęcamy do zapoznania się z pozostałymi wpisami z serii 10 Przykazań Ekonometrii Stosowanej.
1 Comment
Pingback: Rozwaga w pracy z danym kluczem do sukcesu | Bright Data