Rozsądek w procesie wdrażania modeli analitycznych

W trzecim wpisie z serii 10 przykazań Ekonometrii Stosowanej poruszyliśmy kwestię eksploracji i dobrego poznania danych. Dziś przedstawię kolejne przykazania, które wiążą się z zachowaniem prostoty i jasności stosowanych rozwiązań oraz weryfikacją modeli.

5. Zachowaj rozsądną prostotę modeli.

Rozsądna prostota, czyli znalezienie złotego środka między prostotą a kompleksowością, tak, by tworzone przez nas modele nie były ani nadmiernie skomplikowane, ani przesadnie proste. Modele bardzo proste narażają analityka na niebezpieczeństwo wystąpienia błędów logicznych czy braku zgodności z danymi. Może okazać się, że nie pozwalają one dobrze odwzorować zależności występujących między zmiennymi, a co za tym idzie wykorzystać całej dostępnej informacji. W takim przypadku prognozy otrzymane z modelu będą niskiej jakości i nie zadowolą oczekiwań klienta.

Zachowaj rozsądną prostotę modeli. Stosowanie skomplikowanych modeli także niesie ze sobą wiele pułapek. Zbyt bogata specyfikacja – użycie w modelu zbyt wielu zmiennych – powodować może zbytnie dopasowanie modelu do konkretnego zbioru danych, na którym jest on szacowany. W konsekwencji otrzymamy bardzo dobrą jakość prognoz dla tego zbioru, jednakże, prognozy wyznaczane dla nowych jednostek czy okresów (tzw. prognoza out-of-sample) charakteryzować się będą dużą niestabilnością i słabą jakością. Bardziej złożone modele wymagają często większej ilości danych i bardziej zaawansowanych narzędzi, a zatem wiążą się też z większymi kosztami. Ponadto, są bardziej wrażliwe na błędy i niespójność danych. Trudniej także zinterpretować otrzymane wyniki i wytłumaczyć logikę funkcjonowania modelu klientowi, który nie chce opierać swojej działalności biznesowej na prognozach dostarczanych przez „czarną skrzynkę” (ang. black box), której działania nie rozumie.

W praktyce wdrażania modeli analitycznych dużą wagę przywiązuje się do interpretowalności i rozumienia mechanizmów ich działania, wykorzystuje się więc modele określane białymi skrzynkami (ang. white box), unika się zaś modeli „black box”. Klienci często preferują (nawet kosztem mniejszej mocy predykcyjnej) proste i sprawdzone modele regresji, drzew decyzyjnych czy wygładzania wykładniczego, zamiast mniej stabilnych i trudniej interpretowalnych modeli sztucznych sieci neuronowych, lasów losowych czy modeli ensemble. Kiedy tworzymy modele, stajemy przed wyborem nie tylko postaci funkcyjnej (metody), musimy także podjąć decyzję odnośnie selekcji zmiennych. Jeśli chodzi o dobór zmiennych do modelu, w teorii ekonometrii istnieją dwa zasadnicze podejścia: od szczegółu do ogółu (bottom-up/ forward selection) i od ogółu do szczegółu (top-down/ general-to-specific/ backward selection). Prowadzą one do otrzymania bardzo podobnych wyników. Alternatywnym podejściem do selekcji zmiennych są metody regularyzacji (ang. shrinkage methods), takie jak regresja grzbietowa, LASSO lub ElasticNet, objaśnione i zaimplementowane w demonstracji LASSO Selection with PROC GLMSELECT. Doświadczenie pokazuje, że najlepsze wyniki dają modele proste ale nie naiwne, czyli po prostu rozsądne. Więcej na ten temat znajdziecie w pierwszym poście z serii 10 Przykazań Ekonometrii Stosowanej.

6. Zastosuj interocular trauma test.

W dzisiejszych czasach, w dobie ciągle rozwijającej się technologii i narzędzi, produktem pracy analityka są często bardzo rozbudowane wyniki, uwzględniające zastosowanie różnych modeli i zestawów zmiennych. Warto spędzić trochę czasu na analizie ich sensowności. Czy otrzymane wyniki są logiczne? Czy znaki oszacowań parametrów (kierunek wpływu zmiennych objaśniających na zmienną objaśnianą) są zgodne z oczekiwaniami?

Jednym z podejść do tego problemu jest właśnie zastosowanie tzw. interocular trauma test/ stupidity test, który polega na tym, żeby tak długo przyglądać się otrzymanym wynikom, aż odpowiedź na powyższe pytania będzie oczywista - rzuci się nam w oczy. Jednakże, ta subiektywna procedura powinna być przeprowadzana niezależnie od formalnego testowania jakości modelu i nie może go zastąpić.

Zdarza się, że uzyskane wyniki i wnioski z analizy danych przeczą powszechnym przekonaniom i są zaskakujące. Warto je wtedy zweryfikować z wiedzą ekspercką zwracając się na przykład do odbiorcy naszych analiz. W rezultacie może ziścić się jeden z dwóch scenariuszy. Pierwszy - najczęstszy - polega na wykryciu błędu programistycznego, błędnego założenia lub rozumienia w dokonywanej analizie. Dzięki czemu możliwa jest weryfikacja modelu i jego ulepszenie. Drugi możliwy scenariusz ma miejsce, kiedy zaskakujący wynik zostaje pomyślnie zweryfikowany i można uznać go za prawdziwy. Dzięki czemu odkrywamy nową, nieznaną wiedzę dotyczącą badanego zjawiska, którą możemy następnie operacyjnie wykorzystać.

Innym ważnym zagadnieniem, o którym niebawem będziecie mogli przeczytać w kolejnym wpisie z listy 10 Przykazań Ekonometrii Stosowanej będą korzyści i koszty wiążące się z wykorzystaniem technik data mining. Zainteresowanych już dziś zachęcamy do sięgnięcia do źródeł, czyli po artykuł Kennedy’ego.

Zachęcamy do zapoznania się z pozostałymi wpisami z serii 10 Przykazań Ekonometrii Stosowanej.

Blogs

Blogs

10 Przykazań Ekonometrii Stosowanej, czyli jak nie grzeszyć podczas pracy z realnymi danymi? – część 4

About Author

2 Comments

Leave A Reply Cancel Reply