Nie jest tajemnicą, że istnieje wiele różnic między teorią ekonometrii, a ekonometrią stosowaną. Każdy analityk, ekonometryk-praktyk przeżywa w swoim zawodowym życiu - zwykle na samym jego początku - moment zderzenia teorii wyniesionej ze studiów z praktyką. Okazuje się, że dane nie są tak uporządkowane i gotowe do analiz, jak te demonstrowane podczas procesu dydaktycznego, ich jakość pozostawia wiele do życzenia, a ich wolumeny są liczone w Terabajtach, a nie Megabajtach. Dodatkowo, analiza danych nie jest celem samym w sobie, zaś znaczenie mają wyniki, ich interpretowalność i biznesowe korzyści, które z nich wypływają. Jak przejść ze świata teorii do analityki rzeczywistych danych i szukania odpowiedzi na realne pytania?
Do poruszenia tej kwestii zainspirował mnie artykuł Petera E. Kennedy’ego zatytułowany „Sinning in the basement: What are the rules? The Ten Commandments of Applied Econometrics”. Autor porusza kwestię różnic między teorią ekonometrii, a ekonometrią stosowaną, wskazując na 10 reguł określonych jako 10 Przykazań Ekonometrii Stosowanej, które są kluczowe do prawidłowego przeprowadzania analizy danych w praktyce.
W tym tekście chciałabym przybliżyć Wam pierwsze przykazanie i podzielić się z Wami doświadczeniami i przemyśleniami w tym zakresie.
- Wykorzystaj teorię ekonometrii i zdrowy rozsądek.
Nie stosuj bezmyślnie zasad i modeli. Zatrzymaj się, pomyśl, zastanów nad najlepszym podejściem, zanim zaczniesz estymować regresję lub uczyć inne modele predykcyjne. Analiza danych wymaga zastosowania narzędzi najbardziej odpowiadających zadanemu problemowi biznesowemu i strukturze danych. Zgodnie z No free lunch theorem nie ma jednej metody, która będzie działała najlepiej dla każdego zbioru danych. Stąd ważna jest znajomość teorii stojącej za narzędziami statystycznymi. Dzięki tej wiedzy możemy wybrać metody, które mają większy potencjał i mogą prowadzić do otrzymania lepszych wyników. Przy czym nie należy tutaj ulegać pokusie używania skomplikowanych i teoretycznie wyrafinowanych metod. W analityce biznesowej obowiązuje zasada Pareto, według której proste i niewymagające istotnych kosztów ani ryzyka metody, takie jak regresja liniowa lub logistyczna, zapewniają lwią część korzyści biznesowych. Wartość dodana z zastosowania bardziej zaawansowanych, ale także bardziej czasochłonnych i niosących istotne ryzyka projektowe metod – takich jak metody nieparametryczne lub lasy losowe - może być niewielka w porównaniu do metod klasycznych i nie uzasadniać wyższych kosztów ich implementacji.
Dobór odpowiedniej metody i postaci funkcyjnej modelu jest kluczowy, jeżeli chcemy otrzymać wiarygodne i interpretowalne wyniki. Przykładowo, jeśli budujemy model, który prognozuje prawdopodobieństwo odejścia klienta, tzw. churn, na podstawie określających go charakterystyk, powinniśmy wybierać metody, które dadzą wynik z zakresu od 0% do 100%. Jeśli o to nie zadbamy, możemy otrzymać prawdopodobieństwo odejścia klienta o wartości np. -13%, co jest nieinterpretowalne i uniemożliwia bezpośrednią operacjonalizację wyniku bez uprzedniego dodatkowego jego przetworzenia, tzw. post-processingu. W przypadku otrzymania tak ewidentnie błędnego wyniku, większość z nas zaczęłaby zapewne zastanawiać się nad jego przyczyną, znalazłaby błąd i zastosowała inną metodę, ale nie zawsze sytuacja musi być tak ewidentna.
Podsumowując pierwsze przykazanie ekonometryka, zachęcam czytelników do tego, by nie pokładali wiary w magicznych recepturach, automatach czy modelach predykcyjnych, które wykonają całą analityczną pracę za nas. Wynika to z faktu, że takich uniwersalnych receptur, automatów i modeli po prostu nie ma. Używajmy zdrowego rozsądku i niech dobre rozumienie podstaw statystycznych metod buduje naszą intuicję co do przydatności danej metody. Jak powiedział austriacki fizyk Ludwig Boltzmann: „nie ma nic bardziej praktycznego, niż dobra teoria”. Przykładem braku zrozumienia własności statystycznych miar błędów prognoz jest powszechne używanie średniego absolutnego błędu procentowego - MAPE (ang. Mean Absolute Percentage Error), który w kontekście optymalizacji zapasów może doprowadzić nas do błędnych rekomendacji zatowarowania. Mateusz Zawisza w poście: „Miary trafności prognoz – co wybrać?” objaśnia, dlatego tak jest.
Nie mniej ważną kwestią jest osadzenie narzędzi statystycznych w kontekście biznesowym problemu, o czym będziecie mogli niebawem przeczytać w kolejnym wpisie z listy 10 Przykazań Ekonometrii Stosowanej. Zainteresowanych już dziś zachęcamy do sięgnięcia do źródeł, czyli po artykuł Kennedy’ego.
Zachęcamy do zapoznania się z pozostałymi wpisami z serii 10 Przykazań Ekonometrii Stosowanej.
2 Comments
Pingback: Unikaj błędów III rodzaju i poznaj kontekst! - Bright Data
Pingback: Rozsądek w procesie wdrażania modeli analitycznych