10 Przykazań Ekonometrii Stosowanej, czyli jak nie grzeszyć podczas pracy z realnymi danymi? – część 2

2

W pierwszym wpisie z serii 10 przykazań Ekonometrii Stosowanej poruszyliśmy kwestię wykorzystania w analizie danych zdrowego rozsądku i znajomości teorii ekonometrii. Dziś przedstawię dwa kolejne przykazania, które wiążą się z osadzeniem narzędzi statystycznych w kontekście biznesowym problemu.

2. Unikaj błędów III rodzaju.

Innymi słowy: zadawaj właściwe pytania. Z błędem III rodzaju mamy do czynienia, kiedy w wyniku analizy otrzymujemy dobrą odpowiedź na złe pytanie. Pojęcie to wprowadził A. Kimball w swoim artykule z 1957 roku, zatytułowanym „Errors of the third kind in statistical consulting, w którym dzieli się on swoimi doświadczeniami z zakresu konsultingu statystycznego.  Szczegółowa, precyzyjna i dobra odpowiedź na złe pytanie jest dużo mniej warta, niż bardziej ogólna, mniej precyzyjna odpowiedź na dobre. Powinniśmy zatem zawsze mieć przed oczami cel analizy, bo bez tego nie da się uzyskać oczekiwanych rezultatów. Aby uniknąć popełnienia błędu III rodzaju, warto zadawać dużo pytań, nawet tych, na które odpowiedź zdaje się oczywista, bo jak mówi polskie przysłowie: kto pyta, nie błądzi! Tak więc warto zadać sobie trud i upewnić się, że cel analizy i działanie metod, których zamierzamy użyć, są dla nas jasne.Unikaj błędów III rodzaju

Dobrym przykładem jest definicja zmiennej celu w zagadnieniu predykcyjnym. Większość podręcznikowych zadań z góry definiuje przedmiot prognozy, czyli zmienną objaśnianą. W praktyce modelowania predykcyjnego analityk musi wypracować wraz z odbiorcami prognoz dokładną formułę wyliczania zmiennej celu. Nie zawsze jest oczywiste, co ma być prognozowane. Weźmy na przykład analizę churnu (odejść) klientów operatora telefonii komórkowej. Do jej wykonania potrzebne jest oznaczenie klientów, którzy zrezygnowali z usług operatora. O ile w przypadku klientów posiadających abonament łatwo jest określić, czy umowa została przedłużona, czy też nie, o tyle w przypadku klientów z telefonami na kartę pre-paid sprawa nie jest już tak oczywista. Wynika to z faktu, że ci klienci nie muszą złożyć formalnego wniosku o wygaszenie numeru, mogą po prostu przestać z niego korzystać. Ponadto, istnieje jeszcze grupa klientów, którzy nie przedłużają ani nie rozwiązują umowy. Jak powinniśmy ich zaklasyfikować? Kiedy można uznać, że klient przestał korzystać z telefonu? Po miesiącu nieaktywności? A może po trzech? Czy powinniśmy patrzeć tylko na połączenia wychodzące, czy także na przychodzące? Aby przeprowadzić rzetelną analizę churnu, trzeba doprecyzować wiele szczegółów. Analitycy wraz z odbiorcami prognoz muszą ustalić wyliczalną definicję klienta nieaktywnego. Często może się okazać, że taka definicja już funkcjonuje w działach marketingu – wtedy wystarczy zlokalizować dane do operacyjnego wyliczenia. Analogiczny problem występuje w przypadku klientów programów lojalnościowych w sieciach sklepów, aptek, czy stacji benzynowych. Czy brak zakupów od 3 miesięcy oznacza klienta nieaktywnego? Odpowiedź na to pytanie zależy od charakteru sprzedaży, branży i oczekiwań odbiorców biznesowych.

Nieskonsultowana z biznesem i błędna definicja zmiennej celu będzie skutkowała otrzymaniem modeli, które odpowiadają na złe pytanie. W takim przypadku model może charakteryzować się najwyższymi wskaźnikami dobroci dopasowania i znakomicie prognozować, ale nie to zjawisko, którego zbadanie było celem analizy.  W konsekwencji korzyści biznesowe z otrzymanych prognoz mogą okazać się niezadowalające, ponieważ modele będą odpowiadać na inne – być może nieistotne z punktu widzenia odbiorcy – pytanie. Z podobnym zagadnieniem definicji zmiennej celu mamy do czynienia przy prognozowaniu popytu. Faktyczny popyt, tj. skłonność do zakupu produktu przy danej cenie, jest w praktyce niemożliwy do zaobserwowania, dlatego próbujemy o nim wnioskować na podstawie danych o sprzedaży, złożonych zleceniach czy ruchach magazynowych. Dokładne określenie definicji zmiennej celu, w tym przypadku popytu, wymaga zrozumienia sposobu zbierania tych danych i określenia, jaka kombinacja dostępnych zmiennych w najlepszy sposób odzwierciedli historyczną informację o nieobserwowalnym popycie.

3. Poznaj kontekst.

Czyli nie wykonuj bezmyślnej analizy statystycznej (ignorant statistical analysis). Przykazanie to wiąże się nierozerwalnie z poprzednim. Zadanie właściwego pytania, na które analiza ma odpowiedzieć, poprzedzone musi być poznaniem specyfiki zjawiska i przeglądem literatury. Ważne jest także zapoznanie się z metodologią stojącą za pozyskaniem danych czy wyborem badanych jednostek. Sposób doboru próby jest kluczowym czynnikiem, jeśli chodzi o interpretację wyników i możliwości uogólniania wniosków płynących z analizy.

Poznaj kontekstWeźmy przykład banku, który rozpatruje wnioski kredytowe. Na podstawie informacji dostarczonych przez klientów ocenia on prawdopodobieństwo tego, że ktoś spłaci kredyt i na tej podstawie decyduje o przyznaniu (bądź nie) pożyczki. Bank używa do tego modelu scoringowego, który tworzy na podstawie danych o udzielonych w przeszłości kredytach i informacji o tym, czy klienci, którym ich udzielono spłacili je czy nie. Można spodziewać się, że studenci, którzy jako młodzi ludzie bez długiej historii kredytowej, zazwyczaj bez stałej pracy i pokaźnych dochodów rzadko będą otrzymywali pozytywną ocenę kredytową. Zatem ci spośród nich, którzy rzeczywiście otrzymają kredyt, charakteryzować się będą zapewne specyficznymi cechami, podnoszącymi ich wiarygodność kredytową. Będzie to pewna nielosowa grupa spośród studentów, która charakteryzować się będzie dużym prawdopodobieństwem spłacenia kredytu. A zatem, jeśli spojrzymy na model scoringowy banku zbudowany na próbie klientów, którzy kredyt otrzymali, fakt bycia studentem powinien wpływać dodatnio na prawdopodobieństwo spłacenia kredytu. Jeśli nie znamy kontekstu powstania modelu i metodologii wykorzystanej przy zbieraniu danych, wynik ten wydaje się nieintuicyjny czy może nawet sprzeczny z logiką, ponieważ zinterpretujemy go następująco: studenci zazwyczaj spłacają kredyty, więc opłaca się im ich udzielać. Jednakże, jeśli znamy kontekst, wiemy, że modelowana próba jest nielosowa i obciążona, ponieważ badamy tylko klientów (w tym specyficzną grupę studentów), którym kredytu udzielono. Nie mamy zaś żadnej informacji o tych, których wnioski odrzucono, a zatem nie możemy otrzymanych wyników uogólniać na całą populację studentów. Opisany problem nosi nazwę reject inference, a sposoby jego rozwiązania w narzędziu SAS Enterprise Miner zostały przedstawione w artykule z SAS Global Forum 2010 i filmie Miguela Maldonada.

Innym ważnym zagadnieniem, o którym niebawem będziecie mogli przeczytać w kolejnym wpisie z listy 10 Przykazań Ekonometrii Stosowanej będzie kwestia eksploracji i dobrego poznania danych. Zainteresowanych już dziś zachęcamy do sięgnięcia do źródeł, czyli po artykuł Kennedy’ego.

Zachęcamy do zapoznania się z pozostałymi wpisami z serii 10 Przykazań Ekonometrii Stosowanej.

Share

About Author

Joanna Gola

Joanna successfully graduated from Warsaw School of Economics in the field of Quantitative Methods in Economics and Information Systems. She recently joined SAS as Analytical Consultant. She takes an interest in such areas as Econometrics, Data Mining and Data Analysis. Her hobby is dancing, especially kizomba and bachata. In her free time she likes also reading books.

2 Comments

  1. Pingback: Eksploracja zbioru danych podstawą znajomości danych

  2. Pingback: Data Mining i Machine Learning Stosuj z Rozwagą | Bright Data

Leave A Reply

Back to Top