Při volbě regresorů a specifikace modelu vycházíme nejlépe z teoretických východisek daného procesu, jako je tomu například při testování makroekonomických hypotéz (Greene, 2019).
Extrémním případem je modelování základních fyzikálních vztahů, kde stochastická složka je obsažena minimálně a pro vztah existuje pouze jediná správná specifikace modelu. V případě modelování atraktivity lokality, výkonnosti pobočky a dalších podobných metrik, ucelená teorie chybí a musí se použít alternativní přístup. Vycházíme-li ze zkušeností rozhodova-tele, předpokládáme, že schopnost sestavit množinu potenciálních vysvětlujících proměnných včetně směru závislosti, užitečnou informací je i předpokládaný tvar závislosti.
Máme-li k dispozici set možných regresorů, je nutné vybrat takovou podmnožinu, která co
možná nejlépe vysvětlí variabilitu vysvětlované proměnné. Lze postupovat dle zkušeností a in-tuice analytika, použít určitých pevně daných postupů nebo přístupy zkombinovat. Obecnou strategií je postupovat od obecného modelu k jednoduchému (Greene, 2019). Tento přístup se opírá o již zmíněnou teorii regresního modelu, respektive část věnující se vychýlení estimátoru z důvodu chybějící proměnné. Můžeme-li si vybrat mezi příliš jednoduchým a vychýleným odhadem a odhadem obecným s potenciálně vyššími rozptyly odhadnutých parametrů, volíme spíše druhou možnost, protože se jedná o menší ze dvou chyb. Posléze z obecného modelu odebíráme nevýznamné vysvětlující proměnné modelu. Přístup je častý i ve výzkumných pracích, protože ten dovoluje vytvořit velmi složité vztahy a zakomponovat velké množství proměnných. Určitých problémem může být, že zahrneme po validaci modelu i takové pro-měnné, které jsou signifikantní pouze náhodou, jedná se o chybu prvního typu. V případě časových řad navíc uvedený postup často může vést k mylné specifikaci, přefitování modelu.
Analytik by tedy výsledný model měl validovat i s interpretačního, ekonomického hlediska.
Kritéria výběru modelu
Vybíráme-li z více modelů, je možné použít kritéria výběru. Užívají se čtyři základní kritéria pro výběr nejvhodnějšího z více možných modelů. Nejzákladnějším kritériem je adjustovaný koeficient determinace, dále známe informační kritéria Akaikeho, Bayesovské a Schwarzovo.
Koeficient determinace tak, jak jsme jej uvedli v na začátku kapitoly 1.16, se nepoužívá, neboť nepenalizuje za přidané proměnné modelu. Víme, že přidáním nevýznamné proměnné koeficient determinace neklesá, použitím takové metriky bychom nutně došli k modelu s nej-větším možným počtem regresorů, byť statisticky nevýznamných. Tento nedostatek koriguje adjustovaný koeficient determinace
R¯2 = 1−(1−R2) n−1
n−k−1, (1.38)
který interpretujeme obdobně, jako neadjustovanou verzi, avšak v tomto případě může koefi-cient nabývat i hodnot mimo uzavřený interval mezi nulou a jednou. Další navržené metriky již mají odlišnou interpretaci, Akaikeho informační kritérium (Akaike, 1998) je často používa-nou metrikou, lze jej zapsat ve více verzích (například s opravou pro malé výběry) a vychází z hodnoty pravděpodobnostní funkceLa penalizační funkce je lineární v počtu odhadnutých parametrů (Anh et al., 2018). Zapisujeme jej jako
AIC =−2 log(L) + 2K. (1.39)
Naproti tomu Bayesovské, také jinak Schwarzovo, informační kritérium má penalizační funkci odvislou navíc od počtu pozorování, píšeme
BIC =−2 log(ln)L+Klog(n). (1.40)
Obě výše uvedená kritéria se snaží penalizovat tak, aby nedocházelo k přefitování modelu.
Uvádí se, že v praxi k tomu účelu používáme spíše Bayesovské kritérium, protože má silnější penalizační funkci a má tendenci zahrnout do modelu méně prediktorů, takový model ozna-čujeme jako spořivý oproti modelu vybraným dle Akaikeho informačního kritéria (Diebold, 2006).
Analýzy obou informačních kritérií vedou k určitým asymptoticky zdůvodněným závěrům.
Dle některých autorů Akaikeho informační kritérium dává asymptoticky optimální výstupy, pokud předpokládáme, že nelze sestavit z nabídky regresorů takzvaný „pravý“ model, potom model sestavený má nejnižší hodnotu průměrné čtvercové chyby (Yang, 2005). Naproti tomu Bayesovké informační kritérium dává asymptoticky optimální výsledky, pokud očekáváme, že „pravý“ model lze sestavit z podmnožiny možných regresorů. Možnou kritikou obdob-ných analýz je argument, že ve skutečnosti v ekonomii neexistuje žádný „pravý“ model a předpoklady analýz jsou neplatné.
Kromě výše uvedených kritérií existuje řada dalších kritérií, například ve výstupech nejčas-těji bývá ještě Hannan-Quinnovo informační kritérium. Při samotné analýze však prakticky nejsme omezeni na sestavení vlastního kritéria.
Best subset selection metoda
Metoda best subset selection je postup, pomocí kterého vybíráme vysvětlující proměnné mo-delu. Z množiny více možných vysvětlujících proměnných a se vybírá taková podmnožina, která optimalizuje určité kritérium. Typická kritéria jako AIC, BIC a R2 jsme již zmínili, ale lze použít i různá další. Vstupem pro základní algoritmus hledání nejlepší podmnožiny proměnných je maximální počet proměnných, který chceme brát v potaz. Dál algoritmus po-stupně tvoří všechny možné podmnožiny pro počet proměnných rovný jedné, až do zvoleného maximálního počtu. Pro každou podmnožinu se odhadne nový regresní model a spočte se hodnota kritéria. Pro různě velké podmnožiny proměnných se zvolí takový model, který je z hlediska kritéria nejlepší. Výsledkem je tabulka nejlepších modelů včetně hodnot kriteriální funkce.
Výhodou postupu je, že se prohledávají všechny možné varianty modelu a můžeme tak najít nejlepší model. Nevýhodou je značná výpočetní náročnost, která může být o to vyšší, pokud jsou data modelu velká a kritériem je například předpovědní schopnost modelu, kterou mě-říme pomocí bootstrapových, mimo-výběrových metrik. Pokud se nepoužívají mimo-výběrové metriky, tak lze snadno získat model, který je takzvaně „přefitovaný“. Algoritmus lze samo-zřejmě různě modifikovat a nastavit pravidla výběru různě. Například analytik nebude chtít ve výsledné tabulce žádný model, který by neprošel základními statistickými testy. V našem případě ponecháváme algoritmus základní a statistické vyhodnocování se dělá manuálně.
Křížová validace
Jistou alternativou a doplňkem k vyhodnocování modelů dle informačních kritérií je volba modelu dle predikčních schopností vzatých z křížové validace. Přestože se nejedná o novou metodu, v některých ekonometrických učebnicích chybí. Naopak se velmi často objevuje v učebnicích věnujících se strojovému učení neboli machine learningu, což je oblast, která v posledních letech nabrala na popularitě s tím, jak se za poslední dekády vyvinula výpočetní technika (Unpingco, 2016). Myšlenka křížové validace staví na rozdělení pozorovaných dat na trénovací a testovací část, model se nejprve odhadne na trénovací části a poté je model použit pro predikce pozorování z testovací části. Výsledné predikce a skutečné hodnoty jsou poté porovnány pomocí určitých metrik. Postup simuluje proces, kdy model odhadnutý na určité subpopulaci chceme použít k predikcím mimo rozsah výběru. Jedná se tedy o další způsob, jak se vyrovnat s potenciálním přefitováním modelu.
Existuje množství variant křížové validace, populární variantou je k-násobná křížová validace.
Ta rozdělí data dok skupin a poté probíhá celkem k odhadů modelu. V každém odhadu je jedna skupina použita pro testování modelu a pro odhad modelu se použije ostatních k−1 skupin. Výsledná metrika je průměrem z těchtokopakování (Géron, 2017).