1.3 Vlastnosti a předpoklady regresní analýzy
1.3.2 Statistické vlastnosti modelu
Díváme-li se na statistické vlastnosti modelu, je třeba nejprve zavést několik předpokladů, na základě nichž jsme schopni vlastnosti vyvodit. Jednou z vlastností, která nás zajímá, je napří-klad střední očekávaná hodnota odhadu vysvětlující proměnné, zda je estimátor nevychýlený.
Uvedené předpoklady mají však také vliv na odhadnutelnost modelu, zobecňování výsledků modelu na populaci, vydatnost estimátoru a testování hypotéz o proměnných, modelu jako celku a podobně. Typicky se pro průřezová data používá následujících prvních pět, respektive šest předpokladů:
1. Linearita v parametrech 2. Náhodný vzorek
3. Plná hodnost matice vysvětlujících proměnných 4. Nulová podmíněná střední hodnota náhodné složky 5. Homoskedasticita náhodné složky
6. Normalita náhodné složky
Linearitou v parametrech myslíme, že populační model lze zachytit jako
y =β0+β1x1+β2x2+· · ·+βkxk+u, (1.17) kde parametryβ0, . . . ,βkjsou neznámými konstantami auje nesledovanou náhodnou složkou.
Tento předpoklad můžeme interpretovat jednak tak, že populační model dovoluje, abychom odhadli model, který se může lišit. A za druhé je model lineární v parametrech β0, . . . ,βk. Tento předpoklad nás však neomezuje na lineární vztahy mezi proměnnými, neboť vysvětlo-vaná proměnná i vysvětlující proměnné nemusí být skutečnými původními proměnnými, ale i jejich různými transformacemi.
Druhým předpokladem je získání náhodného vzorku o celkemn pozorováních, který sleduje populační model uvedený v prvním předpokladu. Tím říkáme, že vzorek je generován stej-ným data generujícím procesem a že tento vzorek je náhodstej-ným výběrem. Tím docílíme, že nesledovaná náhodná složka pro jednotlivá pozorování je opravdu náhodná a v průměru nestranná.
Třetím předpokladem je plná hodnost matice vysvětlujících proměnných, jinými slovy, ne-existuje jednoznačná lineární závislost mezi vysvětlujícími proměnnými, jinak kolinearita.
Také to znamená, že mezi nezávislými proměnnými není taková proměnná, která by byla pro všechna pozorování konstantní. Problémem modelu, který by nesplnil uvedenou podmínku je, že by nebyl jednoznačně odhadnutelný. Viz předchozí diskuse o podmínkách prvního řádu modelu. Důležitým sdělením předpokladu pro praktickou analýzu je, že předpoklad nepovo-luje pouze perfektní kolinearitu, ale jinak mohou být vysvětlující proměnné korelované, což je nejčastější. V opačném případě by model nebyl příliš užitečný. Perfektní multikolinearita je extrémní situací, které dosáhneme spíše při špatné specifikaci modelu. Pokud je model teoreticky specifikován správně, pak je nutné proměnné nějakým způsobem transformovat, abychom se problému vyhnuli. Pro další chápání zmiňme, že je-li kolinearita mezi vysvět-lujícími proměnnými vysoká, má to negativní vliv na přesnost odhadů modelu, při nízké kolinearitě je tomu naopak.
Čtvrtá podmínka, nulová podmíněná střední hodnota náhodné složky, definuje složku u ne-závislou na vysvětlujících proměnných, viz 1.18. Je důležitá pro nestrannost estimátoru. Tato podmínka může být porušena v případě špatné specifikace modelu, například pokud odha-dujeme polynomiální vztah pomocí lineárního, tedy opomeneme-li vysvětlující proměnnou, obecně pokud závislosti proměnných specifikujeme ve špatném tvaru. Pokud vynecháme dů-ležitou proměnnou, která je korelovaná s obsaženými vysvětlujícími proměnnými, potom také nemusíme splnit podmínku. Stává se to spíše v případě, že vysvětlujících proměnných je méně, než když model obsahuje několik faktorů. Často se stává, že musíme proměnnou vynechat z určitých datových důvodů a ani to většinou nedělá vícenásobnému lineárnímu regresnímu modelu potíže (Wooldridge, 2012). Jsou i jiné případy, kdy je tato podmínka nesplněna. Jako poslední důvod uveďme nepřesně změřená vstupní data. Pokud však čtvrtý předpoklad platí, říkáme, že vysvětlující proměnné jsou exogenní. Pokud je nějaká z vysvětlujících proměnných korelovaná s náhodnou složkou, potom je tato proměnná endogenní.
E(u|x1, . . . , xk) = 0 (1.18) Uvedené čtyři podmínky zaručují, že metoda nejmenších čtverců je nevychýleným estimáto-rem parametrů modelu, platí vztah 1.19. Uvědomujeme si, že nevychýleností myslíme očeká-vání odhadnutého parametru, odhady parametrů jsou nevychýlené pouze v průměru, pokud bychom odhadovali model z různých náhodných vzorků. Při odhadu jednoho vzorku však nejsme schopni říct, jak moc je daný odhad vychýlený.
E(βˆj) =βj, j= 0,1, . . . , k (1.19) Z pohledu vychýlení estimátoru neublížíme, pokud přidáme nevýznamnou proměnnou a že model pře-specifikujeme. Pokud je proměnná zcela nevýznamná, potom očekáváme, že pro-měnná nemá parciální vliv na vysvětlovanou proměnnou a očekávaná hodnota parametru β je nulová. Přidání nevýznamné proměnné však může mít jiné nežádoucí vlivy na rozptyly odhadů. Naopak vynechání důležité vysvětlující proměnné má obecně více nežádoucích dů-sledků, takovou situaci můžeme popsat jako nedostatečnou specifikaci modelu. Ta může na-stat například v případě nesprávných teoretických východisek při sestavování modelu nebo pokud si jednoduše nemůžeme dovolit proměnnou do modelu přidat. Vychýlení z vynechané proměnné může být kladné či záporné dle očekávaného směru parametru a dle korelace s dal-šími proměnnými. V případě modelu dvou vysvětlujících proměnných, pokud má vynechaná proměnná kladný efekt a zároveň je korelace mezi nevynechanou proměnnou a vynechanou proměnnou kladná, potom očekáváme kladné vychýlení z vynechané proměnné. Složitost ur-čení směru vychýlení však narůstá s počtem proměnných, které jsou korelované s vynechanou proměnnou. Pokud je v modelu několik vysvětlujících proměnných, jsou všechny odhadnuté parametry obecně vychýlené i protože veškeré páry proměnných jsou také různě korelované.
V ar(u|x1, . . . ,xk) =σ2 (1.20) Navazující pátou podmínkou je, aby podmíněný rozptyl náhodné složky byl konstantní a konečný, viz 1.20. Podmínka zajišťuje, že pro všechny možné kombinace vysvětlujících pro-měnných je náhodná složka konstantní, protože je na těchto propro-měnných nezávislá. V případě porušení podmínky mluvíme o heteroskedasticitě.
Výše pět uvedených podmínek nazýváme Gauss-Markovovi předpoklady pro model průřezo-vých dat (Pro časové řady a panelová data se předpoklady částečně liší, avšak těmi se pro účely této práce nebudeme zabývat). Podmínky nám dovolují zapsat podmíněnou střední hod-notu vysvětlované proměnné jako funkci lineární v parametrech a s konstantním rozptylem, viz 1.21.
E(y|x) =β0+β1x1+· · ·+βkxk, V ar(y|x) =σ2 (1.21)
Podmínky nám také dovolují statisticky testovat významnost proměnných v modelu, neboť jsme schopni zapsat rozptyl parametrů modelu jako 1.22, kde SSTj je variance j-té pro-měnné aR2j je koeficient determinace modelu, kdej-tou proměnnou odhadujeme v závislosti na ostatních vysvětlujících proměnných. Funkce rozptylu parametrů jsou nelineární, obecně se hodnota snižuje se snižováním rozptylu náhodné složky, dále s vyšší variabilitou vysvětlu-jící proměnné a také čím nižší je závislost proměnné na dalších proměnných, tím bude rozptyl parametru nižší a přesnost odhadu tedy vyšší. Pro testování modelů, ekonomickou interpre-taci a vytváření hypotéz o parametrech je důležité, aby konfidenční intervaly odhadnutých parametrů byly spíše úzké, abychom se na výsledky mohli spolehnout.
V ar(βˆi) = σ2
SSTj(1−R2j) (1.22)
Pokud chceme zpřesnit odhady parametrů, potom můžeme cílit právě na jednotlivé složky uvedené funkce. Prvním z faktorů je náhodná složka, kterou nesnížíme ani zvýšením počtu pozorování, neboť je součástí populace, ovšem můžeme ji snížit přidáním takové proměnné, která by část z náhodné složky vysvětlila. Taková proměnná nemusí být dostupná, ale jedná se o vhodný přístup. Druhým faktorem je variabilita ve vysvětlující proměnné, kterou také chceme spíše vyšší za jinak stejných podmínek. Pro vyšší varianci v proměnné musíme zvětšit počet pozorování. V případě posledního faktoru, závislosti na ostatních proměnných, se opět můžeme bavit v extrémech o ortogonálních proměnných a o multikolinearitě. Pokud jsou proměnné ortogonální, potom je dílčí koeficient determinace nízký a přesnost odhadů vysoká.
V některých případech jsme schopni pomocí určitých postupů ortogonalizovat proměnné a snížit tak závislost mezi nimi, čímž maximálně zpřesníme odhady parametrů. V opačném případě můžeme mluvit o perfektní kolinearitě, kdy jsme si již uvedli, že model nelze vůbec odhadnout. A pokud se blížíme perfektní kolinearitě, protože jsou vysvětlující proměnné značně závislé, mluvíme o multikolinearitě a model lze sice odhadnout, avšak za cenu vysokých intervalů spolehlivosti odhadnutých parametrů.
V IF = 1
1−R2j (1.23)
Multikolinearita samotná neporušuje žádný z předpokladů modelu, jen nám zatěžuje model z pohledu vyšších rozptylů parametrů. Možným problémem v praxi je, že multikolinearita není přesně definována, jen víme, že vysoká závislost může mít značné dopady na rozptyly od-hady parametrů. Řešením multikolinearity je větší vzorek dat. Pokud tuto možnost nemáme a odebereme-li z modelu proměnnou pro její statistickou nevýznamnost, potom mohou být odhady jiných parametrů vychýlené, jak jsme si uvedli výše. Pokud se v analýze nezajímáme o parciální vlivy proměnných na vysvětlovanou proměnnou a jde nám spíše o predikce hodnot, vychýlené odhady tolik vadit nebudou, jen je nelze jako parciální vlivy interpretovat. Pokud se zajímáme o určitý odhad parametru a ten není korelovaný s dalšími proměnnými, z nichž některé jsou zatíženy multikolinearitou, potom vynechání jedné z proměnných nebude mít vliv na vychýlení parametru zájmu, protože dílčí koeficient determinace bude nízký. Pokud
se zajímáme o detekci potenciální multikolinearity, můžeme využít metriky inflačního faktoru rozptylu, který je funkcí dílčího koeficientu determinace, viz 1.23. Pro metriku je vytvořena tabulka hodnot a slovně popsané riziko multikolinearity. Například pro V IF = 10 je riziko multikolinearity velmi vysoké, metrika spíše orientační. Navíc ani špatný výsledek této me-triky nevylučuje, že proměnná je statisticky významná a že rozptyl jejího odhadu je nízký, záleží i na dalších okolnostech modelu a velikosti vzorku dat.
Pokud je specifikace modelu správná, ale určitá proměnná není statisticky významná, napří-klad kvůli multikolinearitě, potom můžeme volit mezi ponecháním a vynecháním proměnné.
V případě, že je proměnná korelovaná s dalšími regresory, potom jde o volbu mezi vyšší va-riancí a nevychýleností. Ponecháním proměnné získáme nevychýlený odhad, avšak rozptyly parametrů jsou vyšší, než kdybychom tutéž proměnnou z modelu vyřadili. Jde-li nám o in-terpretaci parametrů, budeme patrně volit spíše ponechání proměnné. A pokud nám půjde spíše o predikci mimo vzorek dat, zvolíme raději nižší rozptyly parametrů. V případě, že je daná proměnné nekorelovaná s dalšími predikujícími proměnnými, potom je volba snadná a můžeme proměnnou vynechat bez vlivu na vychýlení zbylých parametrů modelu. Byť taková situace nastává zřídka. Vliv na rozhodování má samozřejmě i velikost vzorku, pokud je velký, odchýlení estimátorů bývá malé, jak jsme uvedli v předchozím odstavci.
Standardní chyba modelu, neboli odhad σ2, je posledním parametrem, který je nutné od-hadnout. V jiné literatuře se může jednat například o standardní chybu regrese, standardní chybu odhadu nebo odmocnina střední hodnoty čtverce chyby (RMSE). Nevychýleným esti-mátorem rozptylu náhodné složkyE(u2) jen−1∑︁ni=1u2i. Protože skutečnou náhodnou složku neznáme, je třeba využít reziduí modeluuˆ . Pokud rezidua jen dosadíme za náhodnou složku,i získáme podhodnocený odhad. Lze si představit, že zařadíme-li do regrese nevýznamnou pro-měnnou, která vysvětlí část náhodné složky, potom bude odhad nižší. Takto bychom odhad uměle snižovali s každou další přidanou proměnnou. Intuice tedy říká, že bychom měli od-had vážit podle počtu regresorů. Nevychýlený odod-had zapíšeme pomocí rovnice 1.24, kdenje počet pozorování,kpočet proměnných modelu a jeden stupeň volnosti přičítáme za odhado-vanou úrovňovou konstantu. Přidáním další proměnné do modelu může nyní odhad klesnout i vzrůst, podle vhodnosti zařazené proměnné.
σˆ2= (
n
∑︂
i=1
uˆ2i)/(n−k−1) (1.24) Standardní chybu odhadu parametrů získáme nyní jako
se(βˆj) =σˆ/[SSTj(1−R2j)]1/2, (1.25) ty jsou negativně ovlivněny standardní chybou modelu a velikostí lineární závislosti j-té pro-měnné na zbývajících vysvětlujících proměnných. Vysoká variabilita propro-měnné má naopak pozitivní vliv na snížení standardní chyby odhadu parametru. Protože je SSTj neklesající funkcí velikosti n, je zjevné, že standardní chyby jsou pozitivně ovlivněny počtem pozoro-vání. Odhady jsou však značně závislé na posledním zmíněném předpokladu, který se týká konstantního podmíněného rozptylu náhodné složky. Pokud je tento předpoklad porušen,
vzorec pro standardní chybu odhadu parametru není validní a nelze se na něj spoléhat. Před interpretací je vhodné model testovat na homoskedasticitu.
Již jsme uvedli, že existují další možné estimátory uvedeného regresního modelu. Metoda nejmenších čtverců má však jednu přednost, kterou zde uvedeme. Gauss-Markovovo teorém, který předpokládá uvedených pět předpokladů, nadále říká, že metoda nejmenších čtverců je takzvaně BLUE (best linear unbiased estimator), tedy nejlepší lineární nestranný estimátor.
Neexistuje tedy jiný lineární estimátor, pro který by platilo, že rozptyl odhadů parametrů je nižší než rozptyly parametrů odhadnuté metodou nejmenších čtverců. Odhady jsou nejvy-datnější napříč danou skupinou odhadových funkcí.