Tato sekce navazuje na naivní model v tom smyslu, že budeme postupně přidávat proměnné a pro každou z nich odhadovat parametrdmax. Protože parametr nebude stejný napříč sadou j vysvětlujících proměnných, mluvme o proměnné dmax,j. Pokud bychom odhadování para-metrů opakovali a po každém kole vždy přidávali na proměnných modelu, mluvili bychom o postupné jednorázové optimalizaci, pak bychom také mohli přidat rozměr k, značící kolo opakování. Později, jakmile budeme znát odhady parametrůdmax,j, přidáme prvek best sub-set selection regrese, kdy z předpřipravené sady regresorů budeme vybírat ty nejvhodnější.
Provádění uvedeného přístupu je mnohem více výpočetně náročné, než standardní MNČ, protože před každým odhadem modelu je nutné vytvořit novou sadu proměnných dle zvy-šujících se hodnotdmax,j. Odhadujeme-li například 10 druhů POI bodů a 40 vzdáleností, je nutné celkem 400 krát vytvořit matici vysvětlujících proměnných pro každé kolo postupné jednorázové optimalizace. Samozřejmě lze celý postup optimalizovat a značně zjednodušit výpočetní náročnost, avšak to není hlavním předmětem práce.
První stupeň modelu
Nejprve přidáme do modelu proměnnoupopulace města, protože se jedná o nejsilnější faktor ovlivňující produkci. Teprve poté odhadujeme parametrydmax,j, pokud bychom postupovali bez této silné proměnné, byly by jednotlivé parametry více zkreslené. Očekávali bychom hodnoty vyšší, neboť by se model snažil využít širšího počtu bodů v okolí a nahradit chybějící
populační proměnnou. Oproti modelu výše, který využil zjednodušené funkce 2.1, použijeme navíc vzdálenostní funkci 2.3. Dle obrázku 2.4 a z logiky problému není pochyb, že se zvyšující se vzdáleností klesá váha bodu. Očekáváme proto od zavedení funkce další zkvalitnění modelu.
V následující tabulce 2.3 vidíme nejlepší hodnotydmax,j z pohledu vysvětlené variability pro různé modely, které se liší v přidané proměnnéj. Funkcewznačí, že proměnná byla vytvořena dle vzdálenostní funkce 2.3. Ve druhém sloupci tabulky si lze všimnout, že nejoptimálnější vzdálenostní parametr se liší napříč různými proměnnými. Ve třetím sloupci je zachycena adjustovaná vysvětlená variabilita modelu a ve čtvrtém je P hodnota přidané proměnné j.
Je zjevné, že proměnné se značně liší ve všech třech parametrech. Zatímco některé proměnné je nejlepší volit s nízkým poloměrem okolních bodů, jiné je vhodnější volit spíše s poloměrem vysokým. Rozdělení skupiny bodů POI do podskupin se zdá také jako dobrá volba, protože u všech proměnných je vyšší statistická významnost, což automaticky nezaručuje, že je vyšší i adjustovaná vysvětlená variabilita. U některých proměnných je tento poměr značně nižší, například u proměnné Volný čas a Doprava, jinde naopak znatelně vyšší, třeba u proměn-ných Úřady a kanceláře nebo Banky a bankomaty. Poslední řádek tabulky zachycující model log(produkce) = β0 +β1log(w(Úřady a kanceláředmax)) +β2log(populace) by již mohl být jedním z kandidátů, neboť je velice jednoduchý a zároveň již vysvětluje hodně z variability vysvětlované proměnné. Podíváme-li se na první řádek tabulky, tak vidíme, že model počtu bodů POI sice vysvětluje relativně mnoho z variability, ale statistická významnost je slabší, než u všech dalších předkládaných proměnných. Problémem může být, že obě vysvětlující proměnné se snaží z modelu vysvětlit přibližně totéž a budou značně korelované. Proměnné dle typu POI naopak mohou cílit více na specifické aspekty lokality. Grafickou podobu vztahů lze nalézt v příloze A.1.
Tabulka 2.3: Hodnoty nejlepších parametrů vzdálenostní funkce pro jednotlivé proměnné j (vlastní zpracování)
Model log(produkce) dmax,j R2Adj Pj
β0+β1log(w(POIdmax)) +β2log(populace) 3250 0.428 0.104
Stejná analýza, jaká je doposavad v této sekci prezentována, akorát se zlogaritmovanými přidanými proměnnými, je uvedena v příloze, viz tabulka A.1 a grafická analýza A.2. V
porovnání s nezlogaritmovanými proměnnými se ve většině případů změnily parametrydmax,j, ve většině případů se zároveň vylepšila statistická významnost. Grafická analýza ukazuje ve druhém případě na značné nelinearity při měnících sedmax,j. Oba sety proměnných použijeme dále při výběru finálního modelu.
Druhý stupeň modelu
Doposavad jsme přešli od naivního modelu s vysvětlenou adjustovanou variabilitou kolem hodnoty 0.43, viz obrázek 2.4, k jednoduchým modelům dvou proměnných s nejvyšší hodnotou 0.52, tabulka 2.3, přesto šlo zatím pouze o kalibraci a analýzu vzdálenostních parametrů.
Zde již přecházíme z optimalizace vzdálenostních parametrů a vytváření setů proměnných k výběru nejlepší kombinace proměnných modelu. Uvažujeme čtyři aplikace metody best subset selection dle čtyř setů vysvětlujících proměnných:
1. Vysvětlující proměnné s jednotným dmax
2. Vysvětlující proměnné s jednotným dmax, zlogaritmované 3. Vysvětlující proměnné s variabilnímdmax,j
4. Vysvětlující proměnné s variabilnímdmax,j, zlogaritmované
Pro každý set jedenácti proměnných sestavujeme ideální podmnožinu vysvětlujících proměn-ných, přičemž pokaždé zahrnujeme v modelu úrovňovou konstantu. Počet vysvětlujících pro-měnných v algoritmu best subset selection volíme v rozmezí 1 a 8. Pro každý počet vysvět-lujících proměnných se vytváří všechny jejich možné kombinace, pro každou kombinaci se odhadne model a ten se vyhodnocuje. Vyhodnocujeme tři informační kritéria dle teoretické části, následně kontrolujeme další statistické vlastnosti modelů. V níže uvedených výsledcích zachycujeme vždy pouze nejlepší model dle informačních kritérií a nálezy dodatečné kontroly modelu. První představujeme výsledky modelů nezlogaritmovaných proměnných v tabulkách 2.4 a 2.5.
Tabulka 2.4 zachycuje nejlepší modely dle informačních kritérií s konstantní hodnotoudmax
rovnou 3000 metrů. V tomto případě všechna kritéria zvolily totožný model s celkem šesti vy-světlujícími proměnnými. Hodnota adjustované vysvětlené variability se posunula na hodnotu 0.552, většina statistických hodnot je v pořádku, avšak model je zatížen silnou multikolineari-tou v matici vysvětlujících proměnných. To nemusí být na překážku, pokud se cílí na predikční vlastnosti modelu, ale vypovídá to o tom, že nelze jasně interpretovat vztahy modelu.
Tabulka 2.4: Nejlepší modely dle informačních kritérií s konstantnídmax= 3000 metrů (vlastní zpracování)
Kritérium Počet proměnných Výstup R2Adj Poznámka
R2Adj 6 tabulka A.2 0.552 Silná multikolinearita
AIC 6 tabulka A.2 0.552 Silná multikolinearita
BIC 6 tabulka A.2 0.552 Silná multikolinearita
Tabulka 2.5 zachycuje méně omezený model, tedy za podmínky, že hodnoty dmax,j jsou va-riabilní. Tentokrát jsou modely dle informačních kritérií různé. Nejomezenější model dle kri-téria BIC má pouze 2 vysvětlující proměnné, byť i tak je vysvětlená adjustovaná variabilita na úrovni 0.550, čímž o mnoho nezaostává za modelem z tabulky 2.4. Zbylé dva modely využívají celkem 7, respektive 6 proměnných. Hodnoty R2Adj jsou na úrovni 0.569 a 0.568, problémem všech tří modelů je opět silná multikolinearita. Modely nejsou otestované na pre-dikční schopnosti, ale jde vidět, že uvolnění vzdálenostní podmínky pomohlo ve vysvětlené variabilitě.
Tabulka 2.5: Nejlepší modely dle informačních kritérií s variabilnídmax,j (vlastní zpracování) Kritérium Počet proměnných Výstup R2Adj Poznámka
R2Adj 7 tabulka A.3 0.569 Silná multikolinearita
AIC 6 tabulka A.4 0.568 Silná multikolinearita
BIC 2 tabulka A.5 0.550 Silná multikolinearita
Dále následují výsledky modelů se zlogaritmovanými proměnnými v tabulkách 2.6 a 2.7.
Obecně lze říci, že se hodnoty R2Adj lehce snížily, ale zato nejsou modely zatíženy silnou multikolinearitou. Jako první opět představujeme modely, kde hodnotadmax je fixována pro všechny proměnné. Dle kritériíR2Adja AIC je nejlepší model s pěti proměnnými s hodnotou R2Adj rovnou 0.526, zatímco přísnější kritérium BIC volí model s pouze jednou proměnnou a R2Adj rovnou 0.503.
Tabulka 2.6: Nejlepší modely dle informačních kritérií s konstantní dmax = 3000 metrů a zlogaritmovanými proměnnými (vlastní zpracování)
Kritérium Počet proměnných Výstup R2Adj Poznámka
R2Adj 5 tabulka A.6 0.526
AIC 5 tabulka A.6 0.526
BIC 1 tabulka A.7 0.503
V tabulce 2.7 vidíme zlepšení hodnot R2Adj dle všech kritérií oproti tabulce 2.6. Model dle kritéria R2Adj volí celkem 6 proměnných a hodnotaR2Adj je při 0.539, je však diskutabilní, zda můžeme akceptovat záporný koeficient u proměnné populace. Dle kritéria AIC volíme 4 proměnné a hodnota R2Adj klesá téměř neznatelně na hodnotu 0.537, proti odhadnutým koeficientům v tomto případě není námitky. Poslední model má R2Adj rovno 0.519, byl odhadnut dle BIC kritéria.
Z výše uvedených čtyř tabulek vyplývají dvě věci. Modely s nezlogaritmovanými proměnnými mají problém s multikolinearitou, což stěžuje především interpretační hledisko modelu. Zda má tento faktor vliv i na přesnost odhadů lze testovat. Dále, modely s variabilními hodno-tamidmax,j vykazují vyšší výkonnost oproti modelům s konstantní hodnotoudmax, pokud je měřítkemR2Adj. Modely poslední tabulky 2.7 jsou zajisté kandidáty na finální model, přímo pak modely dle kritérií AIC a BIC. Otestujme poslední dva modely v další sekci.
Tabulka 2.7: Nejlepší modely dle informačních kritérií s variabilnídmax,j a zlogaritmovanými proměnnými (vlastní zpracování)
Kritérium Počet proměnných Výstup R2Adj Poznámka
R2Adj 6 tabulka A.8 0.539 Záporný koeficient u populace
AIC 4 tabulka 2.9 0.537
BIC 2 tabulka A.9 0.519