Hlavní práce5719_xkopj14.pdf, 549.3 kB Stáhnout

(1)

Vysoká škola ekonomická v Praze

Fakulta informatiky a statistiky

Studijní program: Kvantitativní metody v ekonomice Studijní obor: Statistické a pojistné inženýrství

Diplomant: Jitka Kopáčková

Vedoucí diplomové práce: doc. Ing. Hana Řezanková, CSc.

Aplikace metod vícerozm ě rné analýzy v sociologických pr ů zkumech

školní rok 2006/2007

(2)

2

Prohlášení

Prohlašuji, že jsem diplomovou práci zpracovala samostatně a že jsem uvedla všechny použité prameny a literaturu, ze kterých jsem čerpala.

V Praze dne 20.5.2007

……….

podpis

(3)

3

Poděkování

Ráda bych zde poděkovala doc. Ing. Haně Řezankové, CSc. za vedení práce, věcné rady a přípomínky. Zároveň bych chtěla poděkovat Ing. Martinu Vávrovi ze Sociologického ústavu Akademie věd ČR za poskytnutí zpracovávaných dat.

(4)

4

Abstrakt

Cílem této diplomové práce je použít statistické metody vícerozměrné analýzy k hlubšímu poznání preferencí vysokoškolsky vzdělaných zaměstnanců. Především jde o nalezení zásadních podnětů, které mohou ovlivňovat spokojenost vysokoškolsky vzdělaného zaměstnance v jeho zaměstnání. K dosažení tohoto cíle je třeba provést výběr vhodných statistických metod a postupů a úspěšně je aplikovat.

Text je členěn do pěti kapitol, které se skládají z oddílů a pododdílů. Podle struktury jej lze rozdělit na dvě základní části, na teoretickou a praktickou.

Teoretická část se skládá z první, druhé a třetí kapitoly. První kapitola se věnuje důvodům výzkumu, typům otázek i proměnných. Druhá kapitola sleduje přístupy ke transformaci dat, které je třeba podniknout pro použití různých typů proměnných ve vícerozměrných metodách. Třetí kapitola se zaměřuje na dvě vybrané vícerozměrné metody, analýzu kontingenčních tabulek a logistickou regresi. Výběr postupů, metod a charakteristik je přizpůsoben možnostem, které nabízí použitý statistický software.

Praktická část se pak skládá ze dvou kapitol. Ve čtvrté kapitole jsou nastíněny základní informace o analyzovaném výběrovém souboru. Jsou zde popisovány demografické charakteristiky, pracovní klima a spokojenost zaměstnanců s různými podněty v zaměstnání.

Na čtvrtou kapitolu navazuje pátá kapitola, kde je sledována reakce zaměstnanců různého věku a pohlaví na stejné podněty v zaměstnání.

Souhrnné hodnocení výsledků analýz se nachází v poslední části, v závěru. Je zde posouzeno, zda diplomová práce splnila svůj cíl a napomohla lépe poznat preference vysokoškolsky vzdělaných zaměstnanců.

Za přínos diplomové práce lze označit úspěšnou aplikaci logistické regrese na problematiku řízení zaměstnanců přiměřeně jejich věku a pohlaví.

(5)

5

Abstract

The aim of this diploma thesis is to utilize multivariate statistical methods to understand preferences of employees with university degree. The main purpose is to find the basic incentives which can impress the employee to like or dislike his work as a whole. To achieve this purpose it is necessary to choose appropriate statistical methods and to apply them successfully.

The thesis subdivides into five chapters and can be structured into theoretical and practical parts according to their objects.

The theoretical part consists of three chapters. The purpose of the first chapter is to introduce the main characteristics of sociologic research. The transformation and conversion between different types of variables is described in the second chapter. The aim of the third chapter is to introduce two multivariate statistical methods, analysis of contingency tables and logistic regression.

The practical part comprises two chapters. The fourth chapter represents the research as a whole and describes variables used in the fifth chapter. The fifth chapter monitors responses of the employees of different age and sex to the same stimulations.

The final conclusion summarizes the obtained results of the analysis and it tries to answer the main question of the diploma thesis; whether it is useful to modify the human resource managment and motivation in accordance to age and sex of employee or not.

The contribution of the diploma thesis is the successful application of logistic regression to the task of human ressource management.

(6)

6

Obsah

ÚVOD 8

1 SPECIFIKA DAT ZÍSKANÝCH ZE SOCIOLOGICKÝCH PRŮZKUMŮ 9

1.1 ÚVOD 9

1.2 VÝZNAM A POSTUPY SOCIOLOGICKÉHO VÝZKUMU 9

1.3 FORMULACE VĚDECKÝCH HYPOTÉZ 10

1.4 TYPY OTÁZEK A POZOROVÁNÍ SKRYTÝCH JEVŮ 11

1.5 TYPY PROMĚNNÝCH 12

1.6 T^ŘÍDĚNÍ PRVNÍHO STUPNĚ 13

1.6.1 Výběrové charakteristiky 13

2 TRANSFORMACE DAT 15

2.1 ÚVOD 15

2.2 NOMINÁLNÍ PROMĚNNÉ 15

2.2.1 Nominální proměnné 15

2.2.2 Postup v případě vícehodnotových odpovědí 16

2.3 ORDINÁLNÍ PROMĚNNÉ 16

2.4 KVANTITATIVNÍ PROMĚNNÉ 17

3 VÍCEROZMĚRNÉ METODY 18

3.1 ÚVOD 18

3.2 ANALÝZA KONTINGENČNÍCH TABULEK 18

3.2.1 Popis dvourozměrné kontingenční tabulky 18

3.2.2 Zkoumání vztahů mezi proměnnými v kontingenční tabulce 19

3.2.3 Šance a poměry šancí 20

3.2.4 Testování závislostí v kontingenční tabulce 21

3.2.5 Měření intenzity závislosti nominálních proměnných 23

3.2.6 Měření intenzity závislosti ordinálních proměnných 25

3.2.7 Míry závislosti v kontingenčních tabulkách pro kvantitativní proměnné 27

3.2.8 Hodnocení závislostí pro více než dvě proměnné 28

3.3 LOGISTICKÁ REGRESE 30

3.3.1 Logistická regrese s alternativní vysvětlovanou proměnnou 30 3.3.2 Logistická regrese s vícekategoriální vysvětlovanou proměnnou 34

4 POPIS VÝZKUMU A SLEDOVANÉHO SOUBORU 35

4.1 ÚVOD 35

4.1.1 Představení výzkumu 35

4.2 NÁZORY NA SPOKOJENOST VPRÁCI A MOTIVAČNÍ TEORIE 36

4.3 POPIS SOUBORU 36

4.3.1 Průzkumová analýza 36

4.3.2 Jednorozměrné třídění 37

4.3.3 Vybrané demografické charakteristiky souboru 37

4.3.4 Typ zaměstnání a pracovní klima 38

4.3.5 Spokojenost respondentů s vybranými charakteristikami zaměstnání 40

4.3.6 Skupiny podle věku a pohlaví 44

4.4 ZÁVĚR 45

(7)

7

5 APLIKACE 46

5.1 ÚVOD 46

5.2 ANALÝZA KONTINGENČNÍCH TABULEK 46

5.2.1 Úvod 46

5.2.2 Vliv motivačních faktorů a vztahů na pracovišti 47

5.2.3 Vliv pracovního klimatu 48

5.2.4 Závěr analýzy kontingenčních tabulek 53

5.3 LOGISTICKÁ REGRESE 54

5.3.1 Úvod 54

5.3.2 Logistická regrese aplikovaná na data nerozlišená podle věku a pohlaví 55

5.3.3 Skupina mužů do 29 let 57

5.3.4 Skupina žen do 29 let 58

5.3.5 Skupina mužů od 30 do 44 let 60

5.3.6 Věková skupina od 30 do 44 let ženy 61

5.3.7 Skupina mužů starších 45 let 63

5.3.8 Skupina žen ve věku od 45 let 64

5.3.9 Shrnutí 66

6 ZÁVĚR 67

(8)

8

Úvod

Tato diplomová práce vznikla za účelem využití vícerozměrných statistických metod při analýze dat pocházejících ze sociologického výzkumu. Předem mi byl znám okruh metod, které jsem chtěla použít a oblast, které jsem se chtěla věnovat. Zkoumané téma jsem zvolila až po nalezení vhodného datového souboru.

Pro analýzu jsem zvolila data z výzkumu s názvem „Muži a ženy s vysokoškolským diplomem“. Z několika témat, která jsem mohla na základě dat z dotazníku zkoumat, mne zaujaly zejména oblasti genderové problematiky, motivace zaměstnance a hodnocení vztahu demografických charakteristik člověka a jeho vztahu ke kariéře. Pro svou diplomovou práci jsem nakonec zvolila téma sledování motivace a spokojenosti zaměstnance v práci.

Téma je poměrně komplexní, data problém pokrývala dostatečně a jeho zpracování mne zajímalo i z důvodu, že jsem chtěla porovnat zjištěné výsledky se svými vlastními preferencemi a názory ohledně spokojenosti v zaměstnání.

Spokojenosti zaměstnanců a jejich preferencím se věnuje řada motivačních teorií, jimiž jsem se inspirovala při hledání vhodných vysvětlujících proměnných. Za přínos této diplomové práce lze pokládat doplnění teoretických úvah o motivaci zaměstnanců myšlenkou, jestli je třeba při řízení zaměstnanců uvažovat o možnosti rozdílných preferencí v závislosti na pohlaví a dosaženém věku, nebo ne. Zjišťování změn v preferencích se věnuji v páté kapitole prostřednictvím použití dvou metod, analýzy kontingenčních tabulek a logistické regrese. Analýza kontingenčních tabulek sloužila spíše k hrubšímu poznání závislosti sledovaných motivačních faktorů a pracovního klimatu na spokojenost v práci. Logistická regrese pak určila, které faktory jsou pro zaměstnance daného věku a pohlaví nejdůležitější pro jeho spokojenost s pracovní situací. Očekávám proto, že výsledky této diplomové práce mohou napomoci k lepšímu poznání motivačních faktorů u zaměstnanců a přizpůsobit tomu styl řízení v organizaci.

Při psaní práce jsem se snažila splnit několik cílů, některé vědecké povahy, jiné spíše osobní. Hlavním cílem byla analýza vybraného problému pomocí vícerozměrných metod.

Za osobní cíl jsem si položila hlubší poznání metod a postupů pro kategoriální data prostřednictvím praktické analýzy.

Závěry učiněné na základě výsledků statistických analýz v aplikační části jsou založeny na předpokladu, že všechny potřebné proměnné jsou již do analýzy zahrnuty a že se preference zaměstnanců liší podle věku a pohlaví zaměstnanců. Za určité omezení považuji restrikci okruhu možných sledovaných proměnných na proměnné, které byly k dispozici v datovém souboru. Dalším omezením byla určitá ztráta informace, ke které došlo při slučování kategorií proměnných, aby mohly být splněny podmínky pro použití obou vícerozměrných metod a výsledky byly vzájemně srovnatelné.

Součástí textu je příloha obsahující znění použité části dotazníku a některých statistických výstupů.

(9)

9

1 Specifika dat získaných ze sociologických průzkumů 1.1 Úvod

Tato kapitola se snaží pojmout sociologické výzkumy z několika hledisek. Druhý oddíl stručně popisuje, jak výzkum probíhá. Na něj navazující třetí oddíl uvádí, jaké postupy se používají pro formulaci základní myšlenky výzkumu, která se pak potvrdí nebo vyvrátí za pomoci aplikace statistických metod.

Čtvrtý oddíl popisuje, jak lze klasifikovat otázky používané v dotaznících. Následuje typologie statistických proměnných, které zachycují odpovědi respondentů na tyto otázky.

V posledním oddílu kapitoly jsou stručně načrtnuté používané jednorozměrné charakteristiky, které slouží k získání základních informací o datovém souboru.

1.2 Význam a postupy sociologického výzkumu

¹

Sociologický výzkum slouží k nalezení a vysvětlení sociálních jevů, které popisují chování a názory jedince a skupin lidí. Uskutečněné závěry však většinou platí pouze pro oblasti, kde byla data získána. Také je třeba počítat s vývojem postojů a názorů jedince v čase, proto je vhodné sledovat zkoumané jevy pravidelně. Lidské chování totiž závisí na mnoha faktorech, včetně společenského klimatu.

Výzkum má obecně tři hlavní fáze. První je fáze přípravná. Během ní je třeba zajistit plán sběru dat, určit rozsah výběru a vytvořit dotazník. Na fázi přípravnou navazuje zajištění a kontrola dat, resp. informací o sledovaných jevech. Poslední je analytická fáze, která zpracovává zjištěné informace a jejímž výsledkem je zpráva a prezentace výsledků výzkumu.

Postupy sběru dat se rozlišují na kvantitativní a kvalitativní. Kvalitativní postupy se používají v případě sledování malého počtu osob. Jejich cílem je zejména seznámení se s názory a chováním vybraného člověka, resp. skupiny osob. Šetření probíhá prostřednictvím přímého dotazování malého počtu respondentů. Nejčastěji se používá metoda hloubkového šetření a metoda focus groups neboli hloubková skupinová diskuse.

Hloubkového šetření se účastní pouze respondent a školený tazatel, zpravidla psycholog.

Metody focus groups se provádějí ve skupinách čítajících nejčastěji osmi až deseti osob.

Hlavním analytickým materiálem je záznam rozhovoru.

Sběr dat v kvantitativním výzkumu probíhá prostřednictvím osobního dotazování větší skupiny osob pomocí dotazníků s předem formulovanými otázkami. Hlavním analytickým materiálem je pak datový soubor obsahující záznamy odpovědí. Kvantitativní a kvalitativní výzkumy se navzájem doplňují. Výsledek kvalitativního výzkumu může napomoci porozumění člověku, jeho názorům a chování. Závěry z kvantitativního výzkumu pak určí, jak byly závěry zjištěné kvalitativním výzkumem spolehlivé. V této diplomové práci se budu dále zabývat pouze kvantitativními výzkumy.

V kvantitavním výzkumu se data nejčastěji získávají prostřednictvím osobních interview, telefonických rozhovorů a odpovědí na dotazníky rozesílané poštou. Nevýhodou rozesílání dotazníků je nízká návratnost odpovědí a systematická chyba vzniklá prostřednictvím působení samovýběru². Tento postup je však nejméně nákladný. Osobní rozhovory jsou nákladné a časově náročné. V současnosti je velice oblíbenou technikou

1 Blíže viz [2] a [5]

2 Samovýběrem se označuje skutečnost, že vyplněný dotazník zašlou zpět zpravidla pouze určité typy respondentů. Tím je ale významně porušena různorodost souboru.

(10)

10 je CATI (computer assisted telephone interview) dotazování, které probíhá prostřednictvím telefonu s okamžitým zápisem dat do počítače.

Data získaná pomocí dotazování jsou postižena častými chybami, jejichž zdrojem bývá nedokonalý lidský faktor. Mezi příčiny nedokonalosti mohou patřit jak chyby neúmyslně způsobené, jako jsou překlepy, tak i nedokonalost osoby tazatele, který může respondentovi špatně položit otázku, působit na respondenta negativně, a tím nepřímo nebo přímo ovlivnit jeho názor. Z tohoto hlediska je pro možnost kontroly práce tazatele vhodná již dříve popsaná metoda CATI, kdy je možné telefonické rozhovory s respondenty zaznamenávat.

1.3 Formulace vědeckých hypotéz

³

Při výzkumu je třeba formulovat základní myšlenku o sledovaném jevu. Tato myšlenka se pak na základě závěrů analýz ze zjištěných dat hodnotí, ověřuje nebo zamítá.

V [6] je tato myšlenka nazývána vědeckou sociologickou hypotézou a tento název (resp. kratší název “hypotéza“) budu v tomto pododdíle používat. Vědecká sociologická hypotéza zpravidla navazuje na teoretický základ jiné, již ověřené vědecké hypotézy, nebo vychází z obecně platných jevů. Úkolem výzkumu je ověřit platnost hypotézy nebo hypotézu zamítnout. Přístupy k formulaci vědeckých hypotéz lze roztřídit na tři krajní přístupy a to konfirmační, diskriminační a explorační.

Použije-li se konfirmační přístup, je vědecká hypotéza předem definovaná a v průběhu výzkumu se pak pouze ověřuje. Výsledkem ověřování hypotézy je zamítnutí hypotézy, její přijetí nebo její modifikace. Na konfirmačním přístupu je již založena formulace otázek v dotazníku, kdy se hledají takové proměnné, které by pomohly hypotézu potvrdit nebo vyvrátit. Nevýhodou tohoto přístupu je skutečnost, že již volba proměnných může ovlivnit výsledek hodnocení hypotézy. V důsledku snahy hypotézu přijmout může docházet k opomíjení důležitých proměnných, které by v případě jejich zahrnutí do výzkumu vedly k zamítnutí hypotézy.

Při diskriminačním přístupu neboli rozlišování hypotéz se vybírá nejvhodnější hypotéza z předem vybraného souboru hypotéz. Výběr proměnných je založen na tom, aby vedl k rozlišení mezi jednotlivými hypotézami. Nelze-li na základě uvedeného přístupu vybrat ani jednu z hypotéz, přistupuje se ke třetímu přístupu, exploračnímu.

Explorační přístup je založen na vyhledávání hypotéz při analýze dat. Kladou se vhodné otázky a odpovědi na ně se hledají pomocí analýz dat. Vybírají se takové vztahy mezi proměnnými, které by pomohly odhalit vhodnou a zajímavou hypotézu. Nevýhodou tohoto přístupu je skutečnost, že měřená data nemusí pokrývat celý problém a v důsledku toho při formulaci a ověřování hypotézy se opomíjejí důležité jevy, které by umožnily hypotézu formulovat lépe, nebo použít hypotézu vhodnější. Při exploračním přístupu je tak kladen větší důraz na práci s teoretickým základem v průběhu analýzy dat. Tím se odlišuje od konfirmačního a diskriminačního přístupu, které vycházejí z teoretických základů zejména ve fázi přípravy výzkumu.

3 Blíže viz [6].

(11)

11

1.4 Typy otázek a pozorování skrytých jevů

⁴

V dotaznících je možné se setkat s několika typy otázek. Ty se rozlišují na otevřené, polouzavřené a uzavřené otázky. U uzavřené otázky je nutné definovat přesně všechny možné odpovědi. Respondent má k dispozici pouze předem daný soubor odpovědí, z nichž si vybírá.

Do výběru odpovědí se často zahrnuje ještě možnost nevím, resp. nechci odpovědět, která je východiskem pro respondenta v případě, kdy nechce odpovídat na položenou otázku.

Alternativní možností u podobných osobních otázek je uvést vybrané intervaly, které dávají respondentovi pocit vyšší anonymity.

V případě, když se sledují jevy, které mohou nabývat kromě hodnot obvyklých také jiných, méně častých, přidá se možnost „jiné“. K tomu dochází například v případě dotazů na znalost cizích jazyků u respondenta, který by volil maďarštinu nebo japonštinu. Někdy je třeba zařadit do souboru možných odpovědí také možnost, kdy může odpověď formulovat přímo respondent, což by mohlo být dalším východiskem v případě již dříve zmíněného dotazu na cizí jazyky. Tento typ otázek je pak označen za polouzavřené. Odpovědi, které celé formuluje respondent na základě vlastní úvahy, se pak nazývají otevřené.

Při výstavbě dotazníku je třeba také vzít v úvahu i možnost, že se sledují jevy, pro které lze jen obtížně formulovat otázky, nebo jevy u nichž lze očekávat, že respondent na přímou otázku neodpoví (jedná se například o otázky stoupenectví rasismu, nacismu, komunismu apod.). Protože je lidské chování charakteristické svou provázaností, přistupuje se k nepřímému měření a hledá se správný indikátor zkoumaného sociálního jevu. Tím může být členství ve skupině, která se vykazuje shodnými znaky. Otázky mohou být formulovány pomocí použití eufemismů. Nejúčinnějším typem nepřímých otázek jsou tzv. projekční otázky, v nichž je jakoby ztotožněn názor respondenta s názorem skupiny. Mezi projekční otázky patří testy nedokončených vět nebo anekdotické otázky (dokončení příběhu). Použití projekčních otázek má však nevýhodu v nízké důvěryhodnosti. Spolehlivost odpovědí lze zlepšit kontrolními otázkami.

4 Podle [4] ,[5] a [7]

(12)

12

1.5 Typy proměnných

⁵

Při dotazování se zjišťují informace o znacích zkoumaného jedince, jimiž může být např. vzdělání nebo národnost respondenta. Tyto informace se zachycují pomocí proměnných (méně často znaků), které nabývají různých obměn. Od vztahů mezi hodnotami znaků jsou odvozeny typy měřících škál. Při určování typu proměnné se lze ptát, zda je význam hodnot znaků větší nebo menší (např. vzdělání), nebo jestli porovnání nemá smysl (národnost). Typ proměnné je klíčovým hlediskem pro použití statistických postupů při analýze souboru.

Nejčastějšími typy proměnných v sociologických průzkumech jsou ordinální a nominální proměnné⁶. Kategorie ordinálních proměnných lze porovnávat. Určují se tak vzájemné vztahy mezi hodnotami. Mezi tyto proměnné patří např. vzdělání, nebo různé stupně hodnocení zkoumaného jevu, například hodnocení spokojenosti s oceněním pracovního výkonu v zaměstnání.

U nominálních proměnné pak nelze určovat ani vzájemné vztahy nadřazenosti a podřazenosti. Hodnoty nominální proměnné tedy poskytují pouze informaci o tom, jestli příslušná obměna hodnoty u jednotky nastala nebo nenastala. Méně často se pak v sociologických průzkumech vyskytují kvantitativní proměnné, které se dále dělí na intervalové a poměrové. V sociologii se mohou se nejčastěji objevují např. při otázkách týkající se věku, platu nebo počtu dětí.

Ordinální proměnnou, která nabývá alespoň sedmi kategorií a jejíž rozdělení četností je symetrické podle střední kategorie, lze považovat charakterem za kvantitativní intervalovou proměnnou. Tento krok má za následek zjednodušení některých statistických postupů.

U některých otázek může být opodstatněné předpokládat, že respondent bude volit více možností, např. při dotazu na znalost cizích jazyků. Odpovědi na jednu otázku lze pak přiřadit několik proměnných. Analýzou tohoto typu otázky se zabývá analýza vícehodnotových odpovědí (multiple response analysis). Máme pak možnost použít dva typy proměnných. První možností jsou alternativní proměnné, které vyjadřují že kategorie byla nebo nebyla vybrána. Druhou možností je použití tolika proměnných, na kolik respondent může odpovědět. Každé možné odpovědi je pak přiřazen jednotný kód u všech proměnných (viz kapitola transformace kategoriálních dat).

V této kapitole se zaměřím na všechny typy proměnných s důrazem na nominální a ordinální proměnné.

5 Podle [4] ,[5] a [7]

6 V této práci jsou nominální a ordinální proměnné značeny písmeny ze začátku abecedy (A, B, C) kvantitativní pak písmeny z konce abecedy (X, Y, Z).

(13)

13

1.6 Třídění prvního stupně

⁷

1.6.1 Výběrové charakteristiky

Předmětem třídění prvního stupně je zjistit základní informace o zkoumaných jevech ve smyslu určení četností, měr variability a polohy. Přehlednými nástroji při třídění prvního stupně kategoriálních proměnných jsou tabulky četností a grafy.

Tabulka obsahuje všechny kategorie a k nim příslušné absolutní a relativní četnosti.

Absolutní četnosti ni udávají počet jednotek s danou hodnotou znaku, relativní četnosti pi pak poměr absolutní četnosti k rozsahu souboru. Při vlastní analýze je důležité, zda se do tabulky četností zahrnou i nezjištěné hodnoty, tj. i ty, na které respondent neodpověděl. Jsou-li proměnné ordinální (nebo kvantitativní) a má tedy smysl je seřadit, používají se pro již seřazené proměnné kumulativní četnosti Pi, které vzniknou načítáním četnosti příslušné obměny s četnostmi předcházejícími, viz tabulka 1.1.

Tabulka 1.1. Třídění prvního stupně

Kategorie š těs tí Četnos t Relativní četnos t (v %) Kumulativní rel. Četnos t (v %)

Velmi šťas ten 467 31,05 31,05

Šťas ten 872 57,98 89,03

Nešťas ten 165 10,97 100,00

Celkem 1504 100,00

Stejné informace, které se prezentují v tabulkách četností lze znázornit i pomocí grafů. Nejčastěji se pro tyto účely používají sloupcové nebo výsečové grafy. Výsečový graf slouží ke zobrazení relativních četností. Sloupcový graf se často používá pro prezentaci absolutních, relativních i kumulativních typů četností. Má oproti výsečovému grafu tu výhodu, že jím lze snadno znázornit ordinální a kvantitativní proměnné, jejichž hodnoty (resp. intervaly hodnot) se seřadí na horizontální ose.

Z grafů i z tabulek je možné snadno odečíst typickou míru polohy pro kategoriální data, tzv. modus. Ten udává, která z kategorií je nejčetnější. V grafu je tato kategorie znázorněna buď nejvyšším sloupečkem (u sloupcového grafu) nebo největší výsečí.

V případě, kdy je modálních kategorií více, označuje se rozdělení za vícemodální.

Pro kvantitativní a ordinální proměnné se určuje medián, jenž je prostřední hodnotou uspořádaného souboru a znamená, že 50 % jednotek souboru nabylo této na nižší kategorie resp. hodnoty. V mém příkladu je mediánovou kategorií kategorie „šťasten“. Dalšími charakteristikami pro ordinální a kvantitativní proměnné jsou např. percentily nebo minimální a maximální kategorie (hodnoty) souboru. Typickou mírou polohy kvantitativních proměnných a některých ordinálních je aritmetický průměr x počítaný podle vzorce

n x x

n

i

∑

i

= =¹

,

(1.1.)

kde xi je hodnota i- té proměnné a n rozsah souboru.

Charakteristiky variability jsou založené na srovnání vybrané míry polohy (průměru, modu apod.) s ostatními hodnotami, jichž proměnná může nabývat. U kvantitativních proměnných se tak získává rozptyl, jenž je střední kvadratickou odchylkou všech hodnot od aritmetického průměru.

7 Podle [4] ,[5] a [7]

(14)

14 Rozptyl je základem pro některé další míry variability jako je směrodatná odchylka, která je odmocninou z rozptylu nebo variační koeficient, který dává směrodatnou odchylku do srovnání s průměrem a tím umožňuje porovnat míru variability různých proměnných nezávisle na jejich měřících jednotkách. Pro míry variability platí, že čím vyšší je jejich hodnota, tím vyšší je heterogenita neboli různorodost souboru.

Míry variability pro ordinální a nominální proměnné vycházejí z tzv. koncentrací.

Koncentracemi se označují jak relativní četnosti modálních kategorií tak i součty druhých mocnin relativních četností. Největší stejnorodosti dosáhne soubor tehdy, když všechny jeho jednotky nabudou jediné hodnoty. V tom případě je relativní četnost modální kategorie rovná jedné a míry variability jsou nulové. Nejvyšší rozdílnosti dochází u ordinálních a nominálních proměnných v jiných situacích. Pro nominální proměnné se používají jako míry variability statistiky nazývané variační poměr, nomvar a entropie.

Variační poměr n p n

v=1− _Mo =1− ^Mo , v∈<0; (K-1)/K> ^(1.2.) vychází z nejvyšší relativní četnosti. K označuje počet kategorií proměnné. Čím vyšší je modální četnost, tím nižší je míra variability. Variační poměr vlastně říká, kolik procent všech jednotek je v jiné kategorii než v modální.

Nomvar

( )

∑

= =

−

=

−

= ^K

i

i i K

i

i p p

p

1 1

2 1

1

nomvar , nomvar∈<0; (K-1)/K> (1.3.)

je také nazýván Giniho koeficientem. Vyjadřuje počet dvojic, které nejsou ve stejné kategorii.

Poslední jmenovanou mírou variability je entropie

∑

=

−

= ^K

i

i p

p

1

ln

H , H∈<0; ln K >. (1.4.)

Vydělení míry nomvar nebo entropie jejich nejvyšší hodnotou se získá normalizovaný nomvar a normalizovaná entropie. Ty se vyznačují tím, že jejich obor hodnot pokrývá uzavřený interval od nuly do jedné.

Pro určení míry variability u ordinálních proměnných se používá tzv. dorvar

( )

∑

=

−

= ^K

i

i P

P

1

1 2

dorvar , kde

∑

=

∀ ⁱ

j j

i p

P K i

1

: ,..., 2 ,

1 . (1.5.)

Dorvar nabývá hodnot z intervalu <0;(K-1)/2>. Svého maxima dosahuje dorvar v případě, kdy polovina všech jednotek nabývá maximální možné hodnoty proměnné a zbylá polovina minimální možné hodnoty. Dorvar lze opět převést na jeho normalizovaný tvar vydělením jeho maximální možnou hodnotou.

(15)

15

2 Transformace dat

⁸

2.1 Úvod

Transformacemi dat se označují takové úpravy dat, které mění charakter znaku, ale zachovávají stejné nebo alespoň podobné vlastnosti původního znaku. K transformacím se přistupuje, když je nutné splnit podmínky statistických metod, upravit data pro použití ve statistickém softwaru nebo zahrnout do analýzy pouze důležité jevy a ty vzácnější opominout.

2.2 Nominální proměnné

2.2.1 Nominální proměnné

Pokud jsou některé z kategorií nedostatečně zastoupené nebo volené nejednoznačně, je vhodné je z analýzy zcela vynechat. V případě, že je kategorie (nebo více kategorií) málo obsazená, je možné ji sloučit s jinou, více obsazenou, na základě podobnosti. Pokud se jedná o méně významné kategorie lze vytvořit speciální kategorii nazvanou “ostatní“ a do ní méně obsazené kategorie zahrnout.

Jsou-li výsledkem slučování kategorií pouze dvě kategorie, nazývá se tento postup dichotomizací. Při dichotomizaci se vybírají takové kategorie, které jsou si podobné a odpovídají určitému obecnějšímu aspektu. Zbývající kategorie se pak zahrnou do kategorie druhé.

Pokud se používají nominální proměnné v některých metodách, které byly původně vymyšleny pro proměnné numerické, musí se často před vlastní analýzou převést tyto nominální proměnné na binární proměnné. Protože se kategorie nominálních proměnných nevyznačují vztahy nadřazenosti a podřazenosti, při transformaci se zachovává jen informace, zda daná kategorie je nebo není přítomna. Přístupy v kódování dat se také mění na základě toho, jaká vícerozměrná metoda se použije.

Ve některých metodách⁹ je nutné použít pro každou z obměn jednu binární proměnnou, viz tabulka 2.1.

Tabulka 2.1. Nové proměnné

Rodinný stav A₁ A₂ A₃

Svobodný/á 1 0 0

Ženatý/Vdaná 0 1 0

Vdova/Vdovec 0 0 1

Pokud byla sledovaná osoba vdaná, nabude v jejím případě proměnná A1 hodnoty 0, A2 hodnoty 1 a A3 hodnoty 0. Protože kategorie mají stejnou důležitost, jsou vzdálenosti mezi nimi stejné.

8 Blíže viz [6] a [7]

9 Např. ve shlukové analýze nebo vícerozměrném škálování.

(16)

16 V minulém příkladě se převedení proměnných orientovalo hlavně na vzájemné vzdálenosti mezi umělými proměnnými. Kdyby se však proměnná “rodinný stav“ převedla opět na tři binární proměnné a ty by se pak použily v regresní analýze, byly by tyto umělé proměnné mezi sebou závislé. Ze znalosti hodnot první a druhé proměnné lze totiž snadno odvodit výši proměnné třetí. Vzájemná závislost proměnných, tzv. multikolinearita, má však negativní dopady na model. Aby se této multikolinearitě zabránilo, konstruuje se pro nominální proměnnou s k kategoriemi pouze k – 1 binárních proměnných, viz tabulka 2.2.

Tabulka 2.2. Kódování pro regresní analýzu

Rodinný s tav A₁ A₂

Svobodný/á 1 0

Ženatý/Vdaná 0 1

Vdova/Vdovec 0 0

Je-li osoba vdaná, nabývá proměnná A₁ hodnoty 0 a proměnná A₂ hodnoty 1. Jestliže se jedná o vdovu nebo o vdovce, jsou hodnoty A₁ i A₂ nulové.

2.2.2 Postup v případě vícehodnotových odpovědí

Někdy je třeba zjistit více odpovědí na jednu otázku, například jakými cizími jazyky mluví uchazeč o pracovní místo, nebo které noviny nejčastěji čte respondent výzkumu.

Odpovědi se pak zaznamenávají prostřednictvím ne jedné, ale několika proměnných.

Jedním ze základních přístupů, jak zaznamenat odpovědi do proměnných, je roztřídit otázku s k možnými odpověďmi na k binárních proměnných. Hodnota proměnné 1 pak znamená, že si respondent tuto odpověď vybral.

Odpovědi lze také kódovat určitými čísly. V uvedeném příkladu o novinách může MF Dnes odpovídat kód 1, Lidovým Novinám kód 2, Blesku kód 3 atd. Protože otázka mívá často omezený počet odpovědí (respondent si například může vybírat pouze tři čtené deníky), zaznamenají se odpovědi do tří proměnných. V případě, že respondent čte MF Dnes a Lidové noviny, bude tedy první proměnná nabývat hodnoty 1 a druhá proměnná hodnoty 2, do třetí proměnné se pak nebude nic zaznamenávat. K jednorozměrné analýze vícehodnotových odpovědí pak slouží speciální procedury přímo pro vícehodnotové odpovědi (multiple responses).

2.3 Ordinální proměnné

Stejně jako se slučují kategorie u nominálních proměnných, je možné slučovat málo obsazené kategorie i v případě proměnných ordinálních. Postup je zjednodušen tím, že vzájemné vztahy mezi kategoriemi jsou již známé a může se rovnou přistoupit ke slučování kategorií sousedních.

(17)

17 Provádí-li se slučování na základě např. pětihodnotové stupnice s dělícím bodem

“ani spokojen, ani nespokojen“, je možné pomocí spojování kategorií vytvořit několik proměnných s různými významy. Několik příkladů s novým kódováním znázorňuje tabulka 2.3.

Tabulka 2.3. Kódování ordinálních proměnných

Spokojenost s prací Původní kódování

Spokojenost/

nespokojenost

Důraz na spokojenost

Důraz na nespokojenost

Absence názoru

Jednoznačný názor

velm i nespokojen 1 A B A A C

nespokojen 2 A B A A B

ani spok. ani nespok. 3 B A A B A

spokojen 4 C A B A B

velm i spokojen 5 C A B A C

Zdroj: Řehák, Řeháková: Analýza kategorizovaných dat v sociologii

Jak již bylo řečeno, jsou ordinální proměnné na pomezí mezi kvantitativními a nominálními proměnnými. Někdy je potřeba převést ordinální proměnnou na nominální, neboli provést tzv. deordinalizaci. Potom se však ztrácí důležitá informace o vzájemném vztahu mezi kategoriemi. Kvantifikací se nazývá převedení ordinálního znaku na kvantitativní. Zopakuji, že ordinální proměnná nabývající alespoň sedmi znaků se symetrickým rozdělením podle mediánu je považována za kvantitativní intervalovou proměnnou.

Používají-li se ordinální proměnné v některých statistických metodách, je nutné zabezpečit, aby kódování proměnných zahrnovalo i informaci o pořadí jednotlivých kategoriích ordinální proměnné. Opět je třeba při kódování rozlišit, při jaké metodě bude kategoriální proměnná použita.

V případě použití ordinální proměnné o k kategoriích ve vícerozměrných metodách se přistupuje se k vytvoření k – 1 binárních proměnných, viz tabulka 2.4.

Tabulka 2.4. Kódování ordinálních proměnných

Vzdělání A₁ A₂

ZŠ 0 0

SŠ 1 0

VŠ 1 1

Tento přístup se také snaží eliminovat multikolinearitu. Třem kategoriím odpovídají pouze dvě proměnné, ale pro zpětnou identifikaci kategorií z vytvořených binárních proměnných i zachycení vzájemných vzdáleností je postup zcela postačující.

2.4 Kvantitativní proměnné

Mezi transformace kvantitativních proměnných patří již dříve zmíněná kategorizace.

Převedení kvantitativní proměnné na nominální nebo ordinální se pak nazývá dekardinalizací.

Z dalších transformací kvantitativních proměnných se často používají různé úpravy pro přiblížení rozdělení proměnné k normalitě.

(18)

18

3 Vícerozměrné metody 3.1 Úvod

Vícerozměrnými statistickými metodami se označují přístupy ke zkoumání dat pomocí analýz dvou a více proměnných. V této kapitole se budu věnovat pouze vybraným metodám, které použiji v pátém oddíle, při vlastní aplikaci metod na datech z výzkumu.

Nejprve budu popisovat metody hodnocení závislosti dvou a více proměnných pomocí kontingenčních tabulek. Analýza kontingenčních tabulek umožňuje sledovat jednostranné i obousměrné závislosti.

Další popisovanou metodou je logistická regrese, která slouží k nalezení vztahu mezi jednou vysvětlovanou kategoriální proměnnou a více proměnnými, které mohou být kvalitativní i kvantitativní.

3.2 Analýza kontingenčních tabulek

¹⁰

3.2.1 Popis dvourozměrné kontingenční tabulky

Kontingenční tabulkou se označuje tabulka vzniklá dvourozměrným tříděním souboru o rozsahu n jednotek podle kategorií 2 proměnných. Řádkům odpovídají kategorie jedné proměnné, sloupcům kategorie druhé proměnné. Znázornění četností v případě tabulky rozměru 2 x 2, neboli čtyřpolní (resp. asociační) tabulky uvádí následující příklad v tabulce 3.1.

Tabulka 3.1. Kontingenční tabulka

Kategorie znaku A W Z Celkem

X n₁₁ n₁₂ n₁₊

Y n₂₁ n₂₂ n₂₊

Celkem n₊₁ n₊₂ n

Kategorie znaku B

Tato kontingenční tabulka obsahuje v polích, která odpovídají kombinacím kategorií obou proměnných, tzv. sdružené četnosti nij. Součtem sdružených řádkových četností se zjistí marginální četnosti řádkové proměnné A ni+. Obdobně lze spočítat marginální četnosti sloupcové proměnné B n_+j. V případě, že se jedná o ordinální proměnné nebo kategorizované kvantitativní, je nutné kategorie ve sloupcích a řádcích odpovídajícím způsobem seřadit.

Po vydělení všech políček v kontingenční tabulce rozsahem souboru n se získají relativní sdružené četnosti p_ij a relativní marginální četnosti p_i+ a p_+j. Po vydělení sdružených četností četnostmi marginálními se obdrží podmíněné relativní četnosti vzhledem ke sloupci pi|j nebo řádku pj|i. Podmíněné relativní četnosti pi|j vyjadřují strukturu souboru vzhledem k řádkové proměnné A a pj|i pak vyjadřují strukturu souboru vzhledem ke sloupcové proměnné B

+ +

=

i ij i

ij j

i p

p n

p_| n ,

j ij j ij i

j p

p n p n

+ +

=

| = . (3.1.)

Četnosti z kontingenční tabulky lze snadno a přehledně znázornit pomocí sloupcových grafů, kde sloupce nebo části sloupců odpovídají absolutním nebo relativním četnostem.

Programy nabízejí dva typy grafů a to grafy shlukové a grafy kumulativní, kde relativní nebo

10 Blíže viz [1], [4], [6], [7] a [9]

(19)

19 absolutní četnosti odpovídají poměrným částem jednoho sloupce. Pokud proměnná nabývá méně kategorií, znázornění pomocí grafů s relativními četnostmi umožňuje snadno porovnat relativní četnosti navzájem pomocí výšek částí sloupce viz Graf 3.1.

Shlukový graf Kumulativní graf

Graf 3.1. Příklady shlukových a kumulativních grafů

3.2.2 Zkoumání vztahů mezi proměnnými v kontingenční tabulce

Pokud je o sledovaných jednotkách známo více informací prostřednictvím hodnot statistických znaků, je možné se ptát, zda mezi sebou mají tyto znaky nějaký vztah.

Lze si klást různé otázky, např. jestli jsou muži v zaměstnání spokojenější než ženy, jestli výše dosaženého vzdělání může ovlivnit názor na současnou politickou situaci apod. Pokud dvě proměnné spolu souvisí, například názor na politiku s výší dosaženého vzdělání, budou lidé s různým vzděláním odpovídat jinak, což se pak projeví různým rozdělením četností odpovědí podle vzdělání v kontingenční tabulce.

Určitý přehled o závislostech mezi proměnnými je možné zjistit z kontingenční tabulky obsahující podmíněné relativní četnosti. Pro snadnější ilustraci využiji k popisu jevů v kontingenční tabulce příkladu z dat z výukového souboru dat v SPSS. Jednalo se o výzkum prováděný v roce 1991, kterého se účastnilo 1517 respondentů. Náplní výzkumu byly sociální a patologické jevy obyvatel Spojených států.

Tabulka 3.3. Rozdělení ras podle regionů USA

Region Afroameričan Běloch Os tatní Celkový součet

JV USA 22,65% 73,98% 3,37% 100,00%

SV USA 12,08% 85,71% 2,21% 100,00%

Z USA 6,62% 88,65% 4,73% 100,00%

Vážený součet 13,45% 83,32% 3,23% 100,00%

Z tabulky 3.3. je zřejmé, že podíl Afroameričanů na celkovém obyvatelstvu se liší jak v různých regionech tak i v porovnání s celkovým průměrným podílem (řádek celkový součet). Rozdíly mezi četnostmi však nemusí být natolik veliké, aby bylo oprávněné očekávat, že se jedná o všeobecný jev. Jestli rozdíly mezi četnostmi jsou nebo nejsou významné, se určí pomocí testování statistických hypotéz o nezávislosti proměnných a hodnot měr intenzity závislostí.

Před použitím testu závislosti v kontingenční tabulce, je nutné nejdříve určit, o jaký typ proměnných se jedná. Pokud jsou obě proměnné nominální, přistupuje se k nim odlišně, než pokud jsou obě proměnné ordinální. U ordinálních má totiž smysl uvažovat i o směru závislosti, který může být kladný nebo záporný.

Pro výběr správné míry závislosti je také důležitá informace, jestli je závislost znaků jednostranná nebo vzájemná. O jednostranný vztah se většinou jedná, když se otázka týká názoru respondenta (určitého věku, pohlaví, vzdělání apod.) na určitou problematiku. Pokud však závisí jeden znak na druhém a obráceně bez ztráty smyslu, např. při sledování názorů

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

Muž Žena

Zastoupení rasy v %

Afroameričan Běloch Ostatní

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Muž Žena

Zastoupení

rasy v % Afroameričan

Běloch Ostatní

(20)

20 manželů na stejnou problematiku, je závislost oboustranná.

Na výběr použitého testu má vliv i rozměr tabulky. Některé testy lze použít jen v případěčtvercových tabulek, zejména čtyřpolních.

V tomto oddíle se budu věnovat testováním a mírám intenzity závislostí v kontingenční tabulce. Z nich se zaměřím na testy a statistiky, které používá systém SPSS.

3.2.3 Šance a poměry šancí

Šance a poměry šancí slouží nejen k hodnocení závislostí, ale využívají se také v řadě vícerozměrných metod, jako je logistická regrese nebo loglineární modely.

Šance se získají vydělením dvou podmíněných relativních četností příslušejících jedné podmínce navzájem. Šance tedy srovnává podmíněné relativní četnosti v jednom řádku nebo sloupci:

´

´ ij

ij ij ij i j

i j

n n p p p

p = =

|

| ,

j i

ij j i

j i

n n p

p p

p

´

=

|

| . (3.2.)

Při popisu a interpretaci šancí budu opět vycházet z tabulky 3.3. obsahující podmíněné relativní četnosti národností v jednotlivých regionech Spojených států.

V uvedeném příkladu je šance, že respondent z jihovýchodu USA bude spíš běloch než afroamerické rasy ve výši

27 , 2265 3 , 0

7398 , 0

1

| 1 1

| 2

|

´

| = = =

p p p p

i j

i

j .

Na severovýchodě USA je pak výše šancí pro stejné rasy jiná než na severovýchodě 10

, 1208 7 , 0

8571 , 0

2

| 1 2

| 2

|

´

| = = =

p p p p

i j

i

j .

Pokud se srovná struktura relativních četností pro dvě již sledované rasy na severovýchodě a jihovýchodě je patrné, že jejich struktura se liší.

Jsou-li zjištěné řádkové šance, lze přistoupit k sestrojení poměru šancí _Θ_ij, který porovnává šance ve dvou řádcích, a to i-tém a i´-tém. Pokud je poměr šancí roven jedné, znamená to, že šance v obou řádcích jsou shodné a sledované proměnné jsou nezávislé.

V předchozím příkladu by bylo možné porovnávat rozdíl ve struktuře ras respondentů na severovýchodě a jihovýchodě

42 , 41 1 , 5

68 , 7

12= =

Θ .

Obdobně je možné sestrojit i sloupcové poměry šancí. Obecně může nabýt poměr šancí nabýt libovolné nezáporné hodnoty. Protože je pro charakteristiky intenzity závislosti obvykle nabývají hodnot z intervalu od 0 do 1, kde 1 signalizuje závislost a 0 nezávislost, používá se přirozený logaritmus poměru šancí

i j i j

i j i j i j i j

i j i j

ij n n

n n p p

p p p p

p p

|

´

´ = =

=

Θ ,lnΘ_ij⁻¹ =−lnΘ_ij. (3.3.)

Poměry šancí jsou dostatečně vyčerpávající mírou intenzity závislostí pro čtyřpolní tabulky. Pro rozměrnější tabulky jsou vhodné v případě porovnání šancí dvou kategorií.

(21)

21 3.2.4 Testování závislostí v kontingenční tabulce

Závěry z hodnocení závislostí dvou proměnných slouží k úvahám o vzájemných vztazích v souboru. Na tyto závěry pak mohou navázat další metody vícerozměrné analýzy.

Většina testů vychází z úvahy, že v případě nezávislosti obou proměnných by velikost sdružených četností měla záviset pouze na velikosti řádkových a sloupcových marginálních četností

n n p n

np

m_ij = _i₊ ₊_j = ⁱ⁺ ⁺^j ,

∑ ∑

= +

=

+ = = ^r

i ij i

s

j ij

i n n n

n

1 1

, . (3.4.)

Četnosti m_ij, které jsou poměrnou částí řádkových a sloupcových četností, se nazývají očekávanými (teoretickými) četnostmi. Závislost proměnných se pak projeví různou velikostí teoretických a skutečných (empirických) četností, tzv. reziduí n_ij −m_ij.

Porovnávání reziduí na základě rozdílu však neumožňuje srovnání nezávislé na měřítku. Proto se přistupuje k standardizacím. Např. při znaménkovém testu se používá tzv. normalizované (Habermanovo) reziduum

) 1 )(

1 ( )

)(

( _ij _i _j

ij ij j

i ij

ij ij

ij m p p

m n n

n n n m

m n n

z

+ +

+

+ − −

= −

−

= − . _(3.5.)

Normalizované residuum má při splnění určitých podmínek normální rozdělení.

Velice často se používá chí-kvadrát test nezávislosti s následující testovou statistikou:

( )

∑∑

= =

= ^r −

i s

j ij

ij ij

m m n

1 1

2

χ2 . (3.6.)

Testová statistika má χ² rozdělení s (r – 1)(s – 1) stupni volnosti, kde r označuje počet řádků a s počet sloupců. Pro použití chí-kvadrát testu je nutné, aby 80% všech teoretických četností bylo alespoň rovno 5 a zbylých 20% teoretických četností nabývalo hodnoty nejméně 1. Hypotézu o nezávislosti se zamítá na hladině významnosti α, překročí-li hodnota testového kriteria kvantil χ₁²₋_α.

Dalším testem sloužícím k posouzení závislosti dvou proměnných je test věrohodnostním poměrem. Testové kriterium srovnává maximum věrohodnostní funkce výběrových četností s maximem věrohodnostní funkce sestrojené za předpokladu nezávislosti proměnných. Při tomto testu se předpokládá, že sdružené četnosti mají multinomické rozdělení

∏∏

= =

= = + +

=

Λ _r

i s

j ij n

r

i s

j

j i

nij nij

n n

1 1

) (

, G² =−2lnΛ. _(3.7.)

Při praktické interpretaci se používá spíše transformace věrohodnostní funkce G². Výhodou statistiky G² je, že konverguje k chí-kvadrát rozdělení s (r – 1)( s – 1) stupni volnosti. Protože je rozdělení chí-kvadrát pouze asymptotické rozdělení statistiky G², vyžaduje se splnění podmínek dostatečné obsazenosti polí kontingenční tabulky, tj. všechna políčka by měla mít teoretickou absolutní četnost vyšší než 5.

(22)

22 V případě, že podmínky ohledně dostatečné obsazenosti políček nejsou splněny, existuje několik přístupů, které se snaží tento problém vyřešit. Jednou z možností je sloučit kategorie s malou obsazeností políček s jinými kategoriemi. Slučování se provádí na základě podobnosti kategorií nebo sousednosti kategorií v případě ordinálních proměnných. Často se také přistupuje k tzv. exaktním testům, které vycházejí z pravidel kombinatoriky a při jejichž použití se neztrácí informace o celkové struktuře četností.

Nejznámějším exaktním testem je Fisherův test, který je však výpočetně velmi složitý.

Pro čtyřpolní tabulku se proto často používá aproximace Fisherova testu pomocí korigované Pearsonovy statistiky neboli Yatesovy korekce

2 2 1 1

2 21

12 22

2 ( 11 2)

+ + + +

−

= −

n n n n

n n n n n n

χC . ^(3.8.)

Upravená statistika χ_C² má chí-kvadrát rozdělení s jedním stupněm volnosti. Výhodou Yatesovy korekce oproti Fisherovu testu je rychlejší a jednodušší výpočet.

V případě, že na zvolené hladině významnosti α byla prokázána závislost obou proměnných, je možné zkoumat, která políčka kontingenční tabulky přispěla k zamítnutí hypotézy. K odhalení významných rozdílů mezi očekávanými a zjištěnými četnostmi slouží znaménkové schéma odchylek. Znaménkové schéma se sestavuje na základě normalizovaných (Habermanových) reziduí z_ij, které mají asymptoticky normované normální rozdělení.

Vypočítají se Habermanova rezidua pro celou tabulku. Pokud je n_ij větší než m_ij, přiřadí se poli kladná znaménka, v opačném případě znaménka záporná. Významnost rozdílu mezi empirickými a teoretickými četnostmi se pak určí na základě porovnání Habermanova rezidua s kvantily normovaného normálního rozdělení. Pokud je absolutní hodnota residua vyšší než kvantil u0,975 =1,96 přiřadí se jedno znaménko, než kvantil u0,995 =2,58 dvě znaménka a překročení kvantilu u0,9995 =3,29 odpovídají tři znaménka.

V případě závislých pozorování, např. při testování shody názorů, se používají další speciální testy jako McNemarův test pro čtyřpolní tabulku nebo jeho forma pro rozsáhlejší tabulku McNemarův - Bowkerův test.