Hlavní práce75642_bero04.pdf, 2 MB Stáhnout

(1)

Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky

Kontrola kvality dat v datovém skladu a její reporting

DIPLOMOVÁ PRÁCE

Studijní program: Aplikovaná informatika Studijní obor: Informační systémy a technologie

Autor: Bc. Ondřej Bergman

Vedoucí diplomové práce: doc. Ing. Ota Novotný Ph.D.

Praha, květen 2021

(2)

(3)

Poděkování

Tímto bych rád vyjádřil vděk doc. Ing. Otovi Novotnému Ph.D. za způsob jakým mě vedl při psaní této práce a děkuji za veškeré podněty a připomínky směřující ke zkvalitnění po obsahové i formální stránce. Stejnou měrou děkuji svým spolupracovníkům za jejich vstřícnost a podporu bez kterých by zhotovení této práce bylo výrazně těžším a méně obohacujícím úkonem.

(4)

Abstrakt

Diplomová práce se zabývá řešením datové kvality v rámci datového skladu finanční instituce, kde je hlavním cílem implementace pilotního řešení projektu kontroly datové kvality a návrh jejího budoucího reportingu. V prvních kapitolách se nachází rešerše odborné literatury následované analýzou pojmů spjatých s problematikou, jakými jsou data, způsoby jejich uchovávání, práce s daty a jejich kategorizace. Následně jsou popsány oblasti řízení kvality dat – vysvětleny pojmy data management, data governance a business intelligence. Prostřední kapitola je věnována samotné datové kvalitě, její definici, návaznosti na ostatní odvětví a tvoří tak teoretické jádro pro praktickou realizaci zavedení datových kontrol. V závěrečných kapitolách práce je řešena praktická implementace pilotního řešení, nejprve definice samotného projektu a analýza současného stavu datové kvality ve zkoumané instituci doplněná o popis komponent vstupujících do současného řešení monitoringu datové kvality a jejich možnost dalšího využití v rámci námi zkoumaného projektu. Předposlední kapitola plní hlavní cíl této práce, kde nalezneme aplikované řešení znázorněné na příkladu dvou pilotních datových kontrol. V závěru práce se následně nachází návrh budoucího vývoje projektu ve směru úprav struktur a možnosti přidání uživatelsky přívětivých nástrojů zajišťujících dashboarding či alerting.

Klíčová slova

Datová kvalita, Business intelligence, Datový sklad, Datová kontrola

JEL klasifikace

C80, D80, M15

(5)

Abstract

The diploma thesis deals with the solution of data quality within the data warehouse of a financial institution, where the main goal is the implementation of a pilot solution of the data quality control project and the proposal of its future reporting. The first chapters contain a search of the literature, followed by an analysis of concepts related to issues such as data, methods of storing them, working with data and their categorization. Subsequently, the areas of data quality management are described - the concepts of data management, data governance and business intelligence. The middle chapter is devoted to the data quality itself, its definition, connection to other industries and thus forms a theoretical core for the practical implementation of data controls. The final chapters deal with the practical implementation of the pilot solution, first the definition of the project itself and analysis of the current state of data quality in the researched institution supplemented by a description of components entering the current data quality monitoring solution and their possibility of further use in our project. The penultimate chapter fulfils the main goal of this work, where we find the applied solution shown on the example of two pilot data checks. At the end of the work, there is a proposal for the future development of the project in the direction of modifications of structures and the possibility of adding user-friendly tools providing dashboarding or alerting.

Keywords

Data Quality, Business Intelligence, Data Warehouse, Data Control

JEL Classification

C80, D80, M15

(6)

Obsah

Úvod ... 12

1 Rešerše dostupné literatury ... 15

1.1 Odborná literatura ... 15

1.2 Závěrečné práce ... 16

2 Data a jejich využití ... 17

2.1 Rozdělení dat ... 17

2.2 Vznik dat ... 19

2.3 Centralizace dat ze zdrojových systémů ... 20

2.4 Datový tok v rámci datového skladu ... 21

2.5 Proces ETL ... 22

2.6 Ucelení dat ... 23

3 Oblasti řízení kvality dat ... 24

3.1 Data management ... 24

3.2 Data governance ... 26

3.3 Business intelligence ... 29

3.4 Závěr k řízení dat ... 29

4 Datová kvalita ... 31

4.1 Definice ... 31

4.2 Dimenze datové kvality ... 32

4.3 Příklady a dopady nekvalitních dat ... 33

4.4 Datová kontrola ... 34

4.5 Kategorizace datových kontrol ... 35

4.6 Rekapitulace datové kvality ... 36

5 Vymezení projektu datové kvality ... 37

5.1 Dosavadní řešení ... 37

5.1.1 Čištění a oprava databáze klientů ... 38

5.1.2 Účetní verifikace | Controlling ... 38

5.1.3 Automatické sledování kvality ETL ... 38

5.1.4 Regulatorní datová kvalita ... 40

5.1.5 Kvalita dat skupiny ... 41

5.2 Napojení na dosavadní řešení ... 41

5.3 Cíle a limity projektu ... 42

5.4 Řešitelský tým projektu datové kvality ... 43

(7)

5.5 Souhrn vymezení projektu ... 43

6 Realizace projektu datové kvality ... 44

6.1 Postup zadání datové kontroly ... 44

6.1.1 Technické provedení ... 44

6.1.2 Vazby mezi strukturami ... 48

6.1.3 Role ... 48

6.2 Pilotní zadání kontrol ... 50

6.2.1 Fiktivní IČO klienta. ... 50

6.2.2 Neuvedené místo narození v CMD ... 52

6.2.3 Výsledek kontrol ... 54

6.3 Překážky v realizaci ... 56

6.4 Zhodnocení kapitoly ... 57

7 Návrh dalšího postupu ... 58

7.1 Připravované aktivity ... 58

7.1.1 Dashboard ... 58

7.1.2 Alert ... 60

7.2 Proces zlepšení datové kvality ... 62

7.3 Závěr k návrhu dalšího rozvoje projektu ... 62

Závěr ... 63

Použitá literatura ... 65 Přílohy ... I Příloha A: Popis atributů tabulek ... I Příloha B: Popis atributů skriptů ... V

(8)

Seznam obrázků

Obrázek 1 - Struktura datového skladu (MAHANTI, 2019) ... 21

Obrázek 2 – Vztah mezi data governance a data managementem (DAMBOK 2017) ... 27

Obrázek 3 - Složení komponent data governance (DAMBOK, 2017) ... 28

Obrázek 4 - Ukázka chyb v zákaznických datech (MAHANTI, 2019) ... 33

Obrázek 5 - Ukázka chyb v duplikaci (MAHANTI, 2019) ... 34

Obrázek 6 - Přehled dosavadních komponent starající se o datovou kvalitu ... 37

Obrázek 7. - Struktura komponent řešení (vlastní zpracování) ... 44

Obrázek 8 - Grafický model vztahů mezi tabulkami řešení datové kvality (vlastní zpracování) ... 48

Obrázek 9 - Návrh dalšího budoucího vývoje projektu datové kvality (vlastní zpracování) ... 58

Obrázek 10 - Souhrnný dashboard datové kvality pro útvar data governance (vlastní zpracování) ... 59

Obrázek 11 - Ukázka dashboardu vývoje počtu výskytů nekvalitních dat (vlastní zpracování) ... 60

Obrázek 12 - Ukázka alertu v systému JIRA (vlastní zpracování) ... 61

(9)

Seznam tabulek

Tabulka 1 - Typy dat (MAHANTI 2019) ... 17

Tabulka 2 - Porovnání možnosti plnění (vlastní zpracování, 2021) ... 23

Tabulka 3 - Příklad číselníku chyb datových kontrol (vlastní zpracování) ... 40

Tabulka 4 - Role v procesu nastavení datové kontroly (vlastní zpracování) ... 49

Tabulka 5 - Ukázka hodnot pilotních kontrol v tabulce CDS_COUNTS (vlastní zpracování) ... 54

Tabulka 6 - Ukázka hodnot pilotních kontrol v tabulce CHECKS (vlastní zpracování) ... 54

Tabulka 7 – Výpis tabulky CHECKS_GEN naplněné pilotními kontrolami (vlastní zpracování) ... 55

Tabulka 8 - Přehled cílů práce a jejich plnění v jednotlivých kapitolách ... 63 Tabulka 9 - Přílohový popis atributů tabulky CDS_COUNTS (vlastní zpracování) ... I Tabulka 10 - Přílohový popis atributů tabulky ENTRY (vlastní zpracování) ... II Tabulka 11 - Přílohový popis atributů tabulky ATTRIB (vlastní zpracování) ... II Tabulka 12 - Přílohový popis atributů tabulky CODELIST (vlastní zpracování) ... II Tabulka 13 - Přílohový popis atributů tabulky CHECKS (vlastní zpracování) ... III Tabulka 14 - Přílohový popis atributů tabulky CHECKS_GEN (vlastní zpracování) ... IV Tabulka 15 - Přílohová tabulka k výpisu kódu číslo 2 ... V Tabulka 16 - Přílohová tabulka k výpisu kódu číslo 3 ... V

(10)

Seznam výpisů programového kódu

Výpis kódu 1 - SQL příkaz pro vytvoření tabulky disponující daty z ETL kontrol (vlastní zpracování) ... 39 Výpis kódu 2 - SQL příkaz pro vytvoření tabulky entry přebírající hodnoty ze systému POS (vlastní zpracování) ... 46 Výpis kódu 3 - SQL příkaz pro vytvoření tabulky attrib přebírající hodnoty ze systému POS (vlastní zpracování) ... 46 Výpis kódu 4 - SQL příkaz pro vytvoření tabulky codelist přebírající hodnoty ze systému POS (vlastní zpracování) ... 46 Výpis kódu 5 - SQL příkaz pro vytvoření tabulky checks pro ukládání detailního výstupu datových kontrol (vlastní zpracování) ... 47 Výpis kódu 6 - SQL příkaz pro vytvoření tabulky checks_gen pro ukládání popisu sloupců detailního výstupu datových kontrol (vlastní zpracování) ... 47 Výpis kódu 7 - Ukázka výpočtu první pilotní datové kontroly (vlastní zpracování) ... 51 Výpis kódu 8 - Ukázka výpočtu druhé pilotní datové kontroly (vlastní zpracování) ... 53

(11)

Seznam zkratek

BI Business Intelligence CDS Centrální datový sklad

CMD Configuration Management Database CRM Customer Relationship Management DM Data Management

DMBOK Data Management Body of Knowledge DMM Data Management Maturity Model

DQ Data Quality

DWH Datový sklad

ELB Systém elektronických kanálů ETL Extract Transform Load

GDPR General Data Protection Regulation

PC Procesní centrum

POS Požadavkový systém RP Reportingový portál SAS Statistical Analysis System ÚSIS Účtový správní interní systém

(12)

Úvod

V současném světě jsou již data neodmyslitelnou součástí našich životů. Jejich role stále nabývá čím dál většího významu, protože právě díky nim jsme schopni daleko lépe predikovat různé skutečnosti, rozšiřovat znalosti v různých oborech a rozhodovat se v různých situacích. Aktuální technické možnosti umožňují sběr, uchování a zpracovávání obrovského množství dat. Tato data je však potřeba kontrolovat, aby dosahovala požadovaných kvalit. Zdrojové systémy svými daty často plní pracovníci nebo dokonce sami klienti a je zde veliké riziko zadání nevyhovujících hodnot, které poté v datovém skladu mohou působit potíže až při následném reportingu.

Datová kvalita se tak stala termínem nejen ve velkých korporacích s obrovskými datovými sklady, ale pozornosti neuniká ani na podnikatelské sféře, kde se všichni snaží zamezit chybovosti lidského faktoru a zavádějí například dvojí kontrolu v případě vyplňování docházek, čerpání dovolené a podobně. Na druhou stranu čím více dat uchováváme a zpracováváme, tím větší je riziko, že si zaneseme některá nekvalitní data a bude nasnadě je následně opravovat.

Vymezení, předpoklady a důvod výběru tématu

Hlavním důvodem výběru tématu Kontrola kvality dat v datovém skladu a její reporting je autorovo působení v rámci týmu reportingu v datovém skladu finanční instituce. Zároveň jde o dobrou příležitost při sbírání zkušeností v průběhu práce a také touha po poznání nových spojitostí a získání dalších dovedností velmi dobře uplatnitelných ve zvoleném oboru práce. Do jisté míry je výběr tohoto tématu také vyústění snahy ve větší propojení akademické a pracovní stránky života.

Omezení práce spočívá v ochraně know-how finanční instituce a také dodržování GDPR a dalších právních dokumentů, kterými jsou autor a instituce vzájemně zavázáni. Praktická ukázka zavedených datových kontrol tedy neobchází žádná interní nařízení finanční instituce a obsahuje anonymizovaná data nutná pro správnou ilustraci popisovaného řešení.

Předpokladem pro řádné vypracování definované práce je přístup k řešení datové kvality ve finanční instituci. Účast na projektu nebo alespoň umožněn náhled do probíhajících aktivit na projektu ohledně datové kvality a zároveň možnost využití znalostí kolegů, kteří se na projektu podílejí. Práce není přímo vázána na časový harmonogram projektu datové kvality, ale vyžaduje, aby bylo řešení alespoň částečně pilotováno a mohlo tak být uvedeno jako praktický příklad zavedení sledování datové kvality.

Cíle práce a způsob jejich dosažení

Hlavním cílem práce je implementace pilotního řešení projektu řízení datové kvality ve finanční instituci. K dosažení hlavního cíle je nutné nejprve analyzovat datovou kvalitu, osvětlit s čím datová kvalita souvisí a jaké jsou úskalí při nezavedení nebo při nesprávném

(13)

zkoumaného datového skladu a vytyčit jejich limity. Před samotnou implementací pilotního řešení projektu je vymezeno zadání projektu a jsou známy i požadavky na výsledek projektu datové kvality. Dále jsou v práci teoretické pojmy věcně vsazeny do praxe díky popisu pilotního řešení v rámci datového skladu finanční instituce a shrnutí událostí při jeho realizaci. Pro rekapitulaci jsou cíle rozděleny následovně:

Hlavní cíl:

Implementace pilotního řešení projektu kontroly datové kvality ve finanční instituci a návrh jejího budoucího reportingu

Podcíle:

Analýza pojmu datové kvality a s ním spojená odvětví (BI, Data governance, …) Analýza dat v datovém skladu

Analýza dosavadních řešení kontroly datové kvality Vymezení projektu řešení datové kvality

Pilotní řešení projektu v rámci sandbox prostředí

Návrh na další postup a zavedení reportingu datové kvality

Cíle je dosaženo za pomoci výběru vhodné literatury pojící se s tématikou datové kvality a také vlastní zkušenosti autora při práci na projektu ve finanční instituci. Nemalý vliv na výsledný cíl mají také kolegové autora spolupodílející se na projektu.

Struktura práce

Práce vychází dle doporučení Katedry informačních technologií Vysoké školy ekonomické v Praze a je rozčleněna do jednotlivých kapitol. V úvodu každé kapitoly se nachází teoretické ukotvení termínů a vybrané informace pramenící z literatury popisující danou tematiku.

V závěru části každé kapitoly je popsána praktická část práce, která představuje řešení datové kvality v rámci finanční instituce.

Názvy hlavních kapitol práce vychází přímo z podcílů diplomové práce tedy:

- Data a jejich využití

Pod touto kapitolou nalezneme rozdělení dat, přístup k nim, jejich vznik ve zdrojových systémech a věnujeme se rizikům spojeným s daty odebíranými a hledíme na práci s daty v rámci datového skladu.

- Oblasti řízení kvality dat

V této kapitole se věnujeme do hloubky pojmům Data management, Business inteligence a Data governance. Čerpáme z odborné literatury a popisujeme základní vazby těchto termínů, jejich zavedení a funkce v rámci finanční organizace.

(14)

- Datová kvalita

Zde se nachází definice datové kvality, propojení s ostatními odvětvími zabývající se daty v rámci organizace a její dosavadní řešení.

- Vymezení projektu datové kvality

V této kapitole nalezneme informace o projektu datové kvality a popisujeme zde řešení datové kvality, její napojení na dosavadní řešení v rámci datového skladu finanční instituce a její budoucí úlohu v organizaci.

- Realizace projektu datové kvality

Pod následující kapitolou se skrývá praktická část, naplánovaná datová struktura a tok dat v rámci řešení datové kvality. Je zde prakticky znázorněna návaznost na současné aplikace používané v instituci a provázanost komponent pro zajištění automatického chodu kontrol.

- Návrh dalšího postupu a zavedení reportingu

Zde se dostaneme na závěr zkoumání, kde je projekt úspěšně pilotován a můžeme navrhnout na základě zavedené práce další nadstavbový postup, který obsahuje převážně možnost reportingu z nově vzniklých dat týkající se datové kvality.

Očekávané přínosy

Tuto práci by měl shledávat jako přínosnou každý, kdo se zajímá o tématiku datové kvality a chce se dozvědět, jak mohou být koncipována řešení v této oblasti. Přínosem zavedení datové kvality jako takové v rámci finanční instituce jsou více obsaženy více v popisu řešení.

Práce může sloužit jako podklad pro vlastní zavádění datových kontrol v organizaci a jejich následný reporting.

Velkým přínosem pro autora je, že se díky takto zvolenému tématu podíval za hranice své současné agendy a bylo mu umožněno podílet se přímo na projektu zabývajícím se datovými kontrolami, tvorbou nových databázových struktur a další agendy s tím spojené.

(15)

1 Rešerše dostupné literatury

Téma datové kvality v rámci různých datových skladů je velmi aktuální, není tedy divu, že disponujeme i velikou nabídkou různých informačních zdrojů, které se k tématu pojí.

V této práci je dbáno především na to, aby se teoretická znalost přebírala z ověřených a co nejaktuálnějších dohledatelných pramenů. Mezi nejaktuálnější práce se řadí závěrečné práce studentů nebo odborné vědecké články přebírané z online rejstříků jakými jsou Web of Science nebo Scopus. Méně aktuální ale zato dobře zdokumentovaná teoretická ukotvení jsou k nalezení v knihách nebo jejich úryvcích, které jsou k nalezení buďto fyzicky v knihovnách nebo za pomoci služby Google Scholar.

V části rešerší se zabýváme právě sběrem takovéto literatury, která nejvíce odpovídá našemu záměru analýzy a podporuje uskutečnění hlavního cíle práce spočívající v implementaci pilotního řešení při přístupu k již zdokumentovaným best practices.

Práce je od začátku definována a psána tak, aby bylo zřejmé, odkud plyne teoretické zázemí problematiky a nastiňuje rovnou i praktický příklad řešený v rámci datového skladu finanční instituce. Zároveň závěrečné práce zmíněné zde v rešerši slouží nejen jako zdroj informací, ale také jako příklad, jak by se mělo nebo nemělo analyzovat a autor se zde snaží díky tomuto srovnání vysvětlit čtenáři terminologii s vyvarováním se některých chyb u srovnatelných prací.

1.1 Odborná literatura

Tato práce čerpá základní poznatky a teoretická ukotvení termínů v publikaci nazvané Data management body of knowledge zkráceně DAMA-DMBOK, konkrétně její druhé rozšířené vydání z roku 2017. Kniha obsahuje velmi rozsáhle množství informací na 628 stránkách.

Omezeni rozsahem máme v této práci k dispozici pouze výseč informací přímo spojitelných s praktickým využitím v našem pilotním řešení. Velmi dopodrobna je zde popsáno business intelligence, data management, data governance, data quality, metadata a další pojmy bez kterých se neobejdeme v prvních třech kapitolách této práce. Hlavní informace jsou k dohledání už v první kapitole knihy, která je věnovaná data managementu. Odkud přebíráme definice a teoretické ukotvení termínů a zkratek. Na data management dále navazuje data governance ve třetí kapitole. V menší míře se dotkneme také kapitol 4 a 6 věnovaných datové architektuře a datovém úložišti jako takovém. Samotnou datovou kvalitu přejímáme z kapitoly 13 této knihy, která je stěžejní pro tuto práci a její správné začlenění mezi odbornou literaturu. V poslední kapitole s číslem 17 je popsán proces change managementu, který se projektu implementace datové kvality rovněž týká, ovšem v této práci se mu budeme věnovat pouze okrajově, protože její podrobný popis by se příliš vzdálil našemu tématu.

Kniha s názvem Data Quality: Dimensions, Measurement, Strategy, Management, and Governance z roku 2018 nahlíží na datovou kvalitu podobně s uvedenými příklady

(16)

datových kontrol, které se zavádějí na různých úrovních dat. Tato publikace je tak cenným zdrojem informací pro nastínění problematiky při zpracovávání projektu datové kvality v rámci finanční instituce.

Poslední odbornou publikaci, kterou si dovolím zmínit jako významnou pro tuto práci je kniha sepsaná autory působícími na akademické sféře též na Vysoké škole ekonomické v Praze. Jedná se o titul s názvem Self service business intelligence od autorů Jana Poura, Miloše Maryšky, Ivy Stanovské a Zuzany Šedivé. Známá jména, která vedla autora v hned několika předmětech v rámci studia a dopomohla k výběru tématu a kariérnímu zaměření právě do sféry business intelligence. Práce se zabývá definicí právě BI a také principům automatizace v rámci BI, což je koncept blízký našemu zkoumání v této práci.

1.2 Závěrečné práce

Závěrečných prací na téma datové kvality je vícero. Ke zdárnému vytvoření této práce posloužily primárně publikace také z Vysoké školy ekonomické v Praze. Primárním měřítkem zde byla doba obhajoby práce, kde se snažíme čerpat z co nejnovější prací.

Stěžejní prací, ze které bylo čerpáno pro tuto publikaci je dílo inženýrky Lorinczové na téma Praktická implementácia riešenia pre generovanie incidentov na základe nálezov dátovej kvality. Autorka zde, jak již z názvu vyplývá, popisuje práci týmu v jiné finanční instituci, kde se také zabývali datovou kvalitou v rámci pracovního týmu autorky. Výstupem byl reportingový nástroj na bázi JIRA, kde se automaticky generovaly incidenty díky nastaveným kontrolám datové kvality v jejich datovém skladu. Práce je tedy velmi přínosnou ukázkou, jak byla problematika řešena v rámci tržní konkurence finančních institucí v ČR.

Další informačně bohatou prací je dílo Michala Frýby z roku 2020, kde se autor zabývá především data governance a softwarovými nástroji, které pomáhají v komerční sféře k pokrytí této problematiky. Nalezneme zde analýzu trhu s těmito produkty a následné vyhodnocení s doporučením pro dané podniky. Oblast data governance řešíme v rámci data quality managementu, proto tento zdroj považuji za velmi platný a přínosný hlavně v pro úvodní zasazení tématu pro čtenáře.

Posledním zdrojem závěrečných prací, který si dovolím popsat je práce Davida Kukly na téma Datová kvalita v rámci DWH z roku 2019. Jedná se o bakalářskou práci, ve které autor podrobně rozebírá datovou kvalitu v prostředí pojišťovny. Práce je velmi přínosná z pohledu porovnání poskytnutí relevantních informací čtenáři a také náhled do dalšího praktického řešení datové kvality v rámci finanční instituce.

(17)

2 Data a jejich využití

Data jsou již důležitou součástí každého startupu i větší firmy. Sbírají se totiž kdekoliv od návštěvy webů, registraci nebo využívání služeb až po sociální sítě. Dlouhou dobu nikoho příliš nezajímalo, jak se s daty nakládá a pro jaké vedlejší účely jsou využívána. Časy se však mění a díky různým kauzám kolem správy dat jsou lidé obezřetnější. Firmy jsou tak nuceny být transparentnější a mnohdy si uvědomí, že data mohou být často cennější než jádro jejich byznysu. Data jsou surovinou, na níž je ekonomika, společnost a demokracie postavená čím dál více, stala se ropou 21. století. (HORÁK 2020)

Pro správné nakládání s daty je však nutné pochopit principy při práci s nimi. Pro ilustraci si můžeme představit zmíněnou ropu. Stejně jako ropa je přenášena v barelech nebo proudí ropovody, i data je třeba uchovávat v předem definovaném prostředí, aby nebyla narušena jejich konzistence a jejich přenos byl bezpečný. V této kapitole se věnujeme právě těmto principům a zastavíme se na stupních životního cyklu dat od jejich vzniku až po archivaci nebo odstranění.

2.1 Rozdělení dat

Data lze rozdělit různými způsoby a hned dle několika hledisek. Pro úplnost je třeba upozornit, že námi zkoumaný případ pracuje s uložením dat v relačních databázích na bázi dotazovacího jazyka SQL. Existuje více přístupů k uložení dat a jejich uchovávání a tím se štěpí i jejich možná rozdělení do kategorií. Účel této práce je plně dostačující rozdělení popsané v tabulce níže.

Tabulka 1 - Typy dat (MAHANTI 2019)

Kategorie Popis Příklad

Master data Hlavní hodnota Klient, produkt

Referenční data Odkazují se na hodnotu zavedenou v číselnících

PSČ, seznam měn, seznam států

(18)

Transakční data Údaje o událostech spojených s podnikáním

Přihlášení uživatele, uzavření smlouvy, naskladnění zboží

Historická data

Přidání časové dimenze ve shromažďování a práci s

daty

Změna jména, historie poskytnutých služeb

Metadata Charakterizují a popisují ostatní data a práci s nimi

Název tabulky, velikost pole, datový typ

Pojmem master data se rozumí základní charakteristika části business aktivity nebo procesu organizace. Typicky se dá tento typ dat rozpoznat díky tomu, že je snadno pojmenovatelný podstatným jménem jak je již vysvětleno v tabulce, jedná se o zákazníky, produkty, materiály, dodávky, a další typy které nejsou definovatelné jako data transakční. Dají se typicky shlukovat dle různých hledisek ku příkladu dle lokace.

Master data jsou poskládány díky referenčním datům do takzvaných master záznamů.

Takový záznam si můžeme představit jako jméno a příjmení zákazníka obohaceno o referenční data, kterým mohou být kódy země, ze které klient pochází nebo poštovní směrovací číslo klientova trvalého bydliště.

Možné chyby v master datech bývají velmi podstatným rizikem pro chod byznysu.

Pro představu si můžeme uvézt příklad chybných master dat v podobě závadného čísla účtu klienta, na který má být vyplacena finanční částka. Případně špatně zadaná cena produktu nebo služby implikuje v přímou finanční ztrátu a nutnost korekčního zásahu. Z těchto příkladů je patrné, že i triviální chyba v jednom znaku pole může způsobit velmi závažné důsledky.

Referenční data jsou sadou předem domluvených hodnot, které korespondují s nějakým textovým popisem a odkazují se na master data nebo transakční data. Tato data si může sama vytvářet tento typ dat (produktové kódy, kódy rozlišující typy transakcí, …) nebo je přejímá z externích autorit jakými můžou být veřejné seznamy (PSČ, měnové kódy, …).

Standardizované kódování některých hodnot napomáhá k další integraci a lepšímu porozumění mezi organizacemi. Jedním takovým standardem používaným v oblasti referenčních dat je ISO 3166-1, kde nalezneme právě univerzální definici států a měn používaných po světě a nemusíme tak vytvářet vlastní referenční data. Změna těchto dat zpravidla nebývá častá na rozdíl od master dat.

(19)

Transakční data jsou tím nejobjemnějším typem dat, kterým organizace disponují. Bývají spojeny s interními nebo externími událostmi v rámci byznys modelu a jsou tedy vázány na jeden konkrétní bod v čase. Příkladem může být uzavření smlouvy, souhlas se zpracováním dat, provedení registrace, odhlášení ze systému nebo odeslání objednávky.

Z uvedených příkladů je patrné, že transakčních dat může vznikat obrovské množství na denní bázi. Transakčními daty lze tedy pro ilustraci zaměnit za slovesa v byznys modelu organizace – založení, registrace, odeslání. Samotná transakční data nemají žádnou vlastní hodnotu, dokud nejsou propojena s master daty a případně referenčními daty. Samotná slovesa totiž ani v jednoduché větě nic neřeknou, dokud se k nim nepřipojí podnět tvořený právě master daty. Takový záznam je poté složen na „klient založil“, „faktura odeslána“, atp.

Historická data se vytvoří praktickou změnou v časovém horizontu v rámci dat. Jsou velmi důležitá pro účely bezpečnosti, predikce a compliance. Typickým příkladem je změna příjmení osoby například po sňatku. Předchozí údaj o příjmení není dále platný, a tak se historizuje, aby byl k dispozici pro případnou budoucí práci. Obdobně lze nahlížet na změnu bydliště, telefonního čísla nebo zrušení produktu či služby. To všechno jsou data, která je třeba uchovávat. Organizaci se z logiky věci data kupí a tím i náklady na uchovávání těchto dat. Je pak na data managementu, jak rozhodne nakládat s historickými daty. Pro úsporu nákladů se definuje časové období, po které jsou data uchovávána pro rychlý přístup, generování reportů a tvorbu analýz. Ostatní data sahající dále do minulosti se archivují na místo, které není tak nákladné a neumožňuje tak okamžitou práci s nimi.

Posledním uvedeným typem dat jsou metadata, která slouží k definici ostatních dat.

V některých případech se dají metadata dále rozdělit, pro naší studii postačí vysvětlení metadat jako dat, která slouží k případné obnově, interpretaci nebo správě dat v rámci datového skladu. Metadata jsou nutná pro efektivní práci s daty. Technická metadata zajišťují správné zacházení s daty v případě efektivního přenosu dat nebo vypočítávání hodnot z dostupných dat. Nastavení správných hodnot do indexů tabulek, primárních a cizích klíčů nebo vhodné datové typy zajišťují, že se potřebný výpočetní výkon pro provedení operací snižuje a urychluje tak zpracování. Metadata definovaná byznysem pak popisují, jak s daty bude zacházet byznys a klade si zde požadavky v rámci zpracování dat, kde jsou vyžadovány různé úrovně doručení dat. Procesní metadata pak nalezneme u procesu ETL (extract transform load), kdy evidujeme přesný popis práce s daty pro případ návaznosti zpracování. V poslední řadě jsou metadata tím typem dat, se kterým pracujeme v rámci studie datové kvality v organizaci. Jejich výpočet se liší podle sledované definované metriky, což si ukážeme v dalších kapitolách práce.

2.2 Vznik dat

Jak jsme si vysvětlili v minulé kapitole, o vzniku dat hovoříme v případě vzniku všech zmíněných kategorií. Nyní si představíme, co s takovými daty dále dělat a jak je ukládáme pro další práci. Data mohou tedy vznikat na základě podnětů nebo evidence o chování převzatých od stakeholderů jakými mohou být zaměstnanci podniku, zákazníci, dodavatelé, akcionáři, management a další osoby interesované k organizaci. Zároveň lze jejich typologii rozdělit dle možnost uložení.

(20)

Prvním typem dat, která vznikají už v rámci zdrojového systému jsou data strukturovaná.

Vyznačují se tím, že jsou upravena podle definovaného vzorce. Strukturovaná data jsou nejčastější typ pro uložené v relačním databázovém úložišti, protože umožňují logické uložení v rámci jednotlivých tabulek s definovanými atributy pro jednotlivé záznamy.

Jako příklad strukturovaných dat si můžeme představit tabulku osob, kde jedním z atributů bude jméno, příjmení, pohlaví, věk a nejvyšší dosažené vzdělání a záznamy v této tabulce budou přesně odpovídat popsané struktuře, tento typ dat pak díky dané struktuře zdrojového systému může osoba zainteresovaná do byznysu organizace zadávat dle předepsané struktury sama bez asistence.

Zcela odlišným typem jsou pak nestrukturovaná data. Tento typ nemá žádný předepsaný vzorec a nejsou k němu definovány možné další vzorce, dle kterých by se daly ze záznamu vytřídit jednotlivé atributy. Pro příklad si představme větu převzatou z nestrukturovaného nahrávaného rozhovoru, kde se má uchazeč o zaměstnání přestavit a poskytnout o sobě data: „Jmenuji se Karel Novák, včera mi bylo osmatřicet a hlásil jsem se na bakaláře na ČVUT, ale nevyšlo to“. Převzatá nestrukturovaná data v této větě nelze doplnit s příkladem ze strukturovaných dat, protože člověk neodpověděl na požadované informace přesně a zároveň jiný člověk by opět odpověděl jinak. I při větším zkoumání bychom zde těžce hledali formuli, která by našla jistou strukturu v obdržených informacích. To však neznamená, že nestrukturovaná data nelze vytěžit ve prospěch organizace, je však zapotřebí další nákladná práce se zadáním převzatých informací do definované struktury.

Pro představu takovým mezičlánkem může být kontaktní centrum, kde pomocí telefonu klient předává nestrukturovaná data operátorce, která tato data ukládá již strukturovaně do zdrojového sytému.

2.3 Centralizace dat ze zdrojových systémů

Nyní již víme, že pro řádné uložení dat v relační databázi zdrojového systému je potřebujeme udržovat ve strukturované podobě. Pro další práci a zvýšení možnosti využití dat je zapotřebí tzv. centralizace.

„Bez centralizovaného úložiště dat dochází v rámci organizace k datové nekonzistenci, redundanci, obtížnému zpracování napříč systémy a značně se zvyšují náklady na správu úložišť.“ (Kukla, 2019)

O centralizaci dat v rámci podniku se stará centrální datový sklad (CDS). Pro zajištění maximálního vytěžení z dat je zapotřebí správné propojení zdrojových systémů s centrálním datovým skladem organizace. Většina organizací pracuje zpravidla s více zdrojovými systémy, což činí CDS základní komponentou řešení business intelligence (BI) úloh.

Jinak tomu není v námi zkoumané finanční organizaci. Zde nalezneme dokonce stovky různých zdrojových systémů, které dodávají data o různých objemech s různou frekvencí.

Mezi největší, co se týče objemu patří systém správy účtů a transakcí mezi nimi (ÚSIS).

Dalším kritickým systémem v rámci fungování podniku je systém obsahující data klientů a různé interakce organizace s nimi (CRM). Nemalým systémem, který zejména v současné době nabývá velkého růstu je systém elektronického bankovnictví, případně smartbankingu

(21)

(ELB). Mírně specifickým, ale velmi důležitým systémem finanční instituce je CMD, která ukládá data o různých entitách podniku a tvoří garanta jejich správnosti v případě, že se v různých zdrojových systémech data rozcházejí. Mezi zdrojové systémy počítáme také různé rejstříky a veřejné databáze, jakými může být databáze katastru nemovitostí spravovaná státními institucemi a jiné. V některých případech panuje zdrojový systém nejen na vstupu do CDS, ale také na výstupu. Pro ilustraci si lze představit případ, že je klient osloven marketingovou kampaní v rámci přístupu do jednoho z těchto zdrojových systémů, například ELB. Zákazník organizace se sám přihlašuje do tohoto systému, kde nejen vkládá určitý typ dat (platební příkazy, přesuny mezi účty), ale také na základě dat z jiného zdrojového systému je osloven nabídkou další služby, ku příkladu založení spoření, což zastává jiný zdrojový systém, na který je klient takto odkázán.

2.4 Datový tok v rámci datového skladu

Nyní si popíšeme základní princip datových toků v rámci datového skladu (data warehouse). Skvěle nám k tomu poslouží obrázek níže vysvětlující princip, který si následně aplikujeme na naši zkoumanou finanční instituci.

Obrázek 1 - Struktura datového skladu (MAHANTI, 2019)

Úplně vlevo vidíme datové zdroje, kde jsme si už uváděli příklady jako ÚSIS, CRM a ELB, případně externí data ve formě souborů ať už textových nebo tabulkových. Pro plnění do datového skladu je nejprve zapotřebí vytvořit tzv. stage. Stage je databáze, ve které se nachází pouze aktuální data převzatá ze zdrojových systémů na bázi posledního dne, týdnu

(22)

nebo měsíce. Tato data jsou ve stage uchována ve formě tabulek, které se přemazávají nebo načítají při následném zpracování, jejich historizace probíhá až v samotném datovém skladu (DWH). Zde jsou data uložena na jednom místě a dochází zde k odstraňování redundancí a udržuje se datová konzistence. Následně se data distribuují business uživatelům ve formě tzv. datamartů. Což jsou databáze vytvořené pro jednotlivé odběratele nejčastěji rozdělené dle oddělení v organizaci a obsahují data, která vyžaduje dané oddělení ke své specifické činnosti. Mezi příklady může být datamart financí, účetnictví, personálního oddělení nebo marketingových kampaní. Následně se na základě těchto dat vytvářejí reporty ve formě strukturovaných souborů nebo dashboardy obsahující grafické znázornění pro snadnější porozumění a pochopení významu zobrazovaných dat, případně jsou data dostupná k dalšímu vytěžování informací nebo k analytické činnosti.

V případě zkoumané organizace je třeba zmínit některá specifika oproti nastíněné funkcionalitě datového skladu v obecné rovině funkcionality. Prvním takovým specifikem je, že reporting nemusí probíhat pouze v rámci dat převzatých z datamartů, ale přebírá data ze samotného DWH, v krajních případech ad-hoc reportingu také ze samotné stage. Dalším specifikem CDS ve finanční organizaci je už zmíněný tok dat i do zdrojových systémů, který vyžaduje další datový tok. Tyto datové toky mezi jednotlivými komponentami CDS se realizují díky tzv. ETL.

2.5 Proces ETL

Proces ETL se skládá ze tří částí, které tvoří samostatnou zkratku názvu procesu. První fáze se nazývá Extract, ve které jsou data shromažďována z jednoho nebo více zdrojů dat a uchovávána v dočasném úložišti, kde lze provést následující dvě fáze. Během extrakce se použijí ověřovací pravidla k testování, zda mají data očekávané hodnoty nezbytné pro plněné do koncového systému. Data, která při ověření selhala, jsou odmítnuta a je poskytnuta informace ve formě výstražné hlášky, co způsobilo odmítnutí těchto dat.

Druhá fáze procesu je pojmenovaná Transform. V transformační fázi jsou data zpracovávána tak, aby byly hodnoty a struktura konzistentní ve všech datech. Typické transformace zahrnují věci jako formátování data, použití řádků nebo sloupců dat, spojování dat ze dvou hodnot do jedné nebo naopak rozdělení dat z jedné hodnoty na dvě.

Cílem transformace je zajistit, aby všechna data odpovídala jednotnému schématu. Poslední fází procesu je tzv. Load neboli fáze načtení, která přesune transformovaná data do trvalé cílové databáze. Po načtení je proces ETL dokončen, i když v mnoha organizacích se ETL provádí pravidelně, aby byl datový sklad aktualizován nejnovějšími daty. (INFORMATICA, 2021)

Přesně jak se píše dokumentaci nástroje Informatica, který zajišťuje ETL proces i v námi zkoumané finanční instituci, tento proces se provádí v tzv. dávkách – batch. Hlavní dávka je načítána denně za pomoci nočního dávkového okna. Proces načítání může pojmout celou řadu detekcí chyb, protože každý zdrojový systém může vyžadovat různé techniky zachycování. Techniky protokolování databází jsou odkázány na interně vyvinuté aplikace, protože je nepravděpodobné, že by aplikace zakoupené dodavatelem tolerovaly takové úpravy. Jednou takovou interní aplikací je procesní centrum (PC), které zodpovídá

(23)

za automatické spouštění dávky hlavní nebo dávek vedlejších, které se vytvářejí například při nesprávném plnění některé z komponent CDS.

Pro úplnou představu nad plnění daty si představíme ještě různé možnosti a přístupy.

Je více možností, jak data plnit ze zdrojových systémů a v následující grafice si probereme jejich výhody a nevýhody.

Tabulka 2 - Porovnání možnosti plnění (vlastní zpracování, 2021)

Metoda Komplexnost Rychlost nahrání Překrytí dat

Přírůstek k času Složitější Rychlá Ne

Plné nahrání Jednoduchá Pomalá Ano

První zmíněnou metodou je nahrání přírůstku ke stanovenému času například dni. Zde je důležité, aby zdrojový systém umožňoval tyto změny a poskytoval data k určitému datu, zároveň jde o přístup s vyšší náročností, kde je relativně k nejrychlejší možnost přenosu dat s překrýváním a bez nutnosti odstraňování duplicitních záznamů.

Druhým přístupem je pak nahrání všech dat znovu za celý zdrojový systém. Tento postup se uplatňuje tam, kde není možné z dat vytvořit přírůstky nebo by to bylo výpočetně neefektivní. Jednoduchost je zde způsobená tím, že se data berou veskrze 1 ku 1 ze zdroje do cílového systému nebo komponenty.

2.6 Ucelení dat

V této kapitole jsme si rozebrali konkrétní příklady dat a rozdělili si je do logických celků tak, abychom měli představu o způsobu jejich ukládání. Víme, že nová data vznikají ve zdrojových systémech organizací a pro snadné nakládání s nimi je nutná jejich centralizace v datovém skladu. Aby datový sklad nebyl pouze mystery box, obsahující všechna data organizace, představili jsme si zde vzorové členění takového datového skladu a popsali si jeho prvky i různá specifika v rámci našeho zkoumaného případu ve finanční instituci. Zároveň už nyní víme, že data proudí v organizaci z jedné struktury do druhé za pomocí nástrojů ETL. Pro každodenní provoz datového skladu je potřeba zajistit různé způsoby plnění CDS, které zaručuje další nástroj, kterým je PC. Procesní centrum totiž zajišťuje dohled nad nástrojem ETL tak, že plánuje jeho spouštění v přesně danou dobu, tak aby se dodržovala návaznost zpracování dat v CDS.

(24)

3 Oblasti řízení kvality dat

Tato kapitola nabízí pohled do hloubky pojmům Data management, Business inteligence a Data governance. S pomocí odborné literatury si definujeme základní pojmy a představujeme koncepty spojené s tématy uvedenými výše. Popisujeme zde základní vazby těchto termínů, jejich zavedení, praktickou funkci a možné rozpoložení v rámci organizace působící ve finančním sektoru.

3.1 Data management

U definice data managementu lze říct, že se jedná o vývoj, řízení a kontrolu nad postupy, politikou, programy a plány v průběhu životního cyklu informačních aktiv podniku. Data a informace nejsou jen aktiva s cílem získání vyšší hodnoty v budoucnu, ale také nástroj nutný pro správnou každodenní činnost organizace jako takové. (LORINCZOVÁ Natália, 2020)

Záleží na každé organizaci, kolik prostředků je schopná a ochotná poskytnout do využití shromažďovaných dat. Některá data musí organizace shromažďovat na základě zákonných opatření. Tato data lze však obohatit a uzpůsobit jejich uložení k analytické činnosti a tím data vytěžit například ke konkurenční výhodě.

K vyhodnocení úrovně data managementu slouží tzv. DMM (Data management maturity model), který popisuje celkem pět typů úrovní (respektive 6 při započítání nulté), na kterých daná organizace pracuje se svými daty.

(25)

Obrázek 2 - Data Management Maturity Model příklad (DAMBOK 2017)

Nultou úrovní DMM spatřujeme v organizacích, kde nepracují s organizovanými daty a nemají žádné zavedené procesy pro práci s daty. Dnes na tomto modelu pracuje jen velmi málo podniků a je spíše ukázkou pro lepší definování data managementu.

První úroveň DMM můžeme nazvat také počáteční nebo jednorázová. Základní způsob práce s daty tkví v tom, že organizace má pouze omezenou sadu nástrojů s omezenou správou a pro práce s daty závisí čistě na několika expertech. Problémy s kvalitou dat jsou všudypřítomné, ale neřeší se jejich správa.

Druhá úroveň DMM řečeno opakovatelná je založena na zavedených nástrojích a jsou zde nastaveny role účastníků v procesu vykonání práce s daty. Příkladem může být centralizovaný nástroj a zavedená správa dat. Existuje tedy organizační povědomí o problémech a koncepcích kvality dat.

Třetí úroveň DMM je definovaná. Pro tuto úroveň je typická škálovatelných procesů správy dat. Mezi vlastnosti patří replikace dat napříč organizací s některými zavedenými kontrolami a obecné zvýšení celkové kvality dat spolu s koordinovanou definicí politiky a správou. Formálnější definice procesu vede k významnému snížení manuálního zásahu.

To spolu s centralizovaným procesem návrhu znamená, že výsledky procesu jsou předvídatelnější.

Čtvrtá úroveň DMM nazvaná jako spravovaná umožňuje organizaci předvídat výsledky při přístupu k novým projektům a úkolům a začít řídit rizika související s daty. Správa dat zahrnuje metriky výkonu. Charakteristika čtvrté úrovně zahrnuje standardizované nástroje pro správu dat od koncových zařízení po infrastrukturu spolu s dobře vytvořenou funkcí centralizovaného plánování a správy. Zavedené prvky této úrovně jsou měřitelné jako zvýšení kvality dat a schopností celé organizace například audity dat.

(26)

Nejvyšší pátá úroveň DMM je již optimalizovaná. Když jsou postupy správy dat optimalizovány, jsou díky automatizaci procesů a správě technologických změn vysoce předvídatelné. Organizace na této úrovni vyspělosti se zaměřují na neustálé zlepšování.

Na úrovni 5 umožňují nástroje zobrazení dat napříč procesy. Šíření dat je kontrolováno, aby se zabránilo zbytečné duplikaci. K řízení a měření kvality dat a procesů se používají dobře srozumitelné metriky.

Z pohledu zkoumané finanční instituce je patrné, že potřebujeme mít pro zavedení pilotní implementace alespoň druhou úroveň Data management maturity modelu. Touto úrovní naštěstí vybraná finanční instituce disponuje. Dle popisu úrovní lze předpokládat, že úroveň DMM je ve sledované organizaci až na čtvrté úrovni. Disponuje totiž standardizovanými nástroji pro správu dat a probíhá centralizované plánování a správa dat, kde hlavním oddělením je oddělení dat a strategie. To pod sebou drží veškerou správu dat a tok informací pramenící v datové základně v rámci instituce. Zároveň jsou úpravy ve správě dat měřitelné a probíhají datové audity na pravidelné bázi.

Hlavní cíle data managementu jsou dle DAMBOK 2017:

• Porozumění a podpora informačních potřeb podniku a jeho zúčastněných stran včetně zákazníků, zaměstnanců a obchodních partnerů

• Zachycování, ukládání, ochrana a zajištění integrity datových aktiv

• Zajištění kvality dat a informací

• Zajištění soukromí a důvěrnosti údajů zúčastněných stran

• Zabránění neoprávněnému nebo nevhodnému přístupu, manipulaci nebo použití dat a informací

• Zajištění efektivního využití dat pro zvýšení hodnoty podniku

Všemi cíli se budeme v práci dále zabývat. Zajištění kvality dat a informací je naším hlavním sledovaným tématem, na který je popsáno i pilotní řešení. Je třeba si však uvědomit, že ostatní cíle je nutné mít v paměti při realizaci nových řešení v rámci datového skladu.

DM tvoří obraznou obalovou schránku pro veškeré dění s daty v rámci organizace, což je právě i kontrola kvality dat.

3.2 Data governance

Data governance je definována dle Seinera 2014 jako nastolení pravomoci a kontroly (plánování, monitorování a používání) nad správou datových aktiv společnosti. Všechny organizace se rozhodují na základě dat bez ohledu na to, či mají stanovenou formální funkci pro DG. Ti, kteří stanovují formální DG ve své organizaci, vykonávají pravomoci a kontrolu nad daty s větší mírou úmyslnosti. Tyto organizace jsou schopny lépe zvýšit hodnotu, kterou získávají ze svých datových aktiv.

(27)

Z definice je patrné, že se v rámci DG dotýkáme data managementu. Zachycování, ukládání ochrana datových aktiv patří mezí hlavní cíle tohoto oboru. Pro lepší představu pozice data governance v podniku poslouží obrázek přejímaný z hlavního zdroje této práce – DAMBOK 2017 viz níže.

Obrázek 2 – Vztah mezi data governance a data managementem (DAMBOK 2017)

Z grafiky je patrné, že případný útvar nebo osoba zasluhující se o data governance v podniku je zodpovědná za fakt, že data jsou řízená určitým způsobem a činí nad touto skutečností dohled. Data management se pak zasluhuje o využití těchto dat k definovaným a předem určeným cílům.

S rostoucím množstvím dat vlastněným podnikem roste také náročnost správy těchto dat.

Zde narážíme na možné role, které jsou zodpovědné na poli data governance. V případě menší společnosti se garantem může stát jedna osoba, která však musí pojmout širokou škálu informací a orientovat se v právních rámcích nakládání s daty. Podnik však může a v některých případech musí shromažďovat data i s různými stupni utajení jako jsou například důvěrná data klientů, kteří při zakoupení produktu nebo při využití služby podniku musí souhlasit s podmínkami, ve kterých je právě úschova takových dat pevně stanovena včetně možného způsobu nakládání s daty. Jak je již zmíněno v úvodu práce, dat stále přibývá a jejich správa vyžaduje čím dál více pozornosti, proto data governance ve firmách nalezneme daleko častěji v podobě samostatného týmu nebo útvaru spadajícím pod entitou zvanou Chief data officer (CDO). V závislosti na předmětu podnikání se také mění předpisy a normy stanovené pro nakládání s daty v instituci. Pro příklad se vrátíme do roku 2018, kdy nabylo účinnost velmi známé nařízení Evropské unie zvané General data protection regulation (GDPR), které jasně ovlivnilo práci s daty klientů napříč podnikatelským spektrem. V rámci finančních institucí jsou pak restrikce a opatření pro nakládání s daty ještě důraznější v podobě regulatoriky centrální banky.

Podnik, kterým se zabývá tato práce je jedním z těch, které musí splňovat nejpřísnější regulatoriku nejen s ohledem na státních nařízení České republiky, ale také předpisů a opatření Evropské unie, protože předmětem podnikání společnosti jsou i finanční aktivity na evropské úrovni. Nedodržování těchto nařízení a regulací by znamenalo ohrožení v podobě odebrání licence, která povoluje instituci tento druh podnikání, což by znamenalo až likvidační riziko na trhu. Z tohoto důvodu je data governance v popisované instituci bráno velmi vážně a je pro tuto agendu vyčleněn samostatný útvar.

(28)

Obrázek 3 - Složení komponent data governance (DAMBOK, 2017)

Data governance se dále rozpadá do jednotlivých agend znázorněných na obrázku výše.

Pro potřebu naší analýzy a pochopení vystavění pilotního řešení si blíže představíme jen část z nich, nutně potřebnou pro vymezení našeho pilotního projektu.

Funkci odvětví Reference and Master data jsme si již popsali v první kapitole této práce stejně tak jako jejich odlišení od pojmu Metadata a zároveň s tím jsme pokryly i základy Data Architecture. Komponenty data governance jsou spolu úzce svázány a bývá složité přesně vymezit jejich hranice. Nelze navrhovat účinnou a efektivní datovou architekturu v rámci datového skladu bez brání v potaz právě ukládání všech různých typů dat a jejich očekávanou práci s nimi.

Document management není pro naši analýzu objektivně relevantní, protože se zabývá převážně z názvu napovídající správou a využitím dokumentů v organizaci. Obdobně nahlížíme i na další zmíněné komponenty: Data Integration, Data Security, Data Storage &

Operations, Data Modeling and Design. Tyto témata jsou velmi důležitou složkou data governance, ale v případě řešení datové kvality s nimi přijdeme do styku pouze okrajově vzhledem k vymezenému ohraničení práce. Nicméně v rámci projektu segment Data Security bude sehrávat roli například v přidělení práv s nakládáním s daty. Data Modeling and Design se projeví v doporučení dalšího pokračování projektu, kdy je třeba zajistit správnou prezentaci dat a jejich pochopení zadavatelem. Data Integration je poté samostatná zajímavá tématika pojící se například s datovou konsolidací, kde můžeme z více zdrojových systémů dostávat různá data o jednom subjektu – typickým příkladem může být klient, kterého dle business případů evidujeme ve více zdrojových systémech naráz, protože každý zdrojový systém zajišťuje jinou interakci s klientem.

Metadata

Data Quality

DWH & BI

Reference and Master

data Document management Data

Integration Data Security

Data Storage

& Operations Data Modeling and

Design

Data Architecture

PRODEJ

(29)

Oblast Data Quality je tedy samotným segmentem data governance a budeme se jí zabývat podrobně v následující kapitole vzhledem k tomu, že je to klíčová část naší analýzy.

Nelze opomínat ani poslední doposud nezmíněnou část, kterou je DWH & BI. K data warehousingu jsme se dostali v předchozí kapitole věnované datům a jejich využití, následující podkapitola představí její propojení s konceptem zvaným BI.

3.3 Business intelligence

Pro plné zasazení této práce do kontextu teoretických konceptů je zapotřebí definovat a porozumět BI. Business intelligence představuje sadu procesů, znalostí a technologií za cílem správného řízení firmy. Podporuje a opírá se o analytické, plánovací a řídící činnosti v organizaci napříč celým spektrem jejího chodu. BI nalezneme v řízení prodeje, nákupu, controllingu, HR, řízení výrobních kapacit a další. (POUR, Jan, Miloš MARYŠKA, Iva STANOVSKÁ a Zuzana ŠEDIVÁ 2018)

V rámci business intelligence dochází k využívání dat, které má podnik k dispozici pro řízení různých aspektů firmy, ať už se jedná o rizika spojená s řádným chodem nebo vyhledání potenciálních příležitostí, které podnik může identifikovat na základě svých uložených dat.

Proces rozhodování je tedy podpořen pevnými daty, které zvyšují přesnost a usnadňují učinění takových rozhodnutí managementem podniku.

Ve finanční instituci v rámci naší studie je BI nedílnou součástí rozhodování takřka každého útvaru organizace. Útvary mají finanční prostředky a infrastrukturu nastavenou tak, aby si definovali údaje, které požadují sledovat a na základě kterých bude podporován jejich rozhodovací proces. Tato data identifikují pracovníci CDS a vytvoří požadovaný report.

Je nutné, aby bylo zadání takového reportu co nejpřesnější, aby nedošlo k poskytnutí chybných dat anebo nedošlo ke špatné interpretaci obdrženého reportu. Tato úvaha nás přímo vede k našemu záměru nastavení datových kontrol v datovém skladu finanční instituce. Tak jako si byznys definuje ukazatele nebo surová data, která chce sledovat a na základě kterých se bude dále rozhodovat či tvořit analýzy, tak je potřebné, aby definoval zároveň nastavení datové kvality. Proces business intelligence nelze efektivně vykonávat bez spolupráce byznysu a centrálního datového skladu. Business vlastníci dat dokážou se svými daty nejlépe operovat a znají jejich úplné významy, protože svým jednáním data vytvářejí (tvorba nových produktů, služeb, reklamních kampaní atd.). Pracovníci CDS mají technické možnosti k tomu, aby dělali s daty různé operace včetně datového monitoringu, což právě vede k možnosti nastavení datových kontrol.

3.4 Závěr k řízení dat

V této kapitole jsme se dozvěděli, co znamená pojem Data management a že může být rozdělen do tzv. data management maturity modelu s pomyslnými šesti fázemi. Dále jsme si ukázali, že data management se snaží využívat data k dosažený předem vytyčených cílů, kdežto data governance dohlíží a kontroluje právě proces stanovený data managementem.

Z tohoto rozřazení je logické, že data management a data governance musí spolupracovat.

(30)

Zároveň nyní víme, že data governance se rozděluje dále na jednotlivé segmenty, kde jsme si zasadili tuto práci do kontextu a vymezili hranice analýzy a doplnili naše zkoumání ještě o teoretické ukotvení business intelligence jako důležitou součást právě data governance.

Nejdůležitějším segmentem je pro nás datová kvalita, kterou si představíme do detailu v následující kapitole.

(31)

4 Datová kvalita

Pod touto kapitolou se nachází definice datové kvality, propojení s ostatními odvětvími zabývající se daty v rámci organizace, praktické příklady vzniku a možné důsledky nekvalitních dat a krátké shrnutí dosavadních řešení, které zkoumaná organizace za dobu svého působení zavedla do provozu.

4.1 Definice

Datová kvalita je soubor plánování, implementace a kontroly činností, které aplikují techniky řízení kvality na data, aby bylo zajištěno, že jsou vhodné pro řádné využívání a splňují potřeby svých spotřebitelů. Dle DAMBOK, 2017 si dává za cíl:

- dosáhnout řízeného přístupu k přizpůsobování údajů k daným účelům na základě požadavků spotřebitelů

- definujte standardy, požadavky a specifikace pro kontrolu kvality dat jako součást životního cyklu dat

- definujte a implementujte procesy pro měření, monitorování a podávání zpráv o úrovních kvality dat

- identifikovat a prosazovat příležitosti ke zlepšení kvality dat prostřednictvím vylepšení procesů a systémů

Je třeba si uvědomit, že zejména v předchozích kapitolách zmíněné disciplíny data managementu přispívají ke kvalitě dat, kde společným cílem by měla být vysoce kvalitní data podporující organizaci. Protože neinformovaná rozhodnutí nebo jednání kohokoli, kdo pracuje s nekvalitními daty může mít za následek různé typy ztrát. Vytváření vysoce kvalitních dat však na druhou stranu vah vyžaduje vzájemnou spolupráci, koordinaci a s tím spojené finanční zdroje. Žádná organizace nemá dokonalé obchodní procesy, dokonalé technické procesy nebo dokonalé postupy správy dat, všechny organizace mají problémy s kvalitou svých dat. Organizace, které formálně spravují kvalitu dat, mají méně problémů než ty, které nechávají kvalitu dat na náhodné úrovni.

Formální řízení kvality dat je podobné nepřetržitému řízení kvality u jiných produktů.

Zahrnuje správu dat během jejich životního cyklu stanovením standardů, zabudováním kvality do procesů, které vytvářejí, transformují a ukládají data, a měřením dat podle standardů. Správa dat na této úrovni obvykle vyžaduje tým datové kvality, který bude odpovědný za zapojení profesionálů v oblasti správy obchodních i technických dat a řízení práce s používáním technik řízení kvality u dat, aby bylo zajištěno, že data jsou vhodná ke spotřebě pro různé účely. Tým, u kterého je žádoucí zapojení do řady projektů, pomocí nichž lze zavést procesy a osvědčené postupy při řešení problémů s prioritami dat.

(32)

4.2 Dimenze datové kvality

Na dimenze datové kvality se dá nahlížet z více hledisek, některé publikace jich uvádějí více až ke třiceti, jiné si vystačí se základními šesti. Pro naši analýzu jsem zvolil již vícekrát citovanou publikaci DAMBOK, 2017, kde se podrobně člení následujících 8 dimenzí:

Přesnost se vztahuje k míře, v jaké data správně představují „skutečné“ entity. Přesnost je obtížné měřit, pokud organizace nedokáže reprodukovat sběr dat nebo ručně potvrdit přesnost záznamů. Většina měr přesnosti závisí na srovnání se zdrojem dat, který byl ověřen jako přesný, jako je systém záznamu nebo data ze spolehlivého zdroje.

Úplnost se týká toho, zda jsou k dispozici všechny požadované údaje. Úplnost lze měřit na úrovni sady dat, záznamu nebo sloupce. Klademe si zde otázky jako: „Obsahuje datová sada všechny očekávané záznamy?“ nebo „Jsou záznamy vyplněny správně?“ (Záznamy s různými stavy mohou mít různá očekávání úplnosti.) dále „Jsou očekávány sloupce či atributy vyplněné na úrovni?“ (Některé sloupce jsou povinné. Nepovinné sloupce se vyplní pouze za konkrétních podmínek.)

Konzistenci lze definovat mezi jednou sadou hodnot atributů a jinou sadou atributů ve stejném záznamu (konzistence na úrovni záznamu), mezi jednou sadou hodnot atributů a jinou sadou atributů v různých záznamech (konzistence mezi záznamy) nebo mezi jednou sadou hodnoty atributů a stejný atribut nastavený ve stejném záznamu v různých časových bodech (časová konzistence). Konzistenci lze také použít k označení konzistence formátu.

Zároveň může sloužit jako základ pro standardizaci. Standardizace dat označuje úpravu vstupních dat, aby bylo zajištěno, že data splňují pravidla pro obsah a formát. Standardizace dat umožňuje efektivnější párování a usnadňuje konzistentní výstup. Například lze očekávat, že počet transakcí každý den nepřesáhne 105 % klouzavého průměrného počtu transakcí za posledních 30 dní.

Integrita dat (nebo koherence) zahrnuje nápady spojené s úplností, přesností a konzistencí. V datech se integrita obvykle týká buď referenční integrity (konzistence mezi datovými objekty pomocí referenčního klíče obsaženého v obou objektech), nebo interní konzistence v datové sadě, takže v ní nejsou žádné chybějící části. Datové sady bez integrity jsou považovány za poškozené nebo mají ztrátu dat. Datové soubory bez referenční integrity mají „sirotky“ - neplatné referenční klíče nebo „duplikáty“ - stejné řádky, které mohou negativně ovlivnit agregační funkce.

Přiměřenost se ptá, zda datový model splňuje očekávání. Například to, zda má distribuce prodeje v geografické oblasti smysl na základě toho, co je známo o zákaznících v této oblasti.

Měření přiměřenosti může mít různé formy. Například přiměřenost může být založena na srovnání s referenčními daty nebo minulými případy podobného souboru dat (např. prodej z předchozího čtvrtletí). Některé představy o přiměřenosti lze vnímat jako subjektivní. V tomto případě je řešením spolupráce se spotřebiteli dat na formulování základů jejich očekávání od dat při formulování objektivních srovnání.

Včasnost dat odkazuje na několik charakteristik dat. Měření včasnosti je třeba chápat z hlediska očekávané volatility – jak často se data pravděpodobně změní a z jakých důvodů.

(33)

statická data, například některé hodnoty referenčních dat, jako jsou kódy zemí, mohou zůstat aktuální po dlouhou dobu. Některá data, například ceny akcií na finančních webových stránkách, se často zobrazují s časovým odstupem, aby spotřebitelé dat pochopili riziko, že se data od doby, kdy byla zaznamenána, změnila. Během dne, zatímco trhy jsou otevřené, budou tyto údaje často aktualizovány. Jakmile se trhy uzavřou, data zůstanou nezměněna, ale budou stále aktuální, protože samotný trh je neaktivní. Latence je měřený čas mezi okamžikem, kdy byla data vytvořena, a okamžikem, kdy byla zpřístupněna k použití. Například noční dávkové zpracování může poskytnout latenci v řádu hodin.

Jedinečnost uvádí, že v datové sadě neexistuje žádná entita více než jednou. Vložení jedinečnosti entit v datové sadě znamená, že klíčová hodnota souvisí s každou jedinečnou entitou a pouze s touto konkrétní entitou v datové sadě.

Platnost označuje, zda jsou datové hodnoty konzistentní s definovanou doménou hodnot.

Doménou hodnot může být definovaná sada platných hodnot (například v referenční tabulce), rozsah hodnot nebo hodnota, kterou lze určit pomocí pravidel. Při definování domény je třeba zohlednit datový typ, formát a přesnost očekávaných hodnot.

4.3 Příklady a dopady nekvalitních dat

S příklady nekvalitních dat plynule navážeme na předchozí podkapitolu, protože každá ze zmíněných dimenzí datové kvality nabízí různý typ nekvalitních dat, případně různý způsob nahlížení na takovou chybu.

Obrázek 4 - Ukázka chyb v zákaznických datech (MAHANTI, 2019)

Na obrázku výše máme znázorněn příklad kvality dat, kdy jsou v jednom datovém setu (v jedné tabulce) sloučeni klienti, kteří jsou osoby a zároveň klienti typu právnické osoby, případně jejich další dělení na podtyp právnické osoby. U těchto typů záznamů je zřejmé, že se neaplikuje atribut data narození nebo pohlaví, protože záznam nemůže takovou charakteristikou disponovat. Z pohledu úplnosti dat je uvedený příklad tedy správný, protože obsahuje pouze data, která jsou relevantní. Na druhou stranu lze diskutovat nad přiměřeností, kterou by definovali uživatelé dat.

Dopad nad tímto uskupením dat může spočívat v nesprávnou agregaci záznamů.

Představme si požadavek na vytvoření primitivního reportu počtu klientů organizace dle pohlaví. Klienti, kteří nejsou fyzickými osobami by v tomto reportu vytvářeli informační šum, protože nedisponují atributem pohlaví, tudíž dle něj nejdou rozdělit. Správným postupem by zde bylo omezení na typ zákazníka nebo případné rozdělení zákazníků