Datové sklady - Datová integrace - Hlavní práce71079

2 Datová integrace

2.2 Datové sklady

Již před lety bylo jasné, že je potřeba mít databázi pro účely reportingu oddělenou od systémů datových zdrojů. Existuje pro to několik pádných důvodů.

Zdrojové systémy, jako jsou např. systémy pro plánování podnikových zdrojů (tzv. ERP systémy), systémy pro řízení vztahů se zákazníky (tzv. CRM systémy), nebo řízení dodavatelských zásob (tzv. SCM systémy), jsou postavené na systémech zachycování dat a zpracování transakcí. Není zde tudíž prostor optimalizace pro analytiku a reporting. I přes to, že se mohou jejich data zachycovat v relačních databázích, tak je nutné vzít v potaz, že jsou strukturována, logicky i fyzicky, zcela odlišně tak, aby podporovala jejich konkrétní cíl – tvorbu dat. (6)

Data ve zdrojových systémech jsou také často nekonzistentní. Tento fakt může být důsledkem rozdílů ve formách, strukturách, vztazích, byznys definicích nebo transformacích. Datovou nekonzistencí také nemyslíme špatnou datovou kvalitu, jelikož nekonzistence může být někdy validní z perspektivy byznysu, kdežto špatná datová kvalita má vždy negativní podtext.

Konzistentní data jsou důležitým prvkem při tvorbě datových skladů, jelikož bývají kritickým požadavkem byznysových analytiků. Díky tomu vznikl Master Data Management, kterému se práce věnuje v další části. (6)

Samotná datová kvalita vně datových zdrojů je další částím prvkem, kterému se věnujeme při tvorbě datových skladů. V minulosti při začátcích tvorby datových skladů bylo standardem, že datový sklad je pouze read-only (česky ke čtení) a datová kvalita se řešila při stažení zpátky do datových zdrojů. I přes to, že systémy pro zachycování dat se staly sami o sobě kvalitnější a uměly eliminovat špatně zachycená data, datová kvalita a úplnost zůstávají problémem.

Z pragmatického hlediska se datové sklady staly preferovanějším místem pro řízení datové kvality. Datová kvalita se často stává problémem až při užívání v delším horizontu. Pokud jsou

data aktuální, zpracování přes zdrojové systémy je bezproblémové. Problémy se skýtají až když se data stávají historickými, a tudíž negativně ovlivňují procesy reportingu. I proto se řízení datové kvality přesunulo do datových skladů. (6)

Obrázek 3 Rozdíl mezi produkční databází a datovým skladem (zdroj: (5))

Za současný všeobecně přijímaný koncept datových skladů můžeme vděčit americkému počítačovému vědci Billu Inmonovi. Ten definuje datový sklad jako „subjektově orientovaná, integrovaná, časově rozlišená a stálá kolekce dat pro podporu procesu manažerského rozhodování.“ (7)

Tuto definici pak můžeme rozebrat následovně: (7)

• Subjektově orientovaný – datové sklady jsou postaveny okolo primární datové entity nebo subjektů organizace

• Integrovaný – datový sklad integruje data z vícero systémů pro poskytnutí širšího pohledu na podniková data

• Stálý – datový sklad je popisován jako dlouhodobá podniková paměť kvůli své stabilní podstatě, kdy data nejsou aktualizována v reálném čase ale v průběhu času.

• Časově rozlišený – data jsou historicky rozlišována a nejsou vždy aktuální

2.2.1 Vrstvy datového skladu

Základní vrstvy datového skladu si pak můžeme rozdělit na následující vrstvy- (8)

• Zdrojové systémy – vrstva, která obsahuje všechna zdrojová uložiště, která se následně integrují do datového skladu. Není přímo součástí datových skladů, jde tudíž spíše o abstraktní vrstvu.

• Přistávací vrstva – prostor mezi zdrojovými systémy a dočasnými uložišti. Zde se nahrávají data ze zdrojů, čemuž napomáhá k tomu, že je zpracování dat oddělené od zdrojových systémů a v plné režii datového skladu, což je výhodné z výkonnostních důvodů. Této vrstvě také náleží jak relační, tak nerelační datové množiny.

• Dočasné uložiště – v této vrstvě probíhá kontrola a příprava dat pro následnou transformaci. Data v této vrstvě můžeme verifikovat. Poté můžeme provést změny dat, pokud neporušují byznysová pravidla, která mají nastavená. Všechna data v této vrstvě jsou také přesnou kopii současných dat ve zdrojovém systému (včetně jejich struktury).

Přistávací a dočasná vrstva může být implementována dvěma způsoby – Asynchronní nahrání a synchronní nahrání. U asynchronního se data stahují do přistávací vrstvy a až poté jsou

zpracovány, kdežto u synchronního se zdrojové systémy přímo napojují do dočasného uložiště, čímž se úplně přeskakuje vrstva přistávací. Po těchto vrstvách poté ještě následují: (8)

• Integrovaná datová vrstva – tato vrstva uchovává data v organizované podobě umožňující analýzu a výrobu jiných datových struktur. Do této vrstvy mohou mít uživatelé přístup, ale kvůli tomu, že se zde uchovávají všechna data s celou historií, tudíž se zpřístupňují odfiltrované aktuální záznamy. Vrstva má také 4 důležité charakteristiky – centralizovaná databáze (všechna data ze zdrojových systémů uložena rozdílnými způsoby), historizace dat (možnost analýzy dat z dřívějších období), škálovatelnost datových struktur (možnost rozšíření datových struktur bez nutnosti reorganizace současných) a nezávislost na užití.

• Přístupová vrstva – do této vrstvy se již mohou dostat koncoví uživatelé, jedná se totiž o vrstvu, ve které se vytváří datová tržiště podle požadavků jejich konzumentů. Vrstva obsahuje v první fázi sémantickou databázi, která poskytuje překlad zdrojových databázových struktur na byznys pojmy podle daných pravidel a omezení. Často je tato vrstva zakomponovaná v reportovacím nebo dotazovacím nástroji. Sémantická databáze obsahuje pouze data, jejichž spojením lze vytvořit základní obchodní pojmy.

Data z těchto struktur se následně použijí pro tvorbu datových tržišť, ze kterých se již odebírají data pro analýzu a reporting.

• Vrstva dodání informací – zde se již umožňuje byznysovým uživatelům přístup k datům. Většinou tuto vrstvu rozdělujeme na podvrstvy aplikační a prezentační, kde aplikační podvrstva umožňuje přístup analytickým nástrojům, které vyžadují jinou, pro byznysové uživatele těžko čitelnou, strukturu dat, a prezentační podvrstva umožňuje přímý vstup pro byznysové uživatele, a její struktura dat je pro ně čitelná.

Obrázek 4 Vrstvy datového skladu (zdroj: (8))

2.2.2 Dimenzionální modelování

Jádrem řešení tvorby datových skladů je dimenzionální modelování. Podstatou tohoto procesu je vytvoření základní logiky uložení nebo uspořádání dat tak, aby vyhovovala požadavkům na analytické a plánovací aplikace v rámci podnikového řízení. Při dimenzionálním modelování se definují všechny dimenze (včetně jejich obsahu s vnitřní hierarchií prvků a dílčími

charakteristikami jednotlivých dimenzí), soustava sledovaných ukazatelů a specifikují se vazby mezi ukazateli a odpovídajícími dimenzemi. (5)

Pro dimenzionální modelování je charakteristické, že úroveň detailu jeho řešení se může měnit.

Může se také zpřesňovat a konkretizovat v průběhu projektu podle účelu a aktuálních potřeb řešení. Charakteristiky dimenzí jsou následující: (5)

• Identifikace dimenze

• Plný název dimenze

• Hierarchická struktura dimenze

• Prvky dimenze, vyjádřené většinou jejich základní hierarchickou strukturou

• Počty prvků v dimenzi na jednotlivých hierarchických úrovních

• Zdroj dat pro dimenzi, resp. její prvky

• Definování kalkulovaných prvků v dimenzi, které se automaticky promítají do všech přiřazených ukazatelů k dimenzi a zajišťují požadované výpočty

Obecně jsou principy a postupy při modelování dimenzí ovlivněny konkrétním projektem, ale standardně se dodržujeme následující postupy: (5)

1. Výběr a základní obsahové vymezení řešené oblasti podnikového řízení 2. Návrh všech relevantních dimenzí a jejich charakteristik

3. Návrh ukazatelů, jejich dílčích charakteristik a granularity 4. Řešení vazeb mezi dimenzemi a ukazateli

5. Promítnutí řešení do návrhu tabulek dimenzí, návrhu tabulek faktů a návrhu schémat 2.2.3 Logický datový sklad

Výše popsané metodiky a praktiky tvorby datových skladů se již dají pomalu označovat za tzv.

tradiční způsoby tvorby datových skladů, jelikož v posledních letech také vzniká agilnější přístup ke tvorbě datových skladů, nazývaným jako logický datový sklad.

Klasické datové sklady spoléhají na ETL jakožto na prostředníka, který integruje data do skladu a aplikuje transformační procesy. Logické datové sklady pak kvůli stejným důvodům spoléhají na datovou virtualizaci jako jejich prostředníka. Samotná idea spočívá v tom, že se vytvoří model reprezentující všechna data potřebná pro konkrétní doménu, aplikaci nebo analytiku.

Na tento model pak bude možné se dotazovat stejně jako se dotazuje na klasickou databázi. (9)

2.2.4 Master Data Management

S datovými sklady, ale i s datovou virtualizací, je také spjatý pojem Master Data Managementu (dále jen MDM). Ten vyjadřuje potřebu centrálního skladu jako určitý repositář znalostí kritických byznys objektů podniku a navazujících pravidel a procesů. Důležité pro MDM je čistá, normalizovaná verze termínu používaných v podniku – ať už adresy, koncepty či jména – a informace ohledně jejich metadat. Kdykoliv je tedy určitý byznys objekt použitý skrz organizaci, tak by ideálně mělo být možné dohledat data užívaná těmito systémy i v MDM.

Samotná data jsou pak relativně statická (často se nemění) a netransakční, nespadají sem proto

objednávky, faktury nebo účetní zápisy. Ve své podstatě je MDM sám o sobě datovým skladem s jednou konkrétní rolí. (10) (11)

Stejně jako u jiných datových skladů, tak i MDM dává svým stakeholderům pohled „z vrchu“

na všechny datové entity a jejich společné reprezentace. Každopádně, MDM repositář je také centrálním uložištěm všech metadat. Uchovává především omezení týkající se byznys objektů.

Tím můžou být referenční data jako jsou třeba stavy objednávky, typ zákazníka, kategorie produktu aj. Při přenosech dat mezi systémy tedy nepřenášíme pouze primární datové entity (zákazníci, produkty...), ale množství dalších entit, které definují jejich vlastnosti. V mnoha případech se na MDM data můžou její vlastníci dotazovat, tudíž tato data mohou implementovat do svých systémů a procesů, což je považováno za způsob, jak vylepšit risk management, rozhodování a analytiku. (10) (11)

In document Hlavní práce71079_davn00.pdf, 2.6 MB Stáhnout (Stránka 15-19)