3.3 Návrh datové architektury pro Epico s.r.o
3.3.5 Datová kvalita
Datovou kvalitu sledujeme jak na vstupu v rámci jednotlivých transformací, tak přímo i v DWH pomocí dedikovaných reportů.
Sledováním datové kvality na vstupu je myšleno sledování jednotlivých orchestrací přímo v Keboole, jestli všechny automatizované úkoly v rámci orchestrace3 proběhly úspěšně.
V případě nějaké z níže popsaných událostí je automaticky odeslána notifikace na email s popisem problému a odkazem na detail v Keboolu.
3 Orchestrací se v Keboola prostředí myslí složení několika úkolů do jednoho celku, který má přesně dané pořadí, v kterém jsou jednotlivé úkoly vykonávány. Druhou vlastností orchestrace je možnosti nastavení automatizace a opakování.
38
▪ Chyba – orchestrace se dokončila, ale jeden nebo více úkolů v rámci orchestrace selhal
▪ Varování – orchestrace se dokončila, ale jeden nebo více úkolů v rámci orchestrace selhal
▪ Podezřele dlouhý čas procesování – dokončení jednoho nebo více úkolů trvalo o x% déle než obvykle
Obr. 24 Příklad upozornění na chybu při transformacích
Upozornění z Kebooly ale odhalí pouze technické problémy, a to především zdali byly všechny vstupní zdroje správně naimportovány, transformovány a zapsány do DWH, ale nezjistíme, jestli zapsaná data jsou správná. Jinými slovy nezjistíme, jestli náš zákazník odreportoval správná data. K této kontrole dochází až v DWH, a to pomocí dedikovaných reportů vytvořených v Tableau. V těchto reportech například sledujeme chybějící data za aktuální týden, jestli zákazník neodreportoval stejná data jako minulý týden, crosscheck SKU kódů v datech od zákazníků s našimi master daty. Z pohledu našich interních dat kontrolujeme, především jestli neexistují duplicity v master datech.
3.3.6 Reportingová vrstva
Poslední vrstvou architektury datového skladu je reportingová vrstva, která je z pohledu businessu a businessových uživatelů tou nejdůležitější komponentou. Zde dochází k vizualizaci dat, zasazení dat do kontextu a vytvoření příběhu, co nám data říkají. Jak bylo zmíněno v rámci teoretické části práce na trhu existuje mnoho nástrojů používaných k vizualizaci dat. V Epicu jsme se rozhodovali mezi softwarem Tableau a Power BI, které jsou nejrozšířenější. Oba
39
nástroje mají ve své podstatě stejné funkce, hlavní rozdíl pro firmu jako je Epico, je v rozdílné cenové strategii.
Základní verze Power BI Desktop je nabízená zdarma, ale její největší omezení je, že nepodporuje sdílení vytvořených dashboardu s ostatními uživateli. Vyšší verze Power BI Pro stojí 10USD/licence za měsíc, tato verze už podporuje sdílení reportů a dashboardů. Cena nejvyšší verze Power BI premium začíná na cca 5000USD a je pro potřeby Epica zbytečná (MS Power BI pricing, 2020).
Co se týká cenové strategie Tableau, tak Tableau nenabízí free verzi a místo toho nabízí tři různé verze Tableau – Creator, Explorer a Viewer. Creator je plná licence se všemi funkcionalitami a náklady na ní jsou 70USD/měsíc/licence. Explorer je osekaná verze Creatoru, uživatel nemá možnost publikovat vytvořené reporty a dashboardy a neobsahuje Tableau Desktop a Tableau Prep builder. Cena Tableau Explorer je 35USD/měsíc/licence, ale minimální objednávka je 5 licencí. Poslední nabízenou verzí je Tableau Viewer, jehož cena je 12USD/měsíc/licence a minimální počet zakoupených licencí je 100. Tato verze, jak název napovídá, má jen read only přístup, k již vytvořeným reportům a dashboardům (Tableau Pricing, 2020).
I přes vyšší pořizovací náklady jsme se rozhodli k vizualizaci dat používat Tableau.4 Byla zakoupena jedna licence pro vybraného člena obchodního týmů, který vytvořené dashboardy a reporty pravidelně sdílí s ostatními zaměstnanci. V rámci popilotního rozšiřování na další oddělení se bude muset zvolený přístup přehodnotit a rozšířit počet zakoupených licencí.
V rámci reportingové vrstvy existují dvě oddělená prostředí. První obsahuje pravidelné, předem definované reporty a dashboardy, konktrétně se jedná o všechny reporty a dashboardy popsané v této práci. Tyto reporty/dashboardy jsou publikované do Tableau serveru a koncoví uživatelé by neměli mít možnost je měnit. Druhá vrstva je tzv. self-service, kde koncoví uživatelé mohou vytvářet vlastní analýzy, obohacovat data o nové datové zdroje a vytvářet nové reporty a dashboardy. Pokud se ukáže, že reporty vytvořené v rámci self-service jsou z dlouhodobého hlediska užitečné a že by se měly stát součástí pravidelných reportů, tak dojde k jejich přesunu do složky pravidelných reportů. V případě, že byly použity externí datové zdroje, tak budou tato data přidána do DWH.
Příklady jednotlivých dashboardů a reportů
Cílem pilotního projektu bylo vedle návrhu a implementace datové architektury vytvořit reporty, které budou odpovědí na business potřeby definované managementem společnosti,
4 Jak jsem již zmínil, co se funkcionality týká, tak pro firmu typu Epica není mezi Power BI a Tableau ve své podstatě rozdíl. Hlavním důvodem pro upřednostnění Tableau před Power BI byla čistě preference dodavatele, resp. averze jednoho z majitelů k Microsoft.
40
které byly popsány v rámci kapitoly Specifikace business požadavků na řešení. Pro připomenutí se jednalo o
▪ Pravidelný report pro management společnosti
▪ Přehled nejdůležitějších KPIs po zákaznících
▪ Automatizování doporučené výše objednávek pro APR zákazníky
▪ Detail prodejů po produktech a prodejnách pro APR
Dashboard 1: Pravidelný dashboard pro management společnosti
Jedná se o pravidelný report určený pro management společnosti, který obsahuje YTD hodnoty hlavních KPIs – čistý obrat, prodané kusy, marži, stock coverage zákazníků, počet zákazníků a počet obchodů. Celý dashboard je dynamický, tzn. že jednotlivá pole mohou být kliknutím použita jako filtry. Data se dají dále filtrovat pomocí klasických filtrů, a to podle zákazníků, zákaznické hierarchie, produktové hierarchie a také je možné vyfiltrovat prodeje za posledních 6 týdnů (jedná se o business pravidlo). Barvy jednotlivých polí v treemap grafu a sloupců u sloupcových grafů znázorňují procentuální výši marže – čím tmavší barva tím výší marže a naopak.
Obr. 25 Pravidelný report pro management společnosti
41
Dashboard 2: Přehled nejdůležitějších KPIs po zákaznících
Tento dashboard přehledně zobrazuje nejdůležitější KPIs pro jednotlivé zákazníky – čistý obrat, prodané kusy, marži, stock coverage zákazníků a počet obchodů. Ve střední části dashboardu jsou spojnicové grafy zobrazující vývoj prodejů a marže v čase. Ve spodní části se nachází přehled TOP 10 produktů v rámci jednotlivých kategorií a detail prodejů v hodnotě po zemích a obchodech. Stejně jako u předchozího dashboardu, tak i tento je dynamický a jednotlivá pole se dají použít jako filtry. Dále se dají hodnoty filtrovat podle zákazníků, zákaznické hierarchie, produktové hierarchie, obchodu, času (měsíce a týdny), Core products (jedná se předem nadefinovaný subset nejdůležitějších produktů) a i zde je možnost zobrazit pouze prodeje za posledních 6 týdnů.
Obr. 26 Přehled nejdůležitějších KPIs po zákaznících
Report 3: Detail prodejů po produktech a prodejnách pro APR
První report srovnává YTD per store prodeje jednoho zákazníka v jednotlivých zemích přes kategorie. Zároveň je zde zobrazen průměr kategorie, aby by jednoduše identifikovatelné, v jaké zemi jsou prodeje podprůměrné. Barva sloupcových grafů znázorňuje procentuální výši marže – čím tmavší barva tím výší marže a naopak.
42
Obr. 27 Přehled „per store“ prodejů pro jednotlivé zákazníky po kategoriích
Na prvním reportu jsme schopní identifikovat zemi, která je podprůměrná v rámci jedné kategorie. U druhého reportu jdeme o úroveň níž a snažíme se identifikovat konkrétní obchod, který má podprůměrné výsledky pro danou kategorii a zemi.
Přestože oba reporty jsou poměrně jednoduché, tak se ukázaly jako nejsilnější a nejpoužívanější obchodním týmem, protože obchodní tým dokáže velice snadno identifikovat „problémové“
obchody a může tak prezentovat zákazníkům tvrdá data, která jasně ukazují, na co se zaměřit a jaký je potenciál navýšit obrat u podprůměrných prodejen.
43 Obr. 28 Přehled prodejů po kategoriích a obchodech
Report 4: Automatizování doporučené výše objednávek pro APR zákazníky
Posledním vytvořeným reportem v rámci pilotního projektu je automatizování doporučených objednávek. Jedná se o jednoduchou tabulku, která zobrazuje průměrný počet prodaných kusů za 4, 6, 8 nebo 10 týdnů (filtr Sales – weeks), minimální doporučenou výši skladu (Min Stock), současnou výši skladu (Current stock), doporučenou výšku objednávky (Recomm. Order), minimální výši objednávky (Minimum order) a doporučenou výšku objednávky vzhledem k minimální výši (Recomm. Order (w/minimum)). Automatizováním tohoto reportu obchodní tým ušetří cca 4 hodiny týdně.
Obr. 29 Doporučená výše objednávky
44
4 Vyhodnocení pilotního projektu a budoucí plány
Cílem práce bylo vytvořit BI prostředí ve firmě Epico. Na základě vstupní analýzy, business požadavků, organizační struktury a datové gramotnosti firmy bylo vybráno nejvhodnější řešení.
Součástí řešení bylo navržení a následná realizace datového skladu se všemi jeho komponenty – ETL, DSA, jednotlivá datová tržiště a v neposlední řadě reportingová vrstva včetně vytvoření pravidelných dashboardů a reportů.
V rámci vyhodnocení projektu byli jednotliví business uživatelé požádáni o zpětnou vazbu.
Jako největší přínos obchodní tým hodnotí report ukazující detail prodejů po produktech a prodejnách pro APR. Protože na základě tohoto reportu se jim potvrdila jejich domněnka o podprůměrných prodejnách a mohou na základě tvrdých dat vypracovat akční plány s jednotlivými zákazníky na zvýšení prodejů v podprůměrných prodejnách. Bohužel kvůli zhoršující se situaci ohledně COVID-19, zpřísnění sanitárních opatření a následnému uzavření obchodů a obchodních center ve většině zemí, kde Epico operuje, nebylo možné kvantifikovat dopad jednotlivých akčních plánů.
Druhý významný přínos je, že obchodní tým může reporty sdílet se zákazníky, a tím podpořit vzájemnou spolupráci. Ať už se jedná o analýzu prodejů přes jednotlivé prodejny a produktové kategorie, kde je jasně vidět srovnání prodejů napříč jednotlivými obchody a zákazníci mohou sami začít zkoumat, proč se některým produktům na jedné prodejně daří a na druhé ne, nebo o sledování a cílování výše skladu, a s tím spojené automatické doporučení produktů, které by si měli objednat.
Management společnosti pilotní projekt hodnotí jako úspěch a jako hlavní pozitiva, mimo těch zmíněných obchodním týmem, zmiňuje standardizaci a automatizaci reportů, zvýšení datové kvality a vytvoření kvalitního základu pro další rozvoj analytického prostředí. Celkově se tedy dá říct, že cíle pilotního projektu definované v kapitole 2.2. byly naplněny a pilotní fáze může být úspěšně ukončena.
Management společnosti podpořil a odsouhlasil další investice a rozvoj analytického prostředí.
V návaznosti na to byla aktualizována původní road mapa projektu a byly identifikovány oblasti rozšíření, které byly roztříděny podle priority.
45 Obr. 30 Aktualizovaná road map projektu
Vysoká priorita:
▪ Otevření pozice datového analytika/admina – mezi jeho/její hlavní úkoly bude patřit správa, údržba a rozvoj analytického prostředí v rámci popilotního rozvoje definovaného v road mapě.
▪ Master data – vyčištění produktových master dat přímo v K2, kde budou master data spravována i do budoucna
▪ Meziroční evoluce – tím, že od ledna 2021 budou k dispozici historická data za rok 2020, musejí se jednotlivé reporty a dashboardy upravit, aby zobrazovaly meziročního evoluce
▪ Obchodní cíle – obohacení DM1 o obchodní cíle a zároveň úpravu dashboardů, aby zobrazovaly srovnání reality s cíli.
Střední priorita:
▪ Rozšíření na všechny zákazníky – jak bylo zmíněno v úvodu práce, pilotní projekt pracuje pouze s daty zákazníků, kteří poskytují Epicu sell-out data, proto v rámci dalších fází projektu dojde o rozšíření i o ty zákazníky, kteří sell-out data neposkytují, abychom získali celistvý pohled na obrat firmy
▪ Rozšíření o finanční data – obohacení současných dat v DWH o finanční data a vytvoření pravidelného reportingu. Především se bude jednat o různé pohledy na ziskovost zákazníků a produktů a na OPEX (mzdové náklady, cestovní náklady, marketingové náklady, leasing, atd…)
46 Nízká priorita:
▪ Plánování a optimalizace skladových zásob – toto je spíše dlouhodobý cíl a nejedná se o business prioritu, ale současná situace ohledně COVID-19, kdy ze dne na den byla uzemněna většina letadel a dovoz zboží z Číny se výrazně prodloužil, ukázala, že schopnost efektivně a hlavně přesně plánovat výši skladových zásob je kritická. Proto jsme do road mapy projektu zařadili i tento dlouhodobý cíl. Jde především o prozkoumání možností využití automatizace a modelování pro předpovídání prodejů, a s tím spojené optimální výše skladových zásob.
47
Použitá literatura
Breslin, M. (2014). Data Warehousing Battle of the Giants: Comparing the Basics of the Kimball and Inmon Models. BUSINESS INTELLIGENCE JOURNAL.
Epico International s.r.o. (2020). about-us. Načteno z myepico.com:
https://www.myepico.com/
Gartner. (2020). Gartner Magic Quadrant for Data and Analytics Service Providers.
Gartner. (January 2020). Gartner Magic Quadrant for Master Data Management Solutions.
Načteno z Gartner.com: https://www.gartner.com/en/documents/3979521
Gartner. (January 2020). Magic Quadrant for Data Quality Solutions. Načteno z gartner.com.
Inmon, W. H. (2002). Building the Data Warehouse. John Wiley & Sons, Inc.
Keboola. (December 2020). Keboola Pricing. Načteno z keboola.com:
https://www.keboola.com/pricing
Slánský, D. (2018). Data and Analytics for the 21st Century. Praha: Professional Publishing.
Tableau Pricing. (2020). Načteno z Tableau.com: https://www.tableau.com/pricing/teams-orgs Zentut.com. (nedatováno). Načteno z Bill Inmon Data Warehouse :
https://www.zentut.com/data-warehouse/bill-inmon-data-warehouse/