Vymezení základních pojmů - Hlavní práce74802

V této kapitole jsou blíže definovány základní pojmy, které vystupují v dalších částech práce.

Na základě představené oblasti z předchozí kapitoly jsou vybrány nejdůležitější pojmy, které se nejčastěji objevují a přímo souvisejí s tématikou diplomové práce.

2.1.1 Data, informace a datové zdroje

Co to jsou data? Existuje nespočet interpretací, které zachycují specifickou podstatu dat.

Shodují se však v tom, že se jedná o základní stavební kámen v situacích, kdy je nutné udělat nějaká rozhodnutí. S daty průběžně pracujeme a postupně je zpracováváme. Samotné bohatství dat se skrývá v jejich správném a efektivním zpracování. Data mohou interpretovat okolní svět, různé stavy okolo nás nebo také mohou zastupovat procesy neustále probíhající všude kolem nás. Pokud data stojí sama o sobě bez dalšího zpracování, můžeme o nich prohlásit, že nemají žádnou hodnotu (Potančok et al. 2020)

Pojem data bývá často zaměňován s pojmem informace, proto je potřeba se zaměřit na rozlišení těchto pojmů. O informaci velmi zajímavě pojednává publikace (Janich, 2018).

Autor mimo jiné popisuje možnosti chápání informací napříč historií, ale také se zaměřuje na určení současného pojetí. Označení „informace“ bývá odlišně popisováno napříč různými oblastmi, jako je věda, informační technologie nebo psychologie. V pojetí, ve kterém vzniká tato diplomová práce, informace představuje zpracování dat, která byla smysluplně interpretována. Informace tedy vznikají ze samotných dat vhodným využitím technik a metod.

Na data lze nahlížet z mnoha pohledů, ovšem nejběžnější pohled je z hlediska času. Pohled může být směřován na data, která již sehrála svou roli, v budoucnosti a tato data nejčastěji odpovídají na otázky deskriptivní oblasti analytiky. Dále také své důležité postavení zaujímá pohled na současnost neboli na data v reálném čase. Ta odpovídají na diagnostické otázky, kde hledají odpovědi na to proč a jak se to stalo? Poslední pohled ubírá svou pozornost na data do budoucnosti, která jsou hlavním předmětem prediktivní analytiky (Mayer-Schnberger a Cukier, 2013).

Kvalita dat

Aby data mohla spolehlivě plnit úkoly definované business analytikou, musejí splňovat základní požadavky. Kvalita dat představuje jeden z nejdůležitějších požadavků na to, aby výsledek řešeného problému byl spolehlivý. Kvalita dat je také definována jako „…hodnocení vlastností, jako jsou bezchybnost, důvěryhodnost, spolehlivost, dostupnost a integrace.“

(Potančok et. al, 2020). Případná nekvalitní data na sebe mohou navazovat další významné problémy na straně procesů nebo například v kvalitě služeb.

Datové zdroje

Datové zdroje pak představují sady dat, které jsou základem pro získávání potřebných informací následnému rozhodování ve firmě. Kombinování různých zdrojů dat je nápomocné při rozhodování především v tom, že na určitý problém je možné nahlížet z více úhlů pohledu. Samotná business analytika pracuje s celkovým systémem datových zdrojů a přináší nám metody a způsoby, jak využít data co možná nejefektivněji. Dělení datových zdrojů může probíhat různými způsoby a tato dělení jsou blíže definována v publikaci (Potančok et. al, 2020) následovně:

První hledisko se zaměřuje na to, jakým způsobem jsou datové zdroje dostupné. Prakticky se jedná o dvě skupiny, které jsou označeny jako „interní“ a „externí“ zdroje dat. Do skupiny interních zdrojů se zařazují veškeré firemní podklady, které se zaznamenávají a ukládají v rámci jedné firmy. Tato skupina zdrojů představuje primární, a tudíž nejdůležitější část zdrojů, která je potřeba zpracovávat. Druhým zástupcem této skupiny dělení jsou zdroje externí. Jedná se o souhrn veškerých podkladů, který vzniká za hranicemi podniku. Do této oblasti se zařazují především různé statistiky ze statistických úřadů a také legislativní zdroje jako jsou práva nebo obchodní rejstříky. Dále jsou to například katalogy firem a seznamy zastupujících pracovníku, společně s telefonními seznamy nebo také různé databáze, které slouží pro mediální analýzy.

V praxi se dále datové zdroje nejčastěji dělí dle struktury. Ta popisuje uspořádání dat, které hraje významnou roli v dalším zpracování a vyhodnocování. Datová struktura má také vliv na náročnost celého procesu zpracování. Pro rozdělení dat dle struktury jsou vymezené tři skupiny, a to strukturované datové zdroje, semi-strukturované datové zdroje a nestrukturované datové zdroje. Specifickým znakem strukturovaných datových zdrojů je uspořádání do přehledného systému, který je nejčastěji reprezentovaný databázemi.

V daných systémech není nijak zvláště náročné vyhledávat a zároveň vyhledání příslušných dat trvá krátkou dobu. Tento typ datových zdrojů tvoří základ interních databázových systémů, které firmy udržují. Semi-strukturované datové zdroje obsahují data, která mají určité vlastnosti dat strukturovaných, nemají však jejich přesnou podobu. V současné době se s těmito datovými zdroji setkáváme v podobách formátů HTML nebo JSON. Posledními datovými zdroji v tomto rozdělení jsou zdroje nestrukturované. Data z těchto zdrojů nelze přesně uspořádat a organizovat, aby k nim bylo možné později přistoupit standartními praktikami. Hlavní podstatou je velká rozmanitost těchto dat, jelikož tvoří základ asi 95 % všech okolních dat. (Gandomi a Haider, 2015)

Třetí a v tomto výčtu poslední hledisko nahlížející na datové zdroje je v uvedené publikaci označeno jako „Datové zdroje dle místa vzniku“ (Potančok et. al, 2020). Autoři této publikace následně dělí datové zdroje na další skupiny podle toho, kde jsou data produkována. Prvním zástupcem jsou datové zdroje z aplikací. Může se jednat o interní firemní aplikace nebo o aplikace z vnějšího světa. O další místo, kde vznikají data, se starají stroje. Do této problematiky jsou zahrnována prostředí umělé inteligence a internetu věcí (IoT – „Internet of Things“). Poslední skupinou jsou data z různých sociálních sítí,

popřípadě z dalších webů, která pracují se sociálními daty. Jedná se o velmi rozšířenou a pestrou škálu dat, kde hlavní obsah zabezpečují především nestrukturovaná data. Oblast se sociálními daty zmiňují také autoři publikace (Blazquez a Domenech, 2018), kde představují vedle sociálních analýz také analýzy ekonomické. Využívají označení „netradiční zdroje“ a popisují proces zpracování dat právě z těchto zdrojů. Z této publikace je zřejmé, že zpracování dat z webu a různých dostupných ekonomických dat funguje na podobném principu.

Témata popisující data a datové zdroje, se mohou v mnoha pohledech lišit a různorodost popisu vlastností je opravdu značná. V této kapitole jsem se pokusil zachytit podstatu a zpracování dat, způsob, jak na data nahlížet a v neposlední řadě to, odkud se data čerpají.

2.1.2 Big Data

Pojem Big Data ve velké míře ovlivňuje datovou oblast současné doby. Příchod tohoto označení je však nejistý. Ve svém příspěvku (Gandomi a Haider, 2015) autoři připisují popularizaci pojmu „Big Data“ v oblasti business analytiky především společnosti IBM.

Také ovšem zmiňují vyvolání zmatků spojených s náhlým vývojem různorodých definic v této oblasti.

Pro představu Gartner ve svém slovníku definuje pojem Big Data následovně: „Big data is high-volume, high-velocity and/or high-variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation.“(Gartner, 2018a). V definici od Gartnera je možné si všimnout pojmů jako „volume“, „velocity“, „variety“. Všechny tyto vlastnosti se v oblasti Big Dat sledují a v této práci nebude chybět jejich přiblížení. Z textu společnosti Gartner je také zřejmé, že popisovaná oblast přímo ovlivňuje automatizaci procesů, rozhodování nebo také efektivní hospodaření s náklady.

Potančok a další (2020) představují pojem Big Data jako „konceptuální pohled na data, jejich vlastnosti a na technologie“. Technologie dokážou efektivně zpracovávat velké množství dat, které přinášejí další možnosti pro rozsáhlá pozorování. Pro zpracování objemu dat je nutné využívat efektivní nástroje a následovat správné postupy pro práci s takovými objemnými daty. Blazquez a Domenech (2018) ve svém příspěvku identifikují nejčastější producenty obsáhlých datových souborů. Mezi tyto zástupce patří především nejvyužívanější technologie současnosti jako jsou chytré telefony, internet, chytré senzory a další obsáhlý seznam produktů IoT.

Původní koncept základních definic byl shrnutý do základních charakteristik, tzv. model

„3V“. Tento koncept byl vyvinutý na přelomu 21. století a odkazoval na tři základní charakteristiky, které mimo jiné ve své definici využívá Gartner (Laney, 2001):

• Volume (Objem)

Objem představuje velikost datového souboru, který je potřeba zpracovat. Přírůstky dat jsou natolik významné, že toto množství není možné zpracovávat standartním způsobem.

• Velocity (Rychlost)

Rychlost představuje časový usek, za který budou data přemístěna, popřípadě zpracována.

Opět v případě exponenciálního nárůstu objemu dat dochází k prodloužení času potřebného ke zpracování všech výstupů z datových zdrojů.

• Variety (Rozmanitost)

Rozmanitost popisuje velkou nesourodost zpracovávaných dat. Ve většině případů se nezpracovávají pouze strukturovaná data. Nejčastější producenti dat, kterými jsou internetové prohlížeče, chytré telefony nebo senzory, poskytují především semi-strukturované nebo nesemi-strukturované datové zdroje. Je proto nutné se důkladně zaměřit na efektivní zpracování dat z těchto zdrojů.

Tento model byl postupem času rozšiřován na model „4V“. Pohledy na sestavení modelu 4V jsou velmi rozdílné a většina zdrojů jednotlivé charakteristiky skládá odlišně. Například Potančok et. al (2020) k výše zmíněným třem charakteristikám přidává další pojem:

• Veracity (Pravdivost)

Pravdivost se zaměřuje na celkovou konzistenci dat pomocí správy dat a ochrany soukromí.

Z početných datových zdrojů přicházejí velmi nekonzistentní data s odlišným výkladem, proto je zabývání se kontrolou konzistence velice důležité.

Dle autorů další publikace (Blazquez a Domenech, 2018) model 4V doplňuje předchozí charakteristiky, jako jsou objem, rychlost, rozmanitost následující dimenzi:

• Value (Hodnota)

Poslední část, která v předchozím pojetí modelu 4V chyběla je právě hodnota. Zachycuje to proces extrakce hodnotných dat a jejich správné zpracování. Ve velkém množství dat se můžou schovat velmi významné záznamy, které při zpracování a důkladném uložení nesmí být opomenuty.

Rozdílné dimenzionální sestavení modelu 4V je vyřešeno v dalším pojetí, a tím je nově vznikající model „5V“. Jedná se o model, který se začíná v současné době hodně využívat.

Obsahuje všechny již definované dimenze, čímž předchází nesrovnalostem a odlišným definicím charakterizující oblast Big Dat (Bello-Orgaz et al., 2016).

2.1.3 Business intelligence

Dalším důležitým pojmem, který souvisí s tématem této diplomové práce, je Business intelligence. Tato oblast spolu s dalšími figuruje v následující kapitole „Oblasti business analytiky“ a představuje základní stavební kámen celé oblasti.

Pojem business intelligence (zkr. BI) od 90 let 20. století až do prvního desetiletí současného století poskytoval hlavní základnu pro tehdejší analytické snažení. Business intelligence reagovala na rozvoj a nové trendy v této oblasti, tím pádem bylo nutné daný koncept BI

postupně rozšiřovat. V následující kapitole budou uvedeny všechny možné alternativy, ať už se bude jednat o ty historicky základní nebo v současné době vznikající. (Slánský, 2018) Business intelligence se nejčastěji objevuje při popisu systematických procesů, metodik, technologií, znalostí a analytických nástrojů, které využívají systémy pro shromažďování, analýzu a uložení dat, jejichž cílem je efektivní podpora obchodních aktivit a rozhodovacích činností ve společnosti. Tento soubor funkcionalit je potřebný pro analýzu nejdůležitějších firemních dat ze všech možných odvětví (controlling, výroba, HR, prodeje apod.) (Božič a Dimovski, 2019a).

Hlavním přínosem této oblasti jsou základní výstupy všech aplikací BI. Tyto výstupy, které vytváří společnostem konkurenční výhodu, popsali autoři ve své publikaci (Potančok et. al, 2020):

• Vypovídající ukazatele, které je možné sledovat na určeném rozsahu dat

• Kombinace pohledů na příslušné ukazatele v adekvátní časové odezvě

• Sledování vývoje příslušných ukazatelů (s tím souvisí i uchovávání historických dat)

• Grafické zpracování v podobě dashboardů nebo reportů pro přehlednost výstupů založených na zpracovaných datech.

Systémy tradičního pojetí business intelligence zahrnují části, které v systémech zaujímají svou vlastní pozici. Dle pohledu Llave (2017) se jedná o následující základní komponenty:

• Datový sklad, datová tržiště (zvláštní typ relační databáze, kde se ukládají veškerá firemní data)

• Datové pumpy (představuje získání dat ze zdrojových systémů, upravení do požadované formy a uložení do datového skladu) (Potančok et. al, 2020)

• OLAP (v našem případě toto označení nese význam analytické části, která extrahuje znalosti z datového skladu nebo z datových tržišť, aby poskytla běžným uživatelům cestu k mnoha úhlům pohledu na data)

• Digitální dashboardy (Graficky zpracované výstupy, které podávají nejdůležitější informace)

• Reporting (přehledný systém reprezentace získaných informací)

• KPI („Key performance indicator“ popisuje měření úrovně výstupu systému nebo provozu. Tato kontrola probíhá na týdenní, měsíční nebo čtvrtletní bázi) (Gartner 2018e)

Tvůrce článku (Llave, 2017) také potvrzuje teorii z první části této kapitoly a popisuje přechod z klasického označení business intelligence na pojmenování „business analytika“.

Tento směr je zaměřený především na analytické úlohy BI. S tímto novým pojmenováním zavádí představu o spojeném využití pojmů a tím je BI&A (“business intelligence a analytika”). V mnoha dalších publikacích a článcích je využívaný právě tento pojem. Tento termín charakterizují jako nadstavbu klasického BI s využitím dalších analytických aktivit jako například data mining (dolování dat).

In document Hlavní práce74802_mohj00.pdf, 2 MB Stáhnout (Stránka 19-24)