• Nebyly nalezeny žádné výsledky

Hlavní práce75123_hrii00.pdf, 2 MB Stáhnout

N/A
N/A
Protected

Academic year: 2022

Podíl "Hlavní práce75123_hrii00.pdf, 2 MB Stáhnout"

Copied!
55
0
0

Načítání.... (zobrazit plný text nyní)

Fulltext

(1)

Vysoká škola ekonomická v Praze

Fakulta informatiky a statistiky

Data-driven Marketing

BAKALÁŘSKÁ PRÁCE

Studijní program: Aplikovaná informatika Studijní obor: Aplikovaná informatika

Autor: Igor Hrifanov

Vedoucí bakalářské práce: Ing. et Ing. Soňa Karkošková, Ph.D.

Praha, 2021

(2)

Prohlášení

Prohlašuji, že jsem bakalářskou práci zpracoval samostatně a uvedl všechny použité zdroje literatury, ze kterých jsem čerpal.

V Praze dne 8. května 2021 ………...

Igor Hrifanov

(3)

Poděkování

Rád bych poděkoval své vedoucí Ing. et Ing. Soně Karkoškové, Ph.D. za odborné vedení, užitečné rady a připomínky během psaní této bakalářské práce.

(4)

Abstrakt

Cílem této práce je zlepšit porozumění technické části Big Data analytiky (BDA) a její používání v marketingovém kontextu. Konkrétně zanalyzovart technický aspekt BDA, roli BDA v marketingu, přínosy a problémy, které jsou s ní spojeny z pohledu marketingu podniku.

Cíle práce byly naplněny analýzou literatury pomocí metody Systematic Literature Review (SLR) podle postupu, který publikovali Kitchenham a Charter v roce 2007. Práce nabízí systematický přehled 24 vybraných klíčových článků z počáteční množiny 291 článků z let 2017 až 2021. Analýza byla provedena za použitím zdrojů z následujících pěti databází – AMC Digital Library, IEEE Xplore, ProQuest, ScienceDirect a Scopus. První část práce poskytuje teoretický základ oboru Big Data. Druhá část práce je věnována systematické analýze literatury a popisuje výstupy analýzy – identifikované BDA techniky pro extrakci informací z dat, případy užití BDA v marketingu, výhody BDA a problémy, kterým mohou organizace využívající BDA čelit.

Klíčová slova

Marketing, data, analytika, Big Data, zpracování, technologie, internet

(5)

Abstract

The purpose of this thesis is to improve understanding of the technical part of Big Data analytics (BDA) and its use in marketing context. Specifically, to examine technical aspect of BDA, its role, benefits and challenges it presents for modern marketing from a business’s perspective. Objectives is this thesis were fulfilled by conducting a literature analysis using a Systematic Literature Review (SLR) approach published by Kitchenham a Charter in 2007.

Study offers systematic review of 24 selected key articles from initial set of 291 articles from 2017 to 2021. The study was carried out using sources from following five databases – AMC Digital Library, IEEE Xplore, ProQuest, ScienceDirect and Scopus. In the first part thesis provides a theoretical foundation of Big Data field. Second part of the thesis is dedicated to the systematic literature review and describes the outputs of the literature review – identified BDA techniques for insight extraction from data, use-cases of BDA in marketing, benefits of BDA and problems that organizations using BDA could face.

Keywords

Marketing, data, analytics, Big Data, processing, technology, internet

(6)

Obsah

Úvod ... 7

Koncepční úvod do Big Data ... 9

Tradiční systémy podpory rozhodování ...9

Definice pojmu Big Data ...9

Charakteristiky Big Data ... 10

1.3.1. Charakteristiky 5V modelu ... 10

1.3.2. Další Big Data charakteristiky ... 11

Typy dat ... 12

Zdroje dat... 13

Zpracování Big Data ... 14

1.6.1. Dávkové zpracování ... 14

1.6.2. Zpracování v reálném čase ... 15

1.6.3. Hybridní zpracování ... 16

Big Data analytika ... 16

1.7.1. Klasifikace BDA ... 16

2. Systematic literature review ... 19

Výzkumné cíle a otázky SLR ... 19

Použité databáze a citační rejstříky ... 20

Vyhledávání ... 20

2.3.1. Formulace vyhledávacích řetězců ... 20

2.3.2. Kritéria pro zařazení... 21

2.3.3. Výsledky hledání a odstranění duplicit ... 22

Screening a Review ... 23

2.4.1. Screening... 23

2.4.2. Review ... 23

3. Techniky Big Data analytiky ... 25

Přehled identifikovaných technik Big Data analytiky ... 25

3.1.1. Data Mining ... 25

3.1.2. Strojové učení... 26

3.1.3. Deep Learning a umělé neuronové sítě ... 26

3.1.4. Zpracování přirozeného jazyka (NLP) ... 27

3.1.5. Vizualizace ... 28

3.1.6. Statistické techniky ... 28

3.1.7. Optimalizační techniky ... 28

Shrnutí výstupů ze SLR ... 28

4. Využití Big Data analytiky v marketingu ... 30

Přehled identifikovaných případů užití BDA v marketingu ... 32

4.1.1. Analýza trhu a značky ... 32

4.1.2. Profilování zákazníků ... 33

4.1.3. Propagační strategie a personalizace ... 34

4.1.4. Prediktivní modely ... 35

4.1.5. Vývoj nových produktů a služeb... 35

4.1.6. Cenové strategie ... 36

(7)

Shrnutí výstupů ze SLR ... 36

5. Přínosy Big Data analytiky ... 38

Přehled identifikovaných výhod Big Data analytiky ... 39

5.1.1. Porozumění zákazníkům ... 39

5.1.2. Předvídání budoucích událostí ... 39

5.1.3. Rozhodování... 40

5.1.4. Competitive Intelligence ... 40

5.1.5. Snížení nákladů a času ... 40

5.1.6. Inovační proces ... 41

Shrnutí výstupů ze SLR ... 41

6. Problémy v Big Data analytice ... 42

Přehled identifikovaných problémů ve využívání Big Data analytiky ... 42

6.1.1. Infrastruktura ... 42

6.1.2. Volba nástrojů ... 42

6.1.3. Komplexita ... 42

6.1.4. Soukromí a zabezpečení... 43

6.1.5. Zneužívání dominantní pozice ... 44

Shrnutí výstupů ze SLR ... 45

7. Diskuse ... 46

Závěr ... 47

Terminologický slovník ... 48

Seznam objektů ... 48

Seznam literatury ... 49

Přílohy ... 51

Příloha A: ... 51

Příloha B: ... 53

(8)

Úvod

Za poslední desetiletí, především kvůli rychlému tempu digitalizace, se oblast informačních technologií stala pro velkou část podniků klíčovou. V důsledku tohoto trendu se neustále zvyšuje objem generovaných dat z internetu a sociálních sítí, elektronických zařízení, transakčních dat a dalších zdrojů. Taková data mohou mít různé struktury a jsou příliš velké pro manipulaci pomocí tradičních nástrojů pro ukládání a analýzu. Pro taková data se rozšířil termín Big Data. Big Data má obrovský potenciál a implementace Big Data analytiky může podnikům pomoct objevovat skryté pro běžnou analytiku informace. Big Data analytika je výrazně komplikovanější než běžná analytika, používá sofistikované nástroje a metody pro procesování obrovských datasetů a získávání cenných informací z nich.

Jednou z disciplín podniků výrazně ovlivněnou pokrokem informačních technologií a rostoucí oblastí Big Data je marketing. (Arco et al., 2019) V posledních letech se v digitálním marketingu čím dál více používá Big Data analytika. Umožňuje marketérům přijímat lépe informovaná rozhodnutí na základě získaných informací z dat. Přední společnosti, jako Google, Amazon nebo Facebook, dnes aktivně používají Big Data analytiku k podpoře svých marketingových činností. (Arco et al., 2019)

Tato bakalářská práce se zabývá využíváním Big Data analytiky v marketingu z pohledu způsobů analýzy Big Data, využití poznatků Big Data analýzy, přínosů a problémů Big Data analytiky pro společnosti.

Cíle

Hlavním cílem práce je provést analýzu technické stránky Big Data analytiky, její využívání, přínosů a problémů v marketingovém kontextu.

Hlavní cíl bakalářské práce je naplněn pomocí realizace následujících dílčích cílů:

• Provést analýzu technik Big Data analytiky,

• identifikovat způsoby využití Big Data analytiky v marketingu,

• provést analýzu přínosů Big Data analytiky pro společnosti,

• provést analýzu problémů Big Data analytiky pro společnosti.

Pro dosažení cílů práce bude použita metoda analýzy literatury Systematic Literature Review (SLR) podle postupu, který publikovali Kitchenham a Charters v roce 2007 pod názvem Guidelines for performing Systematic Literature Reviews in Software Engineering. Na základě dílčích cílů práce budou zformulovány výzkumné cíle, výzkumné otázky a identifikovány zdroje, zabývající se danými obory problematiky Big Data analytiky v marketingu.

Z relevantních zdrojů budou abstrahovány relevantní informace a bude provedena jejich syntéza do jednoho celku pro zodpovězení každé z výzkumných otázek.

(9)

Kvůli nedostatku odborné literatury v českém jazyce budou použity zdroje v jazyce anglickém, které budou přeloženy do češtiny. Odborné termíny, které se běžně v české literatuře nepřekládají nebo nešly přeložit do českého jazyka bez ztráty původního smyslu, jsou uvedeny v terminologickém slovníku, viz Tabulka 10.

Práce je dělená na 6 částí – (1) První část uvádí do problematiky Big Data a poskytuje teoretické znalosti ohledně oblastí Big Data a Big Data analytiky, které jsou nutné pro pochopení dalších kapitol této práce. (2) Druhá část práce je věnována metodice SLR, popisuje jakým způsobem byl v této práci proveden sběr literatury a její analýza. (3) Třetí část popisuje identifikované analytické techniky Big Data analytiky pro získávání informací. (4) Čtvrtá část se zabývá identifikovanými způsoby využití poznatků Big Data analytiky k podpoře marketingových činností podniku. (5) Pátá část popisuje přínosy, které může mít Big Data analytika pro společnosti. (6) Šestá část popisuje problémy, se kterými se organizace využívající Big Data analytiku mohou setkat.

(10)

Koncepční úvod do Big Data

Big data se stalo klíčovým v oblasti rozhodování v mnoha organizacích. (Shankar, 2019) McKinsey Global Institute (2011) předpověděl, že maloobchodníci využívající Big Data mohou zvýšit svou provozní marži o více než 60 %. Obchodní data se zdvojnásobují každých 1,2 roku a data o zákaznících rostou ještě rychleji. (Shankar, 2019) Tato data zahrnují údaje o prohlížení webových stránek, údaje ze sociálních sítí, údaje o používání mobilních zařízení, údaje o nákupech, údaje o spokojenosti zákazníků a podobně. Například obchodní společnost Walmart shromažďuje údaje o zhruba 1 milion transakcí za hodinu, což je v přepočtu 2,5 terabytů dat. (Shankar, 2019) S růstem internetu věcí (IoT) se navíc nepřetržitě shromažďuje více dat ze senzorů v různých zařízeních, jako jsou chytré hodinky, inteligentní reproduktory a další zařízení připojená k internetu. Tato data vyžadují výkonný software paralelního zpracování běžící na tisících počítačových serverů, často v cloudovém prostředí. (Shankar, 2019)

Tradiční systémy podpory rozhodování

Tradiční systémy podpory rozhodování podporují interní obchodní rozhodování, byly původně založené na datech generovaných transakčními systémy, jako jsou ERP (Jeble et al., 2018). Při dalším vývoji byly podobné systémy přidány i pro podporu rozhodování na straně nabídky a poptávky (SRM a CRM systémy). (Jeble et al., 2018) Pomáhají integrovat interní operace firmy s její obchodními partnery, jako jsou dodavatelé a zákazníci. Používají dobře definovaná strukturovaná data z relačních databází. Na základě těchto dat jsou přijímaná operativní a taktická rozhodnutí (např. oceňování produktů pro optimalizaci prodeje, sledování stavu objednávek, plánování zásob, analýza nákladů, platby nevyrovnaných zůstatků podle jejich doby splatnosti atd.). (Jeble et al., 2018) Tyto informace pomáhají přesně a rychle přijímat interní rozhodnutí. Architektura tradičních systému pro podporu rozhodování zahrnuje hlavní transakční databázi a datový sklad, který ukládá, extrahuje a následně klasifikuje data pro menší databáze. Mining nashromážděných dat z databází pomáhá analyzovat a identifikovat vzory, korelace nebo asociační pravidla. (Jeble et al., 2018)

Definice pojmu Big Data

Termín Big Data se v české literatuře nepřekládá a je všeobecně akceptováno jeho anglické znění. Každá velká společnost definuje termín Big Data trochu jinak, pro lepší porozumění tohoto termínu je níže uvedeno několik definic od různých autorů.

Společnost IBM definuje Big Data jako: “Datasety, jejichž velikost nebo typ přesahuje možnosti tradičních relačních databází tyto data zaznamenávat, spravovat a zpracovávat s nízkou latencí. V Big Data analytice se používají pokročilé analytické techniky nad velmi velkými a různorodými soubory dat, které zahrnují strukturovaná, polostrukturovaná a nestrukturovaná data, z různých zdrojů a v různých velikostech od terabajtů až po zettabyty.” (Gao a Zhang, 2020)

Chen, Mao a Liu (2014) uvádí: „Big Data jsou datasety, které nemohou být vnímány, získávány, spravovány a zpracovávány tradičními softwarovými a hardwarovými nástroji

(11)

Waller a Fawcett (2013) definují Big Data jako „Datasety, které jsou příliš velké pro tradiční systémy zpracování dat, a vyžadují nové technologie pro jejich zpracování.“ (Jeble et al., 2018)

Dubey et al., (2015) uvádí: „Big data je termín, který popisuje velký objem dat strukturovaných i nestrukturovaných, která zaplavují podnik na denní každodenní bázi. Big data lze analyzovat pro získání poznatků, které vedou k lepším rozhodnutím a strategickým obchodním tahům.“ (Jeble et al., 2018)

Charakteristiky Big Data

Big Data je relativně nový koncept. Termín se začal používat počátkem roku 2000 po tom, co průmyslový analytik Doug Laney formuloval dnes již tradiční definici Big Data jako tři V – Volume (objem), Velocity (rychlost) a Variety (různorodost). (Jeble et al., 2018) Po dalším zdokonalování jsou nyní Big Data charakterizována pěti V. K dosavadnímu 3V modelu byly přidány 2 další charakteristiky Veracity (věrohodnost) a Value (hodnota). (Jeble et al., 2018) Tato kapitola se věnuje každé charakteristice 5V modelu a také popisuje 2 další charakteristiky navrhnuté společností SAS.

1. Objem (volume): Velikost dat

Rychlý růst popularity aplikací a závislost lidí na sociálních sítích vede k obrovskému objemu vyprodukovaných dat ze zdrojů jako je Facebook, Google, Netflix nebo online hry. Velikost těchto dat dosahuje terabytů, petabytů nebo dokonce exabytů. Hardwarové a softwarové systémy potřebují manipulovat s těmito daty, což je velmi náročné. (F. Amalina et al., 2020)

2. Rychlost (velocity): Rychlost generování a zpracování dat

Akumulační rychlost dat se neustále zvyšuje v každém podniku nebo organizaci. Tato charakteristika Big Data se odkazuje na rychlost generování dat a jejich analýzy. Rychlost hraje klíčovou roli při streamování dat v reálném čase, kdy jsou data generována online transakcemi, sociálními sítěmi nebo ve formě zvuku či videa. (F. Amalina et al., 2020) Streamování a Big Data analýza v reálném čase jsou velmi náročné kvůli současné infrastruktuře Big Data, ve které je nutné používání speciálních algoritmů pro efektivní a včasnou extrakci informací. (F. Amalina et al., 2020)

3. Různorodost (variety): Typy dat

Data jsou typicky sbírána z různých zdrojů, v různých formátech a s různými typy. Mohou pocházet například ze senzorů, mobilních zařízení, firemních dokumentů, satelitních snímků nebo sociálních sítí. Tato data jsou obvykle ve strukturované, polostrukturované a nestrukturované formě. (F. Amalina et al., 2020)

(12)

Pro analýzu různých typů dat je nutné použití různých nástrojů, softwarů a metod. Volba vhodných nástrojů nebo softwaru pro procesování Big Data je pro datové vědce, analytiky a výzkumné pracovníky velmi náročný úkol. (F. Amalina et al., 2020)

4. Důvěryhodnost (veracity): Spolehlivost a důvěra dat

Označuje přesnost a pravdivost shromážděných dat. Například když se shromažďují nebo přijímají data v reálném čase ze senzorů, může dojít k jejich poškození. (Azlinah et al., 2020) Proto je proces čištění, transformace, filtrování nebo normalizace dat nezbytný pro rozpoznání a vyřazení irelevantních informací. S rostoucím objemem dat se zvyšuje výpočetní složitost čištění. (Azlinah et al., 2020)

5. Hodnota (value): Hodnota získána z využívání Big Data

Hodnota je důležitým aspektem Big Dat pro stanovení, zda jsou objevená data smysluplná a užitečná pro analýzu. Poznatky, které organizace odvodí pomocí analýzy Big Data mohou mít velkou potenciální hodnotu nebo nemusí mít pro organizaci hodnotu žádnou. (Azlinah et al., 2020) Ocenění dat je komplexní úkol vzhledem k počtu datasetů, u kterých se ocenění získaných znalostí musí provést. (F. Amalina et al., 2020)

Firma SAS, zabývající se datovou analytikou, navrhuje 2 další charakteristiky Big Data – Variability (proměnlivost) a Complexity (složitost). (Jeble et al., 2018)

6. Proměnlivost (variability)

Proměnlivost označuje změny v datových tocích, které mohou být nekonzistentní a s periodickými vrcholy zátěže. (Jeble et al., 2018) Nárůsty datových zátěží můžeme pozorovat na denní nebo sezónní bázi. Můžou být také zapříčiněny určitými událostmi, které nelze předem predikovat. Například novým trendem na sociálních, který masivně zvýší datovou zátěž. Správa zátěží datových toků, především u nestrukturovaných dat může být složitý proces. (Jeble et al., 2018)

7. Složitost (complexity)

Data pocházejí z různých zdrojů, což komplikuje jejich propojování, čištění, porovnávání a jejich transformaci napříč systémy. Složitost souvisí s náročností procesování generovaných Big Dat. Aby se práce s daty nevymkla kontrole, je potřeba zajistit jejich správu a vhodným způsobem definovat vazby mezi nimi. (F. Amalina et al., 2020)

(13)

Typy dat

V oblasti Big Data je možné se setkat se třemi kategoriemi dat – strukturovaná, nestrukturovaná a polostrukturovaná data. Tyto kategorie dat mají různé charakteristiky, které vyžadují speciální topologie úložiště, různé techniky zpracování a v mnoha případech odlišné vizualizační přístupy. (Azlinah et al., 2020)

Strukturovaná data

Strukturovaná data jsou bez přípravy rovnou připravené pro analýzu, tvoří však jen malou podmnožinou všech Big Dat. (Azlinah et al., 2020) Strukturovaná data mají specifický formát a relační strukturu. Správa tohoto typu dat je možná pomocí jazyků, jako je SQL, který je nejčastěji používán v systémech správy relačních databází. (Azlinah et al., 2020)

Nestrukturovaná data

Nestrukturovaná tvoří největší část všech dat s podílem okolo 95 % typických Big Data datasetů. (Jabbar et al., 2020) Nestrukturovaná data nemají žádný konkrétní formát. Jsou generována ve formách videí, textu, časových informací a geografických poloh. Poskytují spotřebitelské insighty, které nejsou dostupné ze strukturovaných dat. Nestrukturovaná data nelze ukládat nebo zachycovat ve strukturované formě, protože jejich datové struktura nesedí k žádným předdefinovaným datovým modelům. (Jabbar et al., 2020) Nestrukturovaná data mohou zaznamenávat chování uživatelů na sociálních sítích, údaje o clickstreamech uživatelů, klíčová slova z vyhledávačích enginů. Tato data poskytují vhled do spotřebitelského myšlení v reálném čase. (Jabbar et al., 2020).

Polostrukturovaná data

Polostrukturovaná nebo částečně strukturovaná data mají formu strukturovaných dat, která se neřídí tabulkovou strukturou datových modelů, asociovaných s relačními databázemi, nebo jinými formami datových tabulek. Obsahují tagy nebo jiné značky k oddělení sémantických prvků a vynucení hierarchie záznamů v datech. (Jabbar et al., 2020) Správa ani analýza polostrukturovaných dat není možná pomocí technik tradičních databází (Azlinah et al., 2020)

Obrázek 1 níže popisuje vlastnosti strukturovaných a nestrukturovaných dat:

(14)

Obrázek 1: Vlastnosti strukturovaných a nestrukturovaných dat, zdroj: (A. Jabbar et al., 2020)

Zdroje dat

Kromě tradičních informačních systémů pocházejí Big Data z jiných zdrojů, jako jsou sociálních sítě, cloudové aplikace, aplikační software, zařízení datových skladů, síťové technologie, historické dokumenty, obchodní aplikace, meteorologická data nebo data ze senzorů (Jeble et al., 2018) (viz Obrázek 2). V této kapitole jsou rozebrány nejběžnější zdroje Big Data.

Obrázek 2: Taxonomie Big Data zdrojů, zdroj: (F. Amalina et al., 2019)

Transakční data

Všechna historická data jsou známá jako transakce a systémy sledování těchto transakcí se označují jako „Transactional Processing Systems“. Transakční data spojena se statistickými nástroji, jako je regresní analýza nebo rozhodovací stromy. Mohou pomoci při definování prediktivních modelů prodejů nebo úrovně úspěchu nového produktu. Prediktivní modely mohou přijímat historická data jako vstupy (nezávislá proměnná) a předpovídat závislou

(15)

proměnnou. Takové modely lze vytvářet pomocí statistických nástrojů, jako je SPSS nebo SAS.

(Jeble et al., 2018)

Internet

Internet je bohatým zdrojem generovaných dat. Miliardy lidí surfují přes miliony webových stránek, což generuje enormní objemy dat ve formě kliků nebo vyhledávací historie. Existuje mnoho webů online elektronické komerce (Amazon, Alibaba, eBay), vyhledávačů (Google, Yahoo, Bing) nebo aplikací online bankovnictví, které denně používají miliony uživatelů.

(Jeble et al., 2018)

Sociální sítě

Obrovské množství dat se generuje prostřednictvím komentářů a názorů uživatelů, obrázků, videí a zvukových dat na sociálních sítích, jako je Twitter, Facebook, Instagram, LinkedIn nebo YouTube. (Azlinah et al., 2020)

Popularita sociálních sítí vede v posledních letech ke shromažďování informací ze všech možných míst na světě. Informace o událostech se objevují na sociálních sítích hned po tom, co k nim dochází. Lidé sdílí své názory a zpětnou vazbu ohledně produktů, služeb nebo filmů na Facebooku nebo Twitteru. To poskytuje jedinečnou příležitost shromažďování informací o trhu. (Jeble et al., 2018)

Data z elektronických zařízení

Existuje mnoho elektronických médií, jako jsou chytré telefony, RFID tagy, GPS senzory, elektronické stroje připojené k sítím, skenery, kamery, které denně generují velké objemy datových souborů. (Jeble et al., 2018)

Zpracování Big Data

V Big Data analytice existují dva způsoby procesování dat – (1) Dávkové zpracování (Batch processing), při kterém se najednou zpracovává jednotka dat (dávka), která byla shromážděna za určitý časový horizont. Druhým způsobem Big Data processingu je (2) Zpracovávání v reálném čase (Real-Time Processing), které zpracovává datové proudy v reálném čase. (Jeble et al., 2018). Mezi třetí způsob se také řadí Hybridní zpracování, které je kombinací předešlých dvou způsobů.

První metoda Big Data zpracování je známá jako dávkové zpracování. Obvykle se používá v aplikacích, kde data přirozeně zapadají do konkrétního časového okna. (Jabbar et al., 2020)

(16)

Je to vysoce efektivní metoda pro procesování velkého množství dat, která byla shromážděna za delší čas. (Jabbar et al., 2020) Shromažďování a ukládání těchto dat vytváří extrémně velké datasety, jejich ukládání je nákladné a vyžaduje velkou infrastrukturu pro zprávu (Jabbar et al., 2020). Dávkové zpracování je navrženo tak, aby podporovalo shromažďování a ukládání strukturovaných a nestrukturovaných datasetů. (Jabbar et al., 2020)

Data ze sociálních médií, clickstreamy, vyhledávání ze search enginů, geolokace a data z inteligentních zařízení lze ukládat spolu s interními údaji, jako jsou transakce a informace o prodejích. (Jabbar et al., 2020) V případech, kdy se shromažďuje takové velké množství dat a většina infrastruktury je vyvinutet alem cloudových systému, vždy nastává problém integrity a latence dat (Jabbar et al., 2020) Kvůli těmto výzvám existuje software, frameworky a koncepty, které byly speciálně navrženy pro dávkové zpracování Big Data, nejpopulárnější z nich je programovací model MapReduce a nástroj Hadoop. (Jabbar et al., 2020)

MapReduce

Dávkové zpracování je většinou reprezentováno modelem MapReduce. MapReduce je open- source programovací model a framework používaný v nástroji Hadoop k umožnění procesování Big Data pomocí clustrových paralelních výpočtů. (F. Amalina et al., 2020).

Hadoop je nejznámější implementací MapReduce (Azlinah et al., 2020). MapReduce slouží k mapování dvou základních funkcí Map() a Reduce(). Map() funguje jako filtr, seskupuje a třídí data. Funkce Reduce() agreguje a vizualizuje tyto data. (F. Amalina et al., 2020). Úlohou těchto dvou funkcí v rámci dávkového zpracování je zajistit škálovatelnost dat, ta je však kompromisem k délce latence. (Azlinah et al., 2020)

MapReduce má především 2 nevýhody. Na jedné straně při procesování velkého množství dávkových dat obvykle může být potřeba zřetězit několik úloh za sebou, aby bylo možné procesování provést jako jednu úlohu. (Jabbar et al., 2020) Na druhé straně jsou průběžné výsledky z fáze Map fyzicky ukládány na pevný disk, což snižuje rychlost (z hlediska doby odezvy). Neustálé čtení a zápis z místních souborů a vytváří významnou latenci při procesování. (Jabbar et al., 2020) V současné době je vyvíjeno značné úsilí při navrhování nových řešení k překonání těchto problémů MapReduce modelu. (Azlinah et al., 2020)

Druhá metoda Big Data zpracování je známá jako zpracování v reálném čase. Vyžaduje kontinuální zpracování proudových dat pro generaci výstupů v co nejkratší době. Je charakterizováno malým (oproti dávkovému zpracování) objemem nahromaděných dat.

(Azlinah et al., 2020) Dávkové zpracování je navrženo pro získávání přesných výsledků z velkých datových souborů, které byly shromážděny za období delšího časového horizontu, zatímco zpracování v reálném čase je navrženo tak, aby průběžně přijímalo aktualizované datové soubory pro okamžité zpracování. V tomto případě se rozdíl mezi dávkovým zpracováním a zpracováním v reálném čase stává klíčovým. (Jabbar et al., 2020). Ve zpracování v reálném čase jsou data považována za dynamická (neustále se měnící) a aktualizovaná na základě aktuálních faktorů prostředí. (Jabbar et al., 2020).

(17)

Zpracování logů, machine-to-machine data, senzory, telematika vyžadují zpracování a analýzu datových proudů v reálném čase. Za tímto účelem byly vyvinuty Big Data platformy pro zpracování v reálném čase, jako jsou Storm, S4, Splunk nebo Apache Kafka (Azlinah et al., 2020)

Hybridní zpracování syntetizuje jak dávkové, tak proudové zpracování pomocí Lambda architektury. (Azlinah et al., 2020) Lambda architektura je navržena k procesování velkého množství dat s využitím výhod obou metod zpracování. Tato architektura je tvořena třemi vrstvami: (1) dávková vrstva, spravuje hlavní datovou sadu, která byla uložena v distribuovaném systému a nelze ji měnit, (2) služební vrstva, načítá a generuje datové pohledy z dávkové vrstvy pro konkrétní dotazy, (3) rychlostní vrstva, zabývá se pouze novými daty s nízkou latencí. Konečný výsledek je tvořen sloučením dávkových a real-time datových pohledů. (Azlinah et al., 2020)

Big Data analytika

Big Data analytika (BDA) se ukázala jako důležitý nástroj pro získávání znalostí a podporu manažerského rozhodování. (Rejeb et al., 2020) Umožňuje shromažďovat mnoho dat v různých formách, s různými strukturami ze složitých distribuovaných systémů. Data jsou obvykle čištěna a filtrována pomocí pokročilých a výpočetně náročných analýz a jsou následně jsou proměňována na insights o zákaznicích, která jsou užitečná pro marketingová rozhodnutí.

(Rejeb et al., 2020)

Před vynálezem počítačů měli lidé omezené schopnosti ukládat a zpracovávat data. Mnoho odborníků se rozhodovalo na základě své intuice. Intuitivní rozhodnutí však nebyly vždy dokonalé kvůli nedostatku kapacity pro zpracování obrovského počtu dat. (Jeble et al., 2018) Vlastnosti Big Data, jako objem, rychlost a různorodost, zlepšily statistickou spolehlivost analýz a pomohly se zdokonalováním modelů. (Jeble et al., 2018)

BDA se používá při rozhodování v oblasti elektronické komerce, e-governmentu, politiky, vědy, technologie, zdraví, bezpečnosti a veřejné bezpečnosti prostřednictvím segmentace databází, těžby grafů, analýz sociálních sítí, textu, webů a sentimentů, analýz kybernetických útoků, analýz vícejazyčných textů, analýz zdraví a sítě pacientů. (Jeble et al., 2018)

Obecně lze BDA rozdělit do 3 kategorií podle účelu použití – (1) deskriptivní, (2) prediktivní a (3) předpisová. (Jeble et al., 2018) (1) Popisná neboli deskriptivní analytika se zabývá interpretací historických dat prostřednictvím reportů a dashboardů, což pomáhá lépe pochopit, co se stalo. (2) Prediktivní analytika pomáhá pochopit, co se může stát. Zabývá se tvorbou předpovědí založených na historických datech, hledá v nich korelace mezi proměnnými a vzory. (3) Předpisová neboli preskriptivní analytika je další mocnou kategorií nástrojů, které podporují exekutivní rozhodování. Pomáhají porozumět různým výsledkům

(18)

v závislosti na různých scénářích. Skládá se z různých nástrojů, jako je optimalizace, simulace, analýzy rizik scénářů na základě změn vstupní sady parametrů. (Jeble et al., 2018)

Zdroje dat hrají důležitou roli ve způsobu, jakým mohou být použity pro analýzu. Podle zdrojů dat lze analýzy rozdělit na textovou, zvukovou, analýzu videa, sítí nebo analýzu geografických dat (F. Amalina et al., 2019) (viz Obrázek 3).

Obrázek 3: Kategorie datové analýzy, zdroj: (F. Amalina et al., 2019)

Obrázek 4 ilustruje klasifikační rámec Big Data analytiky podle Azlinah et al., (2020).

Klasifikační rámec ilustruje 5 domén Big Data – (1) zdroje dat, (2) formát dat, (3) nástroje pro různé typy zpracování Big Data (dávkové, zpracování v reálném čase nebo hybridní), (4) techniky a nástroje používaných pro analýzu Big Data a (5) techniky a nástroje pro Big Data vizualizaci.

(19)

Obrázek 4: Rámec Big Data analytiky, zdroj: (Azlinah et al., 2020)

(20)

2. Systematic literature review

Na základě definovaných cílů bakalářské práce je k jejich naplnění použit postup metody Systematic Literature Review (SLR), který publikovali Kitchenham a Charters v roce 2007 pod názvem Guidelines for performing Systematic Literature Reviews in Software Engineering.

Analýza literatury v této práci zahrnuje následující fáze:

1. Formulace výzkumných cílů a otázek 2. Výběr databází a citačních rejstříků 3. Vyhledávání

a. Formulace vyhledávacích řetězců b. Stanovení kritérií pro zařazení c. Odstranění duplicitních článků 4. Screening a review

Výzkumné cíle a otázky SLR

Na začátku práce z hlavního cíle byly zformulovány dílčí cíle, pomocí kterých je tento cíl naplněn. Z každého dílčího cíle (DCn) byl zformulován jeden výzkumný cíl SLR (VCn).

Diagram 1 znázorňuje propojení dílčích cílů a výzkumných otázek práce.

Diagram 1: Sladění dílčích cílů práce a výzkumných cílů SLR, zdroj: autor

Pro analýzu literatury byly stanovené následující výzkumné cíle:

• VC1: Identifikovat a poskytnout systematický přehled analytických technik Big Data analytiky ze zkoumané literatury.

• VC2: Identifikovat a poskytnout systematický přehled způsobů využití Big Data analytiky v marketingu ze zkoumané literatury.

• VC3: Identifikovat přínosy Big Data analytiky pro podniky a poskytnout systematický přehled přínosů ze zkoumané literatury.

DC1: Provést analýzu technik Big Data analytiky VC1

DC2: Identifikovat způsoby využití Big Data analytiky

v marketingu VC2

DC3: Provést analýzu přínosů Big Data analytiky pro

společnosti VC3

DC4: Provést analýzu problémů Big Data analytiky pro

společnosti. VC4

(21)

• VC4: Identifikovat problémy Big Data analytiky, se kterými se podniky využívající BDA mohou setkat, a poskytnout systematický přehled problémů ze zkoumané literatury.

Z výzkumných cílů SLR byly zformulovány následující výzkumné otázky:

RQ1: Jaké analytické techniky se využívají k analýze Big Data?

RQ2: Jakými způsoby se v marketingu využívá Big Data analytika?

RQ3: Jaké jsou přínosy Big Data analytiky pro podniky?

RQ4: S jakými problémy se společnosti využívající Big Data analytiku mohou setkat?

Použité databáze a citační rejstříky

Dalším krokem systematické analýzy literatury je hledání relevantních studií. Pro hledání literatury byly vybrány známé akademické plnotextové databáze a citační rejstříky, které obsahují články z oboru počítačové vědy a umožňují pokročilé filtrování obsahu pro omezení množiny článků na základě kritérií pro zařazení. Vybrané databáze jsou buď předplacené knihovnou VŠE nebo mají volně dostupný obsah. Před výběrem každé databáze bylo provedeno zkušební hledání článků z oboru Big Data analytiky v marketingu. Výzkum zahrnuje následující online databáze:

• AMC Digital Library

• IEEE Xplore

• ProQuest

• Sciencedirect

• Scopus

Vyhledávání

Tato kapitola je popisuje proces hledání literatury ze zvolených databází.

Následujícím krokem je vytvoření relevantních vyhledávacích řetězců. Na základě výzkumných otázek byly v únoru 2021 tvořeny zkušební vyhledávací řetězce, u kterých byla následně kontrolována relevance výsledků podle názvů a abstraktů nalezené literatury.

Error! Reference source not found. zobrazuje formulace 2 finálních vyhledávacích řetězců.

Řetězce byly zformulované průběžnou analýzou výsledků zkušebních vyhledávacích řetězců.

Oba řetězce vyhledávají články, které v abstraktu obsahují termíny „DATA ANALYTICS“ nebo

„BIG DATA“ a zároveň termín MARKETING, jelikož jsou vyhledávány články o datové analytice v marketingu.

(22)

Tabulka 1: Vyhledávací řetězce, zdroj: autor

Název řetězce Kombinace klíčových slov

QUERY 1 ABSTRACT("data analytics" OR "big data") AND ABSTRACT(marketing) AND customer AND (internet OR online) AND review

QUERY 2 ABSTRACT("data analytics" OR "big data") AND ABSTRACT(marketing) AND algorithm AND collection AND review

Dále jsou k oběma dotazům přidány další klíčová slova. První dotaz se primárně vztahuje na výzkumné otázky, které řeší výhody, problémy a způsoby využití Big Data analytiky v marketingu. K prvnímu dotazu jsou přidány klíčová slova CUSTOMER (zákazník), INTERNET a ONLINE, které jsou kvůli své zaměnitelnosti odděleny booleanským operátorem OR, a klíčové slovo REVIEW.

Druhý dotaz je cílen na technickou stránku Big Data analytiky v oblasti analýzy sbíraných dat.

K druhému dotazu jsou přidány klíčová slova ALGORITHM (algoritmus), COLLECTION (sběr) a REVIEW.

Oba vyhledávací řetězce obsahují klíčové slovo REVIEW, abychom zacílili především na přehledové články, které popisují danou problematiku. Slovo REVIEW musí být obsaženo v plném textu článku. Z předchozího zkoumání bylo zjištěno, že některé relevantní články slovo REVIEW v abstraktu neobsahují, ale popisují danou problematiku a jsou pro danou analýzu relevantní. Z tohoto důvodu slovo REVIEW není podmínkou v abstraktu.

V první verzi vyhledávacích řetězců byl termín MARKETING v abstraktu zaměnitelný s termínem BUSINESS. Oba termíny byly odděleny operátorem OR. V kombinaci s ostatními vyhledávacími klíčovými slovy a po aplikaci kritérií pro zařazení z další kapitoly obsahovala výsledná množina článků 463 článků. Během Screeningu této množiny literatury bylo slovo BUSINESS kvůli irelevantním výsledkům odstraněno z vyhledávacích řetězců. Výsledné články musí explicitně obsahovat termín MARKETING v abstraktu.

Dále následují kritéria pro zahrnutí nebo vyřazení studií do Screeningu. Níže jsou uvedeny zařazovací kritéria pro zkoumanou literaturu. Filtrování literatury bylo provedeno ve vyhledávacích databázích.

Kvůli enormně rychlému vývoji odvětví Big Data analytiky byly do výzkumu zahrnuty pouze články vydané po roce 2017 včetně. Zahrnuty jsou dále pouze odborné články v angličtině, které prošly oficiálním redakčním procesem a mají dostupný plný text.

(23)

Kritéria pro zařazení

• Jedná se o odborný článek

• Článek je zrecenzovaný

• Článek je psaný v anglickém jazyce

• Článek byl vydán po roce 2017 včetně

• Článek je volně dostupné tzv. má dostupný plný text Kritéria pro vyřazení

• Do analýzy nebudou zařazeny videa, knihy, novinové články, články z blogů, diplomové a disertační práce

• Článek není zrecenzovaný

• Článek nebyl zatím oficiálně vydán (Early Access)

• Článek nemá volně dostupný full text

• Článkem je v jiném jazyce než anglickém

• Článek byl vydán před rokem 2017

• Článek nemá volně dostupný plný text

Hledání proběhlo v březnu 2021. Pomocí definovaných vyhledávacích řetězců a omezení bylo nalezeno 291 článků. Výsledky hledání v jednotlivých databázích byly následující: AMC 36 článků, IEEE Xplore 28 článků, ProQuest 112 článků, ScienceDirect 28 článků, Scopus

87 článků. Tabulka 2 zobrazuje výstupní množinu vyhledaných článků podle databází a vyhledávacích řetězců.

Tabulka 2: Výstupy hledání z dotazů QUERY1 A QUERY2, zdroj: autor

Název databáze Počet článků z QUERY 1

Počet článků z

QUERY 2 Celkem Procento z celku

AMC 14 22 36 12,4 %

IEEE Xplore 14 14 28 9,6 %

ProQuest 81 31 112 38,5 %

ScienceDirect 20 8 28 9,6 %

Scopus 77 10 87 29,9 %

Celkem 206 85 291 100 %

V následujícím kroku byly získané množiny článků z dotazů Query1 a Query2 spojeny do jedné přes jednotlivé databáze, kdy byly odstraněny duplicitní položky (viz Tabulka 3).

(24)

Tabulka 3: Spojení dotazů QUERY1 a QUERY2, zdroj: autor

Název databáze Unikátní články Procento z celku

AMC 23 10,0 %

IEEE Xplore 17 7,4 %

ProQuest 85 37,0 %

ScienceDirect 21 9,1 %

Scopus 84 36,5 %

Celkem 230 100 %

Po odstranění duplicitních článků mezi dotazy Query1 a Query2 přes jednotlivé databáze tvořila celková množina literatury 230 článků.

Po sloučení článků mezi databázemi se celkový počet jedinečných článků rovná 206.

Screening a Review

Dalším krokem analýzy literatury je Screening. Screening byl proveden na základě názvů jednotlivých článků a jejich abstraktů. Po přečtení názvů a abstraktů 206 článků bylo 113 článků označeno za nerelevantní pro cíle této práce a byly vyřazeny. Po provedení Screeningu se množina literatury zúžila na 93 článků.

Pro zařazení článku do Review množiny analýzy byly stanoveny kategoriální kritéria. Vybrané články se musí ve svém obsahu zabývat alespoň jednou z následujících oblastí:

1. Přínosy BDA v marketingu

2. Výzvy, nevýhody, hrozby BDA v marketingu

3. Způsoby zpracování Big Data, analytické techniky BDA 4. Způsoby využití BDA v marketingu

Oblasti byly zformulovány na základě výzkumných otázek. Všechny články ze Screeningu se zabývají datovou analytikou v marketingu, ale pro účely analýzy je nutné vybrat pouze články, které se týkají cílů výzkumu. Při provádění Review byl zanalyzován každý článek v plném textu ze Screeningové množiny 93 článků a byla posouzena jeho relevance. Na základě stanovených kritérií pro Review bylo vybráno 43 potenciálně relevantních článků pro výzkum. Tabulka 11 v příloze A vyjmenovává zvolené články z Review. V tabulce se uvádí název, rok vydání, autor článku a kterými oblastmi se článek zabývá.

(25)

Po detailním rozboru jednotlivých článků z Review bylo v analýze použito 24 článků. 19 článků z Review bylo vyřazeno kvůli tomu, že neobsahovaly relevantní informace pro zodpovězení na výzkumné otázky. Tabulka 12 v příloze B vyjmenovává finální množinu článků použitých v této práci. U každého článku je v tabulce uveden název článku, rok vydání a jeho autor.

Proces výběru literatury pomocí SLR metody byl vizualizován pomocí Prisma flow diagramu (viz Diagram 2).

Sc reeni ng Z ah rnu t é R evi ew Ident if ik ac e

Záznamy identifikované pomocí

databázového vyhledávání (n = 291)

Záznamy po odstranění duplikátů (n = 206)

Ověřené záznamy podle názvu a abstraktu (n = 93)

Vyřazené záznamy (n = 113)

Články v plném textu posouzené jako vhodné

(n = 43)

Články v plném rozsahu odůvodněné jako vyřazené

(n = 50)

Články zahrnuté do systematické analýzy literatury

(n = 24)

Diagram 2: PRISMA flow diagram identifikace a výběru vhodných článků, zdroj: autor

(26)

3. Techniky Big Data analytiky

Tato kapitola se pojí na první výzkumnou otázku SLR. Popisuje výsledky analýzy literatury, jejíž cílem byla identifikace analytických technik pro získávání informací z Big Data.

Přehled identifikovaných technik Big Data analytiky

V následujících podřazených podkapitolách jsou detailně popsány analytické BDA techniky, které byly identifikované ze zkoumané literatury.

Data Mining nebo také dolování z dat je proces objevování vzorů ve velkých datasetech pomocí různých statistických technik, počítačových programů a databázových systémů. Pomáhá při získávání užitečných informací z korelací a asociací mezi různými proměnnými. (Jeble et al., 2018)

Data Mining zahrnuje subdisciplíny jako Text Mining, Web Mining nebo Mining sociálních médií. Tyto subdisciplíny často na sebe navazují a používají stejné techniky zpracování informací. Tyto techniky miningu jsou popsány níže (viz Tabulka 4).

Tabulka 4: Subdisciplíny Data Miningu, zdroj: autor

Text Mining Text Mining nebo dolování textu, je technika umělé inteligence, která převádí nestrukturovaná data na strukturovaná pomocí NLP (zpracování přirozeného jazyka) algoritmů strojového učení. Text mining je populární technikou v oborech počítačové vědy, informační vědy, matematiky a managementu pro těžbu znalostí. (Hair et al., 2018) Zahrnuje disciplíny jako shlukování textu, analýzu sentimentu a kategorizaci. (Arco et al., 2019)

Web Mining Web Mining pomáhá získávat užitečné informace z webového obsahu. Obsah webových stránek se skládá ze zvukových souborů, videí, textu a obrázků. Kvůli nestrukturovanosti těchto souborů se proces kategorizace, filtrování a interpretace komplikuje. Pro prozkoumávání jednotlivých webových uzlů a propojených dat se používají například techniky teorie grafů. (Azlinah et al., 2020)

Mining sociálních médií

Social Big Data představují data shromážděná z blogů a webů sociálních médií. Mají velký objem, jsou nestrukturované, obsahují šum a mají dynamický charakter. Obsahují vazby na různé uživatele a mají nedostatek úplnosti. (Reddy, 2017) Kvůli těmto charakteristikám dat sociálních médií se zpracovávají odlišnými způsoby. Nejčastější se v oblasti miningu sociálních médií řeší šíření vlivu, expert finding, systémy doporučení, predikce odkazů, detekce komunit, analýza sentimentu, předpovědi důvěry a nedůvěry mezi jednotlivci.

Nejběžnějším marketingovým případem užití analytiky sociálních médií je analýza sentimentu zákazníků za účelem podpory marketingových a zákaznických služeb. (Reddy, 2017)

(27)

Strojové učení zahrnuje techniky, které umožňují počítačům se učit ze zkušeností z empirických dat, tj. postupně zlepšovat svůj výkon bez výslovné předdefinované sady pravidel, která je uložena v paměti. (Paschen et al., 2019) Strojové učení zahrnuje algoritmy pro shlukovou analýzu, klasifikaci, asociační analýzu a regresi. K typickým algoritmům strojového učení patří algoritmus shlukové analýzy K-means (metoda nejbližších středů) a rozhodovací stromy.

Strojové učení se dělí na 3 druhy – (1) Učení s učitelem, (2) Učení bez učitele a (3) Zpětnovazebné učení. Každý z těchto 3 druhů je popsán detailněji, viz Tabulka 5.

Tabulka 5: Druhy strojového učení, zdroj: autor

Učení s učitelem

Spoléhá na člověka, který definuje vstupy a požadované výstupy. Počítači jsou poskytována trénovací data spolu se správnými štítky, z nichž se učí vzory a rozvíjí pravidla, která se mají použít v budoucích případech stejného problému. Z těchto dvojic vstupů a výstupů se počítač učí požadovanému chování. Metody učení s učitelem se používají v aplikacích pro rozpoznávání objektů a řeči nebo pro klasifikaci zákazníků s rizikem odchodu, (Paschen et al., 2019) Je to nejpoužívanější metoda strojového učení v praxi. (Walters a Bekker, 2017)

Učení bez učitele V učení bez učitele jsou systému poskytovány pouze vstupy. Učení bez učitele nemá závislou proměnnou. Řeší hlavně deskriptivní úkoly jako hledání neznámých vzorů nebo vztahů.

(Walters a Bekker, 2017) Má za cíl najít strukturu ve vysoko dimenzionálních datech (např.

shlukování). (Paschen et al., 2019)

Zpětnovazební učení

Snaží se naučit počítač inteligentnímu chování z jeho vlastních minulých zkušeností. Učí z různých zdrojů, nejen ze strukturovaných a nestrukturovaných vstupních dat, ale také ze svých vlastních procesů. (Paschen et al., 2019) K dosažení tohoto cíle počítač rozšiřuje obsah uložený ve znalostní bázi o nové koncepty nebo fakta a zdokonaluje procesy řešení problémů a uvažování. Tím se zvyšuje jeho kompetence při řešení širší škály problémů a zvyšuje se přesnost, s jakou jsou řešeny znovu se vyskytující úkoly. (Paschen et al., 2019)

Aby strojové učení bylo použitelné při práci s pracovním vytížením Big Data analytiky, používají se paralelní programovací modely, jako je Hadoop a MapReduce, které pomáhají škálovat algoritmy strojového učení pro zpracovávání velkých datasetů. (Azlinah et al., 2020) Existují také open-sourcové projekty, jako Mahout a Spark MLlib, které řeší problémy škálovatelnosti algoritmů strojového učení. Poskytují distribuované prostředí pro procesování velkých datasetů. (Azlinah et al., 2020)

Umělé neuronové sítě (Artificial neural networks, ANN) jsou základním algoritmem pro analýzu obrazu, adaptivní řízení, rozpoznávání vzorů a kompresi zvuku a obrazu. Technika hlubokého učení (Deep Learning) je jednou z populárních technik využívajících ANN k získávání informací ze složitých datasetů a k objevování korelací v datech. (Azlinah et al., 2020)

(28)

ANN se skládají ze síťových vrstev, z nichž každá provádí srovnatelně jednoduché výpočty v závislosti na svém vstupu a předává výsledky výpočtů do další vrstvy hlouběji do sítě (Arco et al., 2019) Ačkoli je každý výpočet matematicky jednoduchý, síť jako celek má díky kaskádové struktuře velkou výpočetní složitost. (Paschen et al., 2019) Například v ANN pro kategorizaci obrázků, neurony (uzly) v první vrstvě mohou přijímat své vstupy z pixelů obrazu a testovat existenci jednoduchých orientovaných čar. Další vrstva poté provádí výpočty nikoli už na základě pixelů, ale na úrovni orientovaných čar z předešlé vrstvy, a detekuje tak složitější tvary (křivky, kříže atd.). Jednotky hlouběji v síti se stávají citlivějšími na stále složitější tvary.

Výstupní vrstva sítě pak přímo odpovídá pravděpodobnosti, že obrázek obsahuje hledanou kategorii obrazu. (Paschen et al., 2019) Vstupem nemusí být pouze obraz, ale například zvukové vlny, video, text nebo kliky uživatelů. (Paschen et al., 2019)

Proces učení rozsáhlých datasetů neuronovými sítěmi vyžaduje velký objem paměti a je velice náročný na výpočetní výkon, jelikož za účelem dosažení vyšší přesnosti výsledků je potřeba generovat více vrstev a uzlů. (Azlinah et al., 2020) Obecně platí, že neurální zpracování Big Data vede k tvoření extrémně velkých neuronovým sítím. Jednou z hlavních výzev v Deep Learningu jsou paměťová omezení a doba trénování sítí. K řešení těchto problémů se používají techniky samplování, ke zmenšení velikosti zpracovávaných dat, a také paralelní a distribuované škálovaní. (Azlinah et al., 2020)

Velká část technik analýzy Big Data je založena na přístupu hlubokého učení. V Big Data analytice se využívá pro řešení analytických problémů týkajících se optimalizace, klasifikace, statistických odhadů a teorie řízení. Deep Learning se také prokázal být účinný pro personalizované doporučování mezi doménami a systémy, kdy jsou data mapovány do společného prostoru úložiště. (Azlinah et al., 2020) V marketingu se algoritmy ANN a Deep Learning používají pro segmentaci zákazníků, prediktivní hodnocení potenciálních zákazníků nebo tvorbu dynamických cenových modelů. (Paschen et al., 2019)

Zpracování přirozeného jazyka (Natural Language Processing, NLP) jsou počítačové techniky určené k porozumění lidského jazyka. Pomocí NLP se řeší úkoly jako extrakce vztahů z dokumentů, rozpoznávání hranic vět v dokumentech a vyhledávání a načítání dokumentů.

NLP usnadňuje textovou analytiku vytvořením struktury v nestrukturovaném textu pro umožnění další analýzy. (Azlinah et al., 2020)

Na digitálních platformách se obsah tvořený uživateli neustále rozrůstá ve formě videa, zvuku, obrázků a textu. NLP se nejčastěji zabývá zpracováním textových dat, jelikož většina digitálních informací je přítomna nestrukturované textové formě, jako jsou novinové články nebo webové stránky. Zpracování přirozeného jazyka (NLP) je nezbytné tam, kde velikost textových informací je příliš velká pro ruční analýzu obsahu. Detekce událostí z textu nebo výpočet textových podobností často vyžadují zpracování milionů dokumentů ve stanoveném časovém intervalu. (Azlinah et al., 2020)

Analýza sentimentu využívá technik zpracování přirozeného jazyka (NLP), analýzy textu a výpočetní lingvistiky k identifikaci a extrakci subjektivních informací ve zdrojových

(29)

materiálech. Analýza sentimentu je široce používaná u recenzí na sociálních médiích. (Reddy, 2017)

Pomocí vizualizačních technik se data zobrazují pomocí tabulek, obrázků a diagramů. Grafické vyobrazení dat umožňuje lépe pochopit a interpretovat data. Mezi typické vizualizační nástroje pro Big Data vizualizaci patří Spotfire nebo Tableau. Společnost Facebook používá vizualizaci k manipulaci a organizaci dat ve svých databázích. (Azlinah et al., 2020)

Big Data vizualizace je o dost komplikovanější oproti tradiční vizualizaci malých dat. Kvůli objemu dat jsou používány techniky jako geometrické modelování a feature extraction pro zmenšení velikosti datasetů před vykreslováním. Pro dosažení nejvyšší granularity vizualizací se vykreslování provádí paralelně pomocí dávkového zpracování. (Azlinah et al., 2020)

Statistické techniky se běžně používají v Big Data analytice. Patří mezi ně lineární a logistická regrese, samplování nebo testování hypotéz. (F. Amalina et al., 2020) Podporují rozhodování pomocí hledání vzájemných korelací a kauzálních vztahů v datech. Tradiční statistické techniky obvykle nejsou vhodné pro správu velkého objemu dat, a proto byly vyvinuty nové metody, jako je paralelní statistika, statistické učení a výpočtová statistika. Statistické metody se běžně používají v disciplínách, jako strojové učení, ve kterém se využívají v algoritmech.

(Azlinah et al., 2020)

Optimalizační techniky jsou důležité k řešení kvantitativních problémů v biologii, fyzice, ekonomii a inženýrství. Patří mezi ně výpočetní strategie jako optimalizace hejnem částic, genetické algoritmy, algoritmy plánovacích procesů, Bee Colony, evoluční programování, kvantové a simulované žíhání. Mohou být účinné při řešení problémů s globální optimalizací.

(Azlinah et al., 2020)

Mají vysoké nároky na paměť a velkou časovou náročnost. Jsou používány například pro řešení problémů v aplikacích inteligentních dopravních systémů nebo bezdrátových senzorových sítí.

(Azlinah et al., 2020)

Shrnutí výstupů ze SLR

Ze zkoumané literatury bylo identifikováno 8 BDA analytických technik – (1) Data Mining, (2) Strojové učení, (3) Umělé neuronové sítě a (4) Deep Learning, (5) Zpracování přirozeného jazyka, (6) Vizualizace, (7) Statistické a (8) Optimalizační techniky. Tabulka 6 sumarizuje identifikované BDA techniky a autory, kteří se danou BDA technikou zabývají ve svém článku.

(30)

Tabulka 6: Sumarizační tabulka identifikovaných BDA technik, zdroj: autor

Č. Název BDA techniky Autoři

1 Data Mining

Arco et al., 2019 Azlinah et al., 2020

Hair et al., 2018 Jeble et al., 2018

Reddy, 2017

2 Strojové učení Azlinah et al., 2020

Paschen et al., 2019 Walters a Bekker, 2017 3 Deep Learning a umělé neuronové sítě Azlinah et al., 2020

Paschen et al., 2019 4 Zpracování přirozeného jazyka Azlinah et al., 2020

Reddy, 2017

5 Vizualizace Azlinah et al., 2020

6 Statistické techniky Azlinah et al., 2020

F. Amalina et al., 2020

7 Optimalizační techniky Azlinah et al., 2020

(31)

4. Využití Big Data analytiky v marketingu

Tato kapitola se pojí na druhou výzkumnou otázku SLR. Popisuje výsledky analýzy literatury, jejíž cílem byla identifikace způsobů využití Big Data analytiky v marketingu.

Aby mohli marketéři a marketingoví analytici činit kvalifikovaná rozhodnutí, vyžadují informace o zákaznících a jejich potřebách, konkurenci, produktech, distribučních kanálech a dalších faktorech svého prostředí. Spotřebitelé zanechávají na sociálních médiích nepřetržité stopy, které lze hlouběji analyzovat pomocí text miningu, profilování, lokalizace uživatelů, analýzy sentimentu nebo analýzy sociálního cítění. (A. Miklosik a N. Evans, 2020)

Marketing se v poslední době stává více digitalizovaným a je v dnešní době veden především prostřednictvím sociálních médií. (Kumar, 2015) Použití marketingu v sociálních médiích se osvědčilo u podniků, které selhaly s tradičními marketingovými metodami. (Arco et al., 2019) Sektorem nejvíce ovlivněným rozvojem BDA je komerce. Odhaduje se, že pokud maloobchodník plně využívá potenciál Big Data analytiky, může zvýšit svou provozní marži až o 60 %. (Azlinah et al., 2020) Obchodní podniky shromažďují nesmírné množství dat z oblasti infrastruktury správy prodeje, reklamy a vztahů se zákazníky, transakcí, preferencí a nálad zákazníků a finančních údajů. Příkladem může být společnost Amazon, která transakční a zákaznická data používá pro zvyšování relevance personalizovaných nabídek výrobků na jejich webu. (Jeble et al., 2018) Velikost sbíraných dat u velkých maloobchodníků se dnes odhaduje v rámci exabytů. (Azlinah et al., 2020)

Cesta zákazníka se skládá ze tří různých fází – (1) před nákupem, (2) samotného nákupu a (3) po nákupu (Arco et al., 2019). Navrhovaný rámec (viz Obrázek 5) ilustruje typy a zdroje dat, ze kterých mohou marketéři shromažďovat informace v jednotlivých fázích zákaznické cesty.

Rámec dále ukazuje různé specifické úkoly týkající se modelování cest zákazníka, které lze zlepšit využitím Big Data analytiky. (Arco et al., 2019)

Přednákupní fáze – zahrnuje zážitek zákazníka před zakoupením produktu nebo služby. (Arco et al., 2019) Začíná u záměru spotřebitele si koupit něco, co potřebuje nebo po čem touží. (Arco et al., 2019) Díky BDA jsou zaznamenávány a analyzovány aktivity vyhledávání spotřebitelů na webu, v internetových obchodech a v nákupních aplikacích. (Arco et al., 2019) Marketéři mohou snadno získat informace o tom, které položky byly hledány, klikány, přidávány do nákupních košíků a seznamů přání, opuštěny nebo zakoupeny. Je možné identifikovat vyhledávací termíny, které v minulosti přilákaly zákazníky z vyhledávačů zjišťovat, jestli se jednalo o placené nebo neplacené vyhledávací výrazy. (Arco et al., 2019) Všechny informace shromážděné v této fázi lze použít k vytvoření profilů zákazníků. Profilování pomáhá podnikům lépe porozumět svým zákazníkům. Tento přehled pomáhá společnostem rozpoznávat demografické a psychografické (chování) údaje svých zákazníků. (Arco et al., 2019)

Nákupní fáze – je druhou fází cesty zákazníka. Tato fáze zahrnuje veškeré zákaznické interakce se značkou a jejím prostředím během nákupu. (Arco et al., 2019) To zahrnuje samotný výběr, objednávání a platbu. Následně lze tyto data analyzovat podle historie nákupů a návratnosti.

(Arco et al., 2019) Všechny informace shromážděné v této fázi jsou také užitečné pro

(32)

profilování zákazníků, tvorbu prediktivních poptávkových modelů a optimalizaci zisků.

Taková data mohou být také zdrojem pro systémy podpory rozhodování (Arco et al., 2019) Ponákupní fáze – stejně jako nákupní fáze, zahrnuje interakce zákazníků se značkou a jejím prostředím, ale až po samotném nákupu (Arco et al., 2019) Během této fáze zákazníci hodnotí rozdíly mezi svými očekáváními spotřeby a zkušenostmi skutečné spotřeby zakoupeného produktu nebo služby. (Arco et al., 2019) Proto e-word of mouth recenze, tweety, sdílené obrázky nebo videa o produktu produkují cenné informace o spokojenosti zákazníků, jejich odhodlání a věrnosti. Pokud si lidé stěžují na produkt nebo službu na sociálních médiích nebo recenzních webech, mělo by se s těmito daty zacházet jako s cenným materiálem informací.

Pochopení spotřebitelského cítění o vlastnostech produktu nebo zkušenostech se službou je zásadní pro rozvoj udržitelné konkurenční výhody značek a společností. Během této fáze cesty zákazníka lze pomocí technik BDA sledovat nálady spotřebitelů nebo automaticky kvantifikovat potřeby zákazníků ze sociálních médií. (Arco et al., 2019) BDA lze využít k plánování CRM strategií, například při implementaci dat do prediktivního modelu pro identifikaci rizikových zákazníků. (Arco et al., 2019)

Obrázek 5: BDA rámec pro mapování cesty zákazníka, zdroj: (Arco et al., 2019)

(33)

Přehled identifikovaných případů užití BDA v marketingu

Tato podkapitola popisuje identifikované případy užití Big Data analytiky v marketingu z analyzované literatury. Případy užití BDA byly kategorizovány do jednotlivých oblastí. Každá z následujících podřazených podkapitol se zabývá konkrétními případy užití BDA v dané oblasti marketingu.

Spotřebitelé spotřebovávající službu nebo produkt poskytují své zkušenosti a informace o svém vztahu ke značce a společnosti na online platformách nebo na webových stránkách elektronického obchodování. Tyto online recenze pak pomáhají ostatním zákazníkům rozhodovat o koupi nebo prodeji produktů. (Kumar et al., 2021) Zkoumání online prostorů pomáhá marketérům identifikovat varovné příznaky nespokojenosti spotřebitelů, jako jsou negativní ústní podněty nebo stížnosti na produkt, službu nebo značku obecně. BDA pomáhá lépe porozumět chování uživatelů Kdo jsou? Jaké jsou jejich zájmy a preference? Jaké sociální média sledují? Kolik času tráví online a v jakou hodinu konkrétně jsou online? Jaké zařízení, jaké prohlížeče používají? Jaká je jejich demografie a geografie? Jaké značky sledují?

Jaký online obsah konzumují? Co dělají na našem webu. Kolik času tu tráví? Na všechny tyto otázky může Big Data analytika pomoci odpovědět, což pomáhá podnikům plánovat své marketingové strategie. (Kaila, 2020) Při analýze trhu se běžně používají techniky text miningu a analýzy sentimentu k měření spokojenosti zákazníků, jejich loajality a oddanosti.

(Arco et al., 2019) Techniky text miningu se dále používají pro identifikaci hodnotných zákazníků, hodnocení image a konkurenceschopnosti značky. V dnešní době hraje image značky rozhodující roli v manažerském rozhodování. (Kumar et al., 2021)

Manažeři značky a marketéři mohou pro modelování a hodnocení značky adoptovat inteligentní systémy založené na fuzzy logice, oblasti umělé inteligence. Například Identimod je systém podpory rozhodování, který navrhli Chica, Cordón, Damas, Iglesias a Mingot (2016).

Je vhodný k analýze nehmotných proměnných souvisejících se značkami (tj. věrnost značce, povědomí o značce, vnímaná kvalita a ostatní vlastnická aktiva). (Arco et al., 2019) Po umístění všech dostupných lingvistických nebo číselných údajů do systému může Identimod simulovat různé scénáře a podporovat marketingové rozhodování. Tato technologie může manažerům značek pomoci činit důležitá rozhodnutí ohledně udržení současného image značky, rebrandingu společnosti, restylingu současné značky, zmenšení velikosti portfolia značky atd.

(Arco et al., 2019)

Spolu se spotřebitelským sentimentem vlastní produkce musí vedení společnosti vědět, co si zákazníci myslí o produktech konkurence. Tyto informace pomáhají plánovat inovace budoucích produktů a navrhovat lepší strategie pro uvádění produktů na trh. Mining dat ze sociálních sítí umožňuje provádět srovnávací analýzy s konkurencí, identifikovat potenciální konkurenty a analyzovat konkurenční produkty. (Kumar et al., 2021) Společnosti mohou získávat informace o klíčových atributech konkurenčních produktů, jejich cenové politice, prodejních výkonech a zpětné vazbě od zákazníků. (Jeble et al., 2018)

Nástroje analýzy trendů poskytované společností Google poskytují mechanismus pro srovnávání frekvence vyhledávání dvou nebo více konkurenčních produktů. Tyto analytické

(34)

nástroje poskytují informace o tom, jak jsou různé produkty, služby prohledávány na webu v různých geografických oblastech. To může poskytnout cenné informace týkající se povědomí o produktu a návrhu budoucích marketingových strategií nebo uvádění nových produktů na trh. Stránky, jako například www.sentiment140.com, poskytují přehled o možných způsobech, jak lze tuto inteligenci využít. (Jeble et al., 2018)

BDA v kombinaci s technikami umělé inteligence pomáhá marketérům profilovat své zákazníky. Profilování zákazníků je možné díky enormní dostupnosti dat, která jednotlivci dobrovolně a nedobrovolně zanechávají téměř při každé online akci. Uživatelsky generovaný obsah představuje další zdroj informací o spotřebitelích. (Arco et al., 2019) Procesování obrovských záznamů o online aktivitě uživatelů pocházejících z vyhledávačů, návštěv webu a grafické reklamy umožňuje vytvářet profily chování spotřebitele. (Arco et al., 2019)

Profilování zákazníků má pro podniky důležitou roli, aby bylo zajištěno, že po dobu celého životního cyklu CRM (prodej, marketing a služby zákazníkům) jsou nabízeny personalizované služby, aby každý zákazník měl vlastní zkušenost podle svých potřeb a zájmů. BDA umožňuje sledování historie nákupů a konverzací o produktech nebo službách. (A. Miklosik a N. Evans, 2020) Využití filtrování lexikonu a strojového učení umožňuje provádět analýzu sentimentu a shromažďovat informace o konkrétním tématu. Profilování zákazníků se používá také u systémech podpory rozhodování. (Arco et al., 2019)

Obrázek 6 ilustruje využití Big Data analytiky k profilování v CRM podle M. Anshari et al., (2019)

Obrázek 6: Profilování zákazníků pro CRM, zdroj: (Anshari et al., 2019)

Společnosti, jako Google, Facebook, eBay, PayPal a Amazon, aktivně používají aplikace profilování zákazníků, tím využívají marketing založený na datech ke konkrétním rozhodnutím. (Arco et al., 2019) Amazon pomocí profilování rozpoznává vzory nákupního

Odkazy

Související dokumenty

 RDBMSs lack of aggregate structure  support for accessing data in different ways (using views).  Solution:

Data in the commit log is purged after its corresponding data in the memtable is flushed to the

Obecně platí, že čím větší je nutnost dodatečné komunikace během příprav, tím nižší je efektivita interního dokumentu. Pro nalezení odpovědi na druhou výzkumnou

Třetí kapitola popisuje výsledky dotazníkového šetření , jehož primárním cílem byla identifikace nejdůležitějších překážek procesu digitalizace a sekundárním

V bakalářské práci se zaměřil na analýzu odborné literatury, která se zabývá big data architekturami?. Nevěnoval se

Předmětem práce je systematické review zdrojů Big Data Analytiky v oblasti marketingu.. Big Data Analytika a její techniky je jednou z oblastí, kde dochází k významnému

Bakalářské práce přináší přehled možného využití big data analytiky v marketingu a sumarizuje praktické důsledky použití big data analytiky v marketingu..

Hlavním cílem této podkapitoly bylo najít odpověď na druhou výzkumnou otázku, která zní: „Jaký je vztah mezi vybranými dimenzemi motivace k výkonu a fluktuační