• Nebyly nalezeny žádné výsledky

Počet uživatelů eReceptu k 3.11.2020 (data SÚKL, vlastní zpracování)

Subjekt Počet Zdravotnická zařízení 18152

Lékárny 2849

Lékaři 45184

V této kapitole si rozebereme fungování systému eRecept se zaměřením na datovou část (vznik a práce s daty). Pro pochopení fungování a následnou analýzu dat eReceptu. Autor vybere vhodnou metodiku pro datové projekty. Touto metodikou se bude řídit zbylá tvorba této diplomové práce.

1.1 Zadání projektu

Zadání projektu dle SÚKL a Ministerstva Zdravotnictví České republiky se týká aplikování Machine Learningu na analýzu anomálií ve spotřebě antiinfektiv z pohledu geografického a časového, podle věku a pohlaví pacienta. Cílem je zjistit, zda existují anomálie a popřípadě naučit model rozeznávat přítomné anomálie. Finální řešení má být zakomponováno do stávající infrastruktury v Cloudu.

1.2 Výběr metodiky

Jedním z úvodních stádií jakéhokoliv projektu je výběr vhodné metodiky, podle které se bude projekt řídit. V této kapitole si popíšeme vybrané vhodné metodiky pro řízení projektu orientovaného na práci s daty. Vybral jsem z možných metodiky 2 možné používané pro Data Science projekty. Mezi vybrané metodiky jsem zařadil Cross industry process for data mining a Team Data Science Process.

Graf 1 Přehled popularity jednotlivých metodik pro Data science projekty (Data Science Project Management 2021)

Graf 2 Přehled četnosti vyhledávání metodik pro Data Science na vyhledávači Google (Data Science Project Management 2021)

Na grafu číslo 1 můžeme vidět přehled popularity jednotlivých metodik mezi uživateli portálu Data Science Project Management. Mezi nejpopulárnější doménové metodiky patří CRISP-DM a TDSP. Též se tato dvojice objevuje mezi prvními dvěma metodikami ve vyhledávání na vyhledávači Google viz graf číslo 2. Tyto dvě metodiky jsou popsány níže.

0% 10% 20% 30% 40% 50% 60%

CRISP-DM Scrum Kanba Vlastní TDSP Jiná Žádná SEMMA

Jakou používáte metodiku pro datové projekty ?

0 1000 2000 3000 4000 5000

CRISP-DM TDSP SEMMA KDD process Agile Data Science OSEMN Data Science Scrum Data Science Kanban

Nejvyhledávanější metodiky pro datové projekty

Četnost vyhledávání na Americkém Google mezi 1.7. 2019 - 30.6. 2020

1.2.1 Cross industry process for data mining

První publikovaná verze této metodiky vznikla v roce 1999. Na vzniku se podíleli soukromé firmy NCR, ISL a OHRA, i vědci v rámci Evropského výzkumného projektu zastřešeného programem ESPRIT (European Strategic Programme on Research in Information Technology). Jak název napovídá, tak hlavním cílem bylo vytvořit takovou metodiku, kterou lze aplikovat jako univerzální postup pro dobývání znalostí z databází. Metodika je nezávislá na použitých softwarových nástrojích a na konkrétním odvětví. Z této metodiky vychází další komerční metodiky, například ASUM-DM od IBM či SEMMA od SAS (Berka 2003).

Na přiloženém grafu číslo 1 můžeme vidět, že tato metodika je stále používaná (poslední průzkum byl proveden v roce 2014), o čemž vypovídá průzkum mezi uživateli webu KDnugets věnující se AI, Analytice, Big Datům, Data Science a Machine Learningu. V anketě vyšla tato metodika jako nejpoužívanější, s podílem 43 % respondentů z celkových 200. 27

% respondentů používá svojí vlastní metodiku. Třetí nejpoužívanější metodikou je SEMMA s 8,5 %, která poklesla skoro o polovinu oproti předchozímu šetření (Piatetsky 2014).

Graf 3 Používané metodologie dle uživatel KDnuggets serveru (data Piatetsky, vlastní zpracování) Metodika CRISP-DM obsahuje 6 částí: Business Understanding (porozumění problematice), Data Understanding (porozumění datům), Modeling (modelování), Evaluation (evaluace) a Deployment (nasazení). Dle autorů metodiky není striktně dané pořadí jednotlivých částí. Je možné se dle potřeby vracet k předchozím krokům nebo opakovat kroky během jednoho projektu. Je vhodné se vracet k předchozím kroků a optimalizovat je. V přiloženém obrázku číslo 1 můžeme vidět sled jednotlivých kroků metodiky. Šipkami je znázorněn sled jednotlivých fází metodiky. Nejdůležitější fáze je porozumění problému. Ta zabere 20 % času, ale má 80% význam. Časově nejnáročnější je

43

Jakou metologii používáte pro váš analytický, data minongový či data science projekt ?

2007 2014

fáze přípravy dat, která zabírá 80 % času s 20% významem, přičemž modelování a analýza zkoumaných dat zabere 5 % času a má 5% význam (Berka 2003).

Obrázek 1 Jednotlivé fáze metodiky CRISP-DM (autor: Chapman et al. 1999)

1.2.1.1 Business Understanding

V této fázi je důležité porozumět požadavkům a cílům projektu z manažerského pohledu.

Vyhodnotit rizika a přínosy projektu, zkalkulovat potřebné zdroje a náklady. Následně stanovit plán projektu. Je důležité porozumět zkoumané oblasti, ze které pochází data, a je třeba mít znalost specifické oblasti. Proto je třeba rozlišit mezi novými a již známými znalostmi, které pocházejí z datové analýzy. Data miningové úlohy je možné provádět z různých doménových oblastí například zdravotnictví, marketing, telekomunikace, atd.

(MBI nedatováno).

1.2.1.2 Data Understanding

V rámci této fáze je dle autorů metodiky provést následující 4 kroky s daty:

Sběr vstupních dat – v prvním kroku je nezbytné získat alespoň přístup k datům, definovaným ve zdroji projektu, případně rozšířit o vhodná externí data. Výstupem je report, obsahující seznam získaných datových sad a metod, pomocí kterých je možné získat data a seznam problémů, které se vyskytly při získávání dat.

Popis dat – prozkoumáme hrubé a povrchové vlastnosti (datové typy, poty záznamů v tabulkách, význam sloupců). Ověření relevantnosti jednotlivých dat vůči zadání projektu.

Zkoumání dat – v rámci tohoto kroku se nejčastěji využívají deskriptivní a vizualizační techniky, pomocí kterých jsou data zobrazována a zkoumána. V rámci průzkumu můžeme zkoumat maximální, minimální, průměrné hodnoty, mediány, četnost výskytu atributů atd.

Ověření kvality dat – v tomto kroku provedeme kontrolu kvality dat. Cílem tohoto kroku je zjistit odpovědi na otázky typu: “Pokrývají získaná data dostatečně zkoumanou oblast? Jaká je správnost dat? Obsahují chyby a případně kolik?

Obsahují chybějící data?” Pokud narazíme na chyby v datech, je třeba vytvořit seznam chyb s jejich možnými řešeními. Řešení jsou závislá na naší znalosti dané problematiky (Chapman et al. 1999).

1.2.1.3 Data Preparation

Příprava dat je popsána Berkou takto: „Příprava dat zahrnuje selekci dat, čištění dat, transformaci dat, vytváření dat, integrování dat a formátování dat.“ (Berka 2003). Tato fáze navazuje na fázi analytickou, z které čerpá záznamy o atributech. Na základě těchto dat proběhne výběr konkrétních atributů pro datovou úlohu. Omezujícími faktory pro výběr dat jsou technické překážky na straně vybraného softwaru, relevance dat ve vztahu k vybranému algoritmu a cílům stanovených v první fázi. Čištění dat je proces zvyšování kvality dat, která vede ke zlepšení výsledků analytické části. Mezi čištění dat můžeme řadit:

nahrazení chybějících hodnot, vložení vhodných výchozích hodnot algoritmu atd. Vytváření nových dat spočívá v odvozování nových dat, transformací, existujících dat. Odvozená data jsou taková, která vznikla kombinací několika atributů v rámci stejného záznamu. Mezi taková odvozená data můžeme řadit dobu vyzvednutí léku, která se vypočte jako rozdíl předepsání léku a vyzvednutí léku v lékárně. V rámci procesu integrace dat dochází ke vzniku nového záznamu kombinací relevantních dat, týkající se tohoto záznamu z objektu dat uloženého ve více tabulkách či datových sadách. Je možné provést v rámci této operace i agregaci dat, pokud není nutné pracovat na větší úrovni detailu. Pod pojmem integrace si můžeme představit údaje o pacientovi, kdy v jedné tabulce jsou osobní údaje o pacientovi a v další údaje o předepsaných léčivech. V integrované nové tabulce budeme mít jak data týkající se údajů o pacientovi, tak jeho předpisy, a to v rámci jednoho záznamu. Příkladem agregace dat je situace, kdy není potřeba zkoumat jednotlivé předepsané léky lékařem, ale celkové množství v daném časovém období. Formátování dat jsou takové operace s daty, které vedou k úpravě dat v syntaktickém smyslu, například označení každého záznamu unikátním identifikátorem atd. Data jsou v rámci této fáze transformována tak, aby splnila specifické požadavky vybraných algoritmů DM. Takovým příkladem může být binarizace i diskretizace. Výstupem této fáze je taková datová sada, která vyhovuje požadavkům konkrétního algoritmu zpracovávajícího data(MBI nedatováno).

1.2.1.4 Modeling

Tuto fázi lze rozdělit do 4 kroků dle Larose:

• Výběr a aplikace vhodné modelovací techniky.

• Kalibrace parametrů vybraného modelu/algoritmu za účelem optimálního nastavení a nalezení relevantních výsledků.

• K nalezení relevantního výsledku je možné využít kombinaci několika rozdílných algoritmů/modelů. Doporučuje se použít více algoritmů a jejich výsledek zkombinovat.

• Je možné se vrátit k předchozí fázi přípravy dat a upravit data tak, aby byla vhodně přizpůsobena vybranému modelu/algoritmu (Larose a Larose 2014).

1.2.1.5 Evaluation

V předposlední fázi vyhodnocujeme získané znalosti, které jsou relevantní ke zvoleným metodám. Důležité je zhodnotit tyto znalosti z pohledu manažerů (viz fáze 1). Pro ně jsou získané znalosti důležité a oni určí, zda zadané cíle v první fázi projektu byly naplněny.

V rámci této fáze je možné přijít s takovýmto výsledkem: „Výsledky testování klasifikačních znalostí ukázaly, že systém byl příliš přísný, tedy rozpoznával klienty rizikové, ale v určitých případech (obzvláště u vyšších půjček) za rizikové označil i klienty bonitní. Bylo tedy rozhodnuto, že ve všech pobočkách banky bude využíván program, který bude rozhodovat o úvěrech do určité částky.“ (MBI nedatováno).

1.2.1.6 Deployment

V poslední fázi dochází k zhodnocení výsledků úlohy a definici využití dílčích výsledků úlohy koncovými uživateli. Výstupy úlohy mohou být ve formě závěrečné zprávy o dosažených výsledcích i softwarové řešení, automatizující proces dané úlohy (Berka 2003).

1.2.2 Team Data Science Process

Team Data Science Process (dále TDSP) je agilní, iterativní metodologie datové vědy, která efektivně dodává řešení prediktivní analýzy a inteligentní aplikace. TDSP pomáhá zlepšit týmovou spolupráci a učení tím, že navrhuje týmové role tak, aby spolupracovali efektivněji.

TDSP zahrnuje osvědčené postupy a struktury od společnosti Microsoft a dalších lídrů v oboru, které pomáhají při úspěšné implementaci řešení v oblasti Data Science. Cílem je pomoci společnostem plně si uvědomit výhody jejich analytického programu (marktab et al.

2020).

TDSP se skládá z následujících klíčových komponent:

• Definice životního cyklu Data Science řešení

• Standardizovaná struktura projektu

• Infrastruktura a zdroje doporučené pro Data Science projekty

• Doporučené nástroje pro realizaci projektu

1.2.2.1 Životní cyklus Data Science projektu

TDSP poskytuje životní cyklus pro strukturování vývoje vašich Data Science projektů.

Životní cyklus obsahuje kroky, které následují osvědčené “best practices” v oboru. Pokud používáte jiný životní cyklus, například CRISP-DM, KDD nebo metodiku vytvořenou vaší organizací, můžete stále používat TDSP na základě úkolů v kontextu těchto kroků životního cyklu. Tento životní cyklus byl navržen pro Data Science projekty, které se dodávají jako součást inteligentních aplikací. Tyto aplikace nasazují modely ML nebo AI pro prediktivní analýzu. Z tohoto procesu mohou těžit také průzkumné datové vědecké projekty nebo improvizované analytické projekty. V takových případech lze některé kroky vynechat (marktab et al. 2020).

Životní cyklus TDSP se skládá z těchto hlavních kroků, které jsou prováděny v projektech iterativně:

• Business Understanding

• Získávání a porozumění datům

• Modelování

• Deployment

Na obrázku číslo 2 můžeme vidět vzájemné provázání jednotlivých kroků životního cyklu TDSP.

Obrázek 2 Životní cyklus Team Data Science Process (autor: marktab et al. 2020) Jednotlivé úlohy projektu a artefakty jsou spojeny pomocí rolí:

• Architekt řešení

• Projektový manažer

• Datový inženýr

• Datový vědec

• Vývojář aplikací

• Vedoucí projektu

Následující obrázku můžeme vidět zobrazení úkolů (modře) a artefaktů (zeleně), přidružených ke každé fázi životního cyklu (na vodorovné ose) a roli (na svislé ose).

Obrázek 3 Diagram provázanosti projektových rolí, artefaktů a kroků cyklu TDSP (autor: marktab et al. 2020)

1.2.2.2 Standardizovaná struktura projektu

Nezbytnou součástí úspěšného projektu je použití standartní struktury adresářů a použití šablon pro jednotlivé projektové dokumenty. Díky tomu usnadňuje členům týmu najít informace o svých projektech. Veškerý kód a dokumenty jsou uloženy v systému správy verzí (VCS), jako je Git, TFS nebo Subversion, aby bylo možné na projektu pracovat týmově. Pro sledování úkolů a funkcí v agilně řízeném projektu se používají nástroje jako například Jira, Rally a Azure DevOps. Díky tomu je možné sledovat, kdo na jakém úkolu pracuje, na kterou funkci systému je to navázané. Díky tomu je možné lépe odhadnout náklady na vývoj. TDSP doporučuje vytvořit pro každý projekt ve VCS samostatné úložiště pro správu verzí, zabezpečení informací a spolupráci. Standardizovaná struktura pro všechny projekty pomáhá budovat institucionální znalosti v celé organizaci(marktab et al. 2020).

Tato struktura složek organizuje soubory, které obsahují kód pro průzkum dat a extrakci funkcí, které zaznamenávají iterace modelu. Tyto šablony usnadňují členům týmu porozumět práci ostatních a přidávat do týmů nové členy. Šablony dokumentů ve formátu

“markdown” lze snadno prohlížet a aktualizovat. Použijte šablony k poskytnutí kontrolních seznamů s klíčovými otázkami pro každý projekt, abyste se ujistili, že problém je dobře definován a že výsledky splňují očekávanou kvalitu. Mezi příklady patří:

• Projektová listina k dokumentaci obchodního problému a rozsahu projektu

• Datové zprávy dokumentující strukturu a statistiku nezpracovaných dat

• Hlavní modelové zprávy pro dokumentaci odvozených funkcí

• Modely výkonnostní metriky, jako jsou ROC křivky nebo MSE (marktab et al. 2020)

Obrázek 4 Diagram struktury projektu ve VCS (autor: marktab et al. 2020)

1.2.2.3 Infrastruktura a zdroje pro Data Science projekt

TDSP doporučuje následující komponenty pro uložení dat a práci s nimi:

• Cloudové souborové systémy pro ukládání datových sad

• Databáze

• Klastry Big data (SQL nebo Spark)

• Machine Learning Service

Analytická a úložná infrastruktura, kde jsou uloženy nezpracované a zpracované datové sady, může být v Cloudu nebo “on premises”. Tato infrastruktura umožňuje reprodukovat analýzu. Rovněž se vyhne duplikaci, která může vést k nesrovnalostem a zbytečným nákladům na infrastrukturu. K dispozici jsou nástroje k zajištění sdílených prostředků, jejich sledování a možnosti bezpečně se k těmto prostředkům připojit pro každého člena týmu. Je také dobrým zvykem, aby členové projektu vytvářeli konzistentní prostředí. Různí členové týmu pak mohou replikovat a ověřovat experimenty (marktab et al. 2020).

Obrázek 5 Příklad týmu, který pracuje na více projektech současně a sdílí různé komponenty Cloudové infrastruktury (autor: marktab et al. 2020).

1.2.3 Shrnutí

Velkou výhodou metodik je jejich podobnost a možná kombinace, která vede ke zlepšení procesu vývoje řešení díky implementaci “best practices” z praxe. Pro účely této diplomové práce budu používat jednotlivé fáze metodiky CRISP-DM. A dokumenty metodiky TDSP (Project charter - není, Solution Architecture Digram – Kapitola 1.6 Architektura řešení, kde můžeme najít jednotlivé digramy; Data Summary Report - 1.7.5 Práce s daty; Model Report a Dashboard – 1.8 Modelování).

V přiložené tabulce níže můžeme vidět porovnání těchto dvou metrik.