• Nebyly nalezeny žádné výsledky

Hlavní práce70001_lutm00.pdf, 4.1 MB Stáhnout

N/A
N/A
Protected

Academic year: 2022

Podíl "Hlavní práce70001_lutm00.pdf, 4.1 MB Stáhnout"

Copied!
102
0
0

Načítání.... (zobrazit plný text nyní)

Fulltext

(1)

Vysoká škola ekonomická v Praze

Fakulta informatiky a statistiky

Využití Machine Learningového algoritmu k předcházení nežádoucích stavů v rámci

elektronické preskripce

DIPLOMOVÁ PRÁCE

Studijní program: Aplikovaná informatika Studijní obor: Informační systémy a technologie

Autor: Bc. Miroslav Lutovský

Vedoucí diplomové práce: Ing. Martin Potančok, Ph.D.

Praha, červen 2021

(2)

Poděkování

V první řadě bych chtěl poděkovat vedoucímu diplomové práce, Ing. Martinu Potančokovi, Ph.D., za vedení této diplomové práce a za cenné rady, které mi poskytl. Dále Státnímu ústavu pro kontrolu léčiv, jmenovitě paní ředitelce Ing. Renatě Golasíkové, panu Ing. Petru Kouckému a paní Ing. Jitce Hrubé, kteří mi umožnili přístup k projektu eRecept a zprostředkovali mi informace ze světa medicíny.

(3)

Abstrakt

Hlavním cílem této diplomové práce je implementování Machine learningového algoritmu pro hledání anomálií ve spotřebě Antiinfektiv nad daty ze systému eRecept. K vytvoření řešení je nutné načerpat teoretické znalosti z oblastí spotřeby Antiinfektiv, eReceptu a Machine learningu. Dále je pro tvorbu řešení nezbytné vytvořit algoritmy pro získávání dat ve vhodné podobě pro použití ML algoritmy. Tyto algoritmy získávají data ze zdrojových systémů, transformují je a následně je čerpá vybraná technologie s ML algoritmem. Poté jsou nalezené anomálie vizualizovány v nástroji Power BI. V první části je popsána metodika CRISP-DM a TDSP, kterými se řídí diplomová práce. Dále je poskytnut vhled do problematiky spotřeby Antiinfektiv. (Je znázorněna spotřeba Antiinfektiv u nás a v Evropě.) Jsou popsány principy, na kterých stojí navržená architektura, jako je Low-code princip, Machine Learning as Service a Self Service Business Inteligence. Pak je navržena architektura budoucího řešení. Následně je analýza a zpracování dat pro ML algoritmy a jednotlivé zvolené technologie (Power BI, Signalligence a Azure Machine Learning Studio).

Poté jsou zhodnoceny jednotlivé technologie a vybráno řešení. Nakonec jsou vizualizovány nalezené anomálie pomocí nástroje Power BI. Hlavní přínos práce spočívá v poskytnutí specifického pohledu na to, zda je možné data z eReceptu využít pro zpracování pomocí Machine Learningových algoritmů.

Klíčová slova

Antiinfektiva, Azure Machine Learning studio, CRISP-DM, Datová analýza, eRecept, Hledání anomálií, Machine learning, Power BI, Signalligence

JEL klasifikace

C53 Forecasting Models; Simulation Methods

I180 Health: Government Policy; Regulation; Public Health I110 Analysis of Health Care Markets

(4)

Abstract

The main goal of this diploma thesis is to implement a Machine learning algorithm for finding anomalies in the consumption of anti-infectives over data from the ePrescription system. To create a solution, it is necessary to gain theoretical knowledge in the areas of consumption of Anti-infectives, ePrescription and Machine Learning. Furthermore, in order to create a solution, it is necessary to create algorithms for data acquisition in a suitable form for the use of ML algorithms, these algorithms obtain data from source systems, transform them and then draw them on selected technology with ML algorithm.

Subsequently, the found anomalies are visualized. The first part describes the CRISP-DM methodology, which is governed by the thesis. Furthermore, an insight into the issue of consumption of Anti-infective is provided (consumption of Anti-infectives in our country and in Europe is shown). The principles on which the proposed architecture is based are described, such as the Low-code principle, Machine Learning as Service and Self Service Business Intelligence. Subsequently, the architecture of the future solution is proposed. The next section describes data processing for ML agencies and individual selected technologies (Power BI, Signalligence and Azure Machine Learning Studio). Subsequently, the individual technologies are evaluated and one solution is selected, which is then verified with the State Institute for Drug Control that it is possible to use the technology in the existing architecture. Subsequently, the found anomalies are visualized. The main benefit of this work is to provide a specific view of whether the data from the ePrescription can be used for processing using Machine Learning algorithms.

Keywords

Anti-infectives, Anomaly detection, Azure Machine Learning studio, CRISP-DM, Data analysis, ePrescription, Machine learning, Power BI, Signalligence, Time series

JEL Classification

C53 Forecasting Models; Simulation Methods

I180 Health: Government Policy; Regulation; Public Health I110 Analysis of Health Care Markets

(5)

Obsah

Úvod ...14

Data – nejcennější aktivum ...14

Vymezení práce a důvodu výběru tématu ... 15

Cíle práce ... 15

Způsob dosažení cíle ...16

Předpoklady a omezení práce ...16

Struktura práce ...16

Očekávané přínosy ... 17

Rešerše prací... 18

Diplomové práce ... 18

STRAKA, R.: Návrh možností analýzy a prezentace dat se zaměřením na sportovní odvětví [elektronický zdroj]. Diplomová práce. 2018. ... 18

KÚDELA, J.: Strojové účenie ako služba - predikovanie výsledkov verejných obstarávaní [elektronický zdroj]. Diplomová práce. 2018. ... 18

Odborná literatura a studie ... 18

MBI – Management Byznys Informatiky (mbi.vse.cz) ... 18

Self Service Business Intelligence - Pour Jan, Maryška Miloš, Stanovská Iva, Šedivá Zuzana ...19

Introducing Data Science and Microsoft Azure Machine Learning 2nd Edition - Valentine Fontana, Roger Barga a Wee Hyong Tok...19

Data Structures and Algorithms with Python – Kent D. Lee a Steve Hubbard ...19

1 Projekt ePreskripce ... 20

1.1 Zadání projektu ... 20

1.2 Výběr metodiky ... 20

1.2.1 Cross industry process for data mining ... 22

1.2.1.1 Business Understanding ... 23

1.2.1.2 Data Understanding ... 23

1.2.1.3 Data Preparation ... 24

1.2.1.4 Modeling ... 24

1.2.1.5 Evaluation ... 25

1.2.1.6 Deployment ... 25

1.2.2 Team Data Science Process ... 25

1.2.2.1 Životní cyklus Data Science projektu ... 26

1.2.2.2 Standardizovaná struktura projektu ... 27

(6)

1.2.2.3 Infrastruktura a zdroje pro Data Science projekt ... 28

1.2.3 Shrnutí ... 29

1.3 Zadání projektu ... 30

1.3.1 Vyhodnocení rizik a přínosů projektu ... 30

1.3.2 Odhad nákladů ... 31

1.4 Analýza vybrané problematiky ... 31

1.4.1 eRecept ... 31

1.4.1.1 Lékař ... 32

1.4.1.2 Lékárník ... 34

1.4.1.3 Pacient ... 36

1.4.1.4 Recept ... 36

1.4.1.5 ATC Skupiny ... 36

1.4.2 Riziková oblast – Problematika spotřeby antiinfektiv ... 37

1.5 Principy architektury řešení ...41

1.5.1 Low-Code programování ... 42

1.5.2 Machine Learning ... 43

1.5.2.1 Machine Learning as a Service ... 44

1.5.3 Self-Service Business Intelligence ... 46

1.6 Architektura řešení ... 47

1.6.1 Současný stav ... 47

1.6.2 Budoucí stav ... 48

1.6.2.1 Návrh s využitím Azure Machine Learning Studia ... 49

1.6.2.2 Návrh s využitím Power BI ... 49

1.6.2.3 Návrh s využitím Signalligence ... 50

1.6.3 Shrnutí ... 51

1.7 Příprava dat ... 51

1.7.1 Export dat z databáze ... 51

1.7.2 Exploratory Data Analysis ... 54

1.7.3 Zpracování dat ... 57

1.7.4 Použité nástroje pro zpracování dat ... 58

1.7.5 Práce s daty ... 58

1.7.5.1 Příprava dat pro nástroj Signalligence ...61

1.7.6 Shrnutí ... 66

1.8 Modelování ... 66

1.8.1 Přehled algoritmů pro detekci anomálií multidimenzionálních časových řad .... 66

(7)

1.8.2 Příprava v Azure Machine Learning Studiu ... 68

1.8.3 Nástroj Signalligence ... 70

1.8.4 Vyhodnocení modelů ... 72

1.8.4.1 Signalligence ... 72

1.8.4.2 Power BI ... 74

1.8.4.3 Azure Machine Learning Studio ... 76

1.8.4.4 Monitorovací pravidla ... 77

1.8.5 Shrnutí modelování ... 78

1.9 Deployment ... 79

Závěr ... 81

Použitá literatura ... 82 Přílohy ... I Příloha A: Kód použitý při zpracovávání dat ... I Příloha B: ATC skupiny použitých systémových léčiv ... V Příloha C: ATC skupiny použitých nesystémových léčiv ... XII

(8)

Seznam obrázků

Obrázek 1 Jednotlivé fáze metodiky CRISP-DM (autor: Chapman et al. 1999) ... 23 Obrázek 2 Životní cyklus Team Data Science Process (autor: marktab et al. 2020) ... 26 Obrázek 3 Diagram provázanosti projektových rolí, artefaktů a kroků cyklu TDSP (autor:

marktab et al. 2020) ... 27 Obrázek 4 Diagram struktury projektu ve VCS (autor: marktab et al. 2020) ... 28 Obrázek 5 Příklad týmu, který pracuje na více projektech současně a sdílí různé komponenty Cloudové infrastruktury (autor: marktab et al. 2020). ... 29 Obrázek 6 Proces Předepsání léčivého přípravku (autor: Miroslav Lutovský) ... 33 Obrázek 7 Proces vyzvednutí léčivého přípravku předepsaného v Předpisu ... 35 Obrázek 8 Magický kvadrant firmy Gartner poskytovatelů Low-Code Aplication platforem (autor: Gartner 2020) ... 43 Obrázek 9 Magický kvadrant poskytovatelů Cloud AI Developer služeb 2020 firmy Gartner (Gartner 2020) ... 45 Obrázek 10 Magický kvadrant poskytovatelů Cloud AI Developer služeb 2021 firmy Gartner (Gartner 2021b) ... 46 Obrázek 11 Magický kvadrant firmy Gartner pro Analytickou a Business Inteligence platformu (Gartner 2021) ... 47 Obrázek 12 Současný stav architektury řešení eReceptu (autor: Miroslav Lutovský) ... 48 Obrázek 13 Návrh budoucího stavu architektury řešení eReceptu varianta s Azue Machine Learning (autor: Miroslav Lutovský) ... 49 Obrázek 14 Návrh budoucího stavu architektury řešení eReceptu varianta pouze Power BI (autor: Miroslav Lutovský) ... 50 Obrázek 15 Návrh budoucího stavu architektury řešení eReceptu varianta se Signalligence (autor: Miroslav Lutovský) ... 50 Obrázek 16 Výběr části databáze týkající se předpisu léčiv (autor: Miroslav Lutovský) .... 52 Obrázek 17 Zdroje pro zpracování dat v rámci Azure (autor: Miroslav Lutovský) ... 58 Obrázek 18 Azure Machine Learning Studio Designer – Trénování algoritmu na datech (autor: Miroslav Lutovský) ... 69 Obrázek 19 Zpracování dat pomocí XGBoost modelu v Signalligence (autor: Signalligence) ... 70 Obrázek 20 Aplikování modelu Lineární regrese (autor: Signalligence) ... 71 Obrázek 21 Přenos signálů do vyšších úrovní hierarchie (autor: Signalligence) ... 71 Obrázek 22 Model v Power BI pro vyhodnocení výsledků ML algoritmů (autor: Miroslav Lutovský) ... 72 Obrázek 23 Dashboard obsahují výsledky hledání anomálií, Signalligence I (autor: Miroslav Lutovský) ... 73 Obrázek 24 Dashboard obsahující výsledky hledání anomálií, Signalligence II (autor:

Miroslav Lutovský) ... 74 Obrázek 25 Dashboard obsahující predikce z Power BI a množství předepsaných antiinfektiv (autor: Miroslav Lutovský) ... 75 Obrázek 26 Detail anomálie v nástroji Power BI (autor: Miroslav Lutovský) ... 75 Obrázek 27 Dashboard obsahující výsledky hledání anomálií pomocí Decission Forest Regression (autor: Miroslav Lutovský) ... 76

(9)

Obrázek 28 Dashboard obsahující výsledky hledání anomálií pomocí Neural Network Regression (autor: Miroslav Lutovský) ... 77 Obrázek 29 Změna Interface pipeliny na Real-time interface pipeline (autor: Miroslav Lutovský) ... 79 Obrázek 30 Real-time interface pipeline s modelem Boosted Decission Tree (autor:

Miroslav Lutovský) ... 80

(10)

Seznam tabulek

Tabulka 1 Počet uživatelů eReceptu k 3.11.2020 (data SÚKL, vlastní zpracování) ... 20

Tabulka 2 Porovnání metodik pro datové úlohy (autor: Miroslav Lutovský)(Figueirêdo et al. 2020; Khan et al. 2019) ... 29

Tabulka 3 SWOT analýza (autor Miroslav Lutovský) ... 30

Tabulka 4 Provozní náklady na infrastrukturu v Azure (autor Miroslav Lutovský) ... 31

Tabulka 5 ATC kód rozdělen do jednotlivých podskupin (autor WHOCC 2018) ... 36

Tabulka 6 Přehled ML přístupů pro detekci anomálií více rozměrových časových řad a jejich popisů (Figueirêdo et al. 2020; Khan et al. 2019) ... 66

Tabulka 7 Porovnání výsledků evaluace algoritmů v Azure Machine Learning Studiu (autor: Miroslav Lutovský) ... 69

Tabulka 8 Monitorovací pravidla ... 77

Tabulka 9 Porovnání jednotlivých technologií (autor: Miroslav Lutovský) ... 78

(11)

Seznam grafů

Graf 1 Přehled popularity jednotlivých metodik pro Data science projekty (Data Science Project Management 2021) ... 21 Graf 2 Přehled četnosti vyhledávání metodik pro Data Science na vyhledávači Google (Data Science Project Management 2021) ... 21 Graf 3 Používané metodologie dle uživatel KDnuggets serveru (data Piatetsky, vlastní zpracování) ... 22 Graf 4 Spotřeba a struktura spotřeby antibiotik u vybraných evropských zemích (SÚKL 2019) ... 37 Graf 5 E.Coli rezistentní k florochinolonům v EU (SÚKL 2019) ... 38 Graf 6 Klebsiella pneumoniae rezistentní k florochinolonům, 3. generace cefalosporinům a aminoglykosidům v EU (SÚKL 2019) ... 39 Graf 7 Pseudomonas aeruginosa rezistentní k 3 a více antimikrobním skupinám léčiv (piperacilliny, tazobactamy, ceftazidimy, florochinolony, aminoglykosidy, karbapenemy) (SÚKL 2019) ... 40 Graf 8 Spotřeba antibiotik v ČR, náklady spojená se spotřebou antibiotik (Prokeš 2017) ..41 Graf 9 Počet vydaných digitálních receptů (data Bruthans 2019, vlastní zpracování) ... 53 Graf 10 Počet vydaných digitálních receptů z celkového množství receptů (data Bruthans 2019, vlastní zpracování) ... 53 Graf 11 Sloupcový graf s distribucí hodnot proměnné (Autor: Mawer 2017) ... 55 Graf 12 Bullet chart graf s distribucí hodnot proměnné závislé na cílové proměnné (Autor:

Mawer 2017) ... 55 Graf 13 Bodový graf zobrazující závislost 2 proměnných (Mawer 2017) ... 56 Graf 14 Graf s clustery v závislosti na dvou proměnných (Mawer 2017) ... 57 Graf 15 Donutový graf znázorňující chybějící hodnoty u hmotnosti a pohlaví pacienta (autor:

Miroslav Lutovský) ... 58 Graf 16 Spojnicový graf spotřeby antiinfektiv s detekcí anomalií vytvořený v Power BI Desktop (autor: Miroslav Lutovský)... 59 Graf 17 Sloupcový graf předepsaných antiinfektiv po jednotlivých lékařích (autor: Miroslav Lutovský) ... 59 Graf 18 Donutový graf předepsaných antiinfektiv dle diagnózy (autor: Miroslav Lutovský) ... 60 Graf 19 Sloupcový graf předepsaných antiinfektiv dle krajů v roce 2019 (autor: Miroslav Lutovský) ... 60 Graf 20 Sloupcový graf předepsaných antiinfektiv po okresech (autor: Miroslav Lutovský) ...61

(12)

Seznam výpisů programového kódu

Výpis zdrojového kódu 1 Příklad konfiguračního souboru Signalligence pro dataset ...61 Výpis zdrojového kódu 2 Příklad konfiguračního souboru Signalligence pro dimenze ... 64

(13)

Seznam zkratek

AI Umělá Inteligence BI Business Intelligence

CRISP-DM Cross-industry standard process for data mining CÚER Centrální úložiště elektronických receptů

DM Data Mining

ePreskripce Elektronická preskripce eRecept Elektronický recept

EU Evropská Unie

HVLP Hromadně vyráběný léčivý přípravek IPLP Individuálně připravovaný léčivý přípravek JSON JavaScript Object Notation

LP Léčivý přípravek ML Machine Learning

MLaaS Machine Learning as a Service NAP Národní antibiotický program

RLPO Registr léčivých přípravků s omezením SSBI Self-Service Business Intelligence SÚKL Státní ústav pro kontrolu léčiv SZÚ Státní zdravotní ústav

TDSP Team Data Science Process ZP Zdravotní pojišťovna

(14)

Úvod

Data – nejcennější aktivum

Žijeme ve světě, kdy dnes znamená včera. Svět se vyvíjí každým dnem. Pokud budete číst tuto práci či jiný text vzniklý během tohoto roku, následující den již nebude aktuální, ale zastaralý. Použité technologie již budou zastaralé, tak rychle se vyvíjí technologický svět.

Kdysi by intelektuál řekl, že hodnota spočívá v reálných věcech, ale dnes je hodnota ve věcech abstraktních. V něčem, co si průměrný člověk nepředstaví. Něco, co nevidíme a čeho se nedotkneme. A to jsou data. Data dnes tvoří jedno z největších bohatství. Nejhodnotnější firmy bývaly petrochemické, automobilové a technologické, ale to již neplatí. Mezi nejznámější a jedny z nejhodnotnějších firmem dneška patří Apple, Google, Microsoft, Amazon a Facebook (Forbes Česko 2020). Když se na tyto společnosti podíváme, zjistíme, že mají jednu charakteristiku společnou – sbírají data o uživatelích, respektive uživatelé jim dávají jejich data zdarma či je tvoří na jejich platformách. Hodnota spočívá v datech a následně získaných znalostech z těchto dat. Co je znalost v případě Facebook? Každý jsme se setkali s tím, že jsme si mysleli, že nás Facebook odposlouchává, protože nám nabízí produkt, o kterém jsme si říkali, že bychom ho chtěli. Ve skutečnosti společnost sbírá data o chování uživatelů na jejich síti a dokáže na základě těchto dat objasnit jejich myšlení a náladu. Dalo by se říci, že díky datům o chování milionů uživatelů jste schopni pomocí machine learningových algoritmů dát dohromady pravděpodobné chování uživatele.

Dokážete předpovědět, jakou má uživatel náladu a co chce. Jedná se o znalost chování uživatelů na sociálních sítích (Soukupová a Haushalterová 2019).

Zlato je považováno za nejcennější kov a nositele hodnoty. Dnes i peníze tvoří data či dokonce jsou daty (blockchain). Dalo by se říci, že žijeme v době informační (datové), která je typická svojí dynamičností, kdy dochází k rychlému nástupu a vývoji nových technologií i do ne tolik technologicky dotčených oborů. Příznačné pro tuto dobu je, že každá organizace vytváří data svojí činností. Firmám nezbývá de facto nic jiného než investovat do technologií, aby nepřišli o svoji konkurenční výhodu, z čehož vyplývá, že dochází k transformaci v informační/znalostní/digitální společnosti. Tento trend měl zrychlovat i v roce 2020, ale kvůli pandemii Coronaviru došlo ke zpomalení tohoto trendu (Revue 2020;

Lovelock et al. 2020). a následnému rapidnímu zrychlení v roce 2021, který bude mít vliv na pracovní trh(Riemlová 2021). I státní instituce a úřady jsou tlačeny občany ke sbírání a zveřejňování otevřených dat, digitalizaci procesů státu a zjednodušení administrativy. Mezi takové projekty patří například eRecept, eNeschopenka a mnoho dalších (rekonstrukce státu 2021).

S touto dobou jsou spojena data, která se podobají zlatu. Než se člověk dostane k zlatu, je zatím mnoho práce. Než se zpracuje zlatá ruda ve zlatou cihlu, tak i z dat je možné získat znalosti, které jsou cennější než zlato. Zlato je pro nás omezeným zdrojem, kdežto data jsou zdrojem neomezeným, který je generovaný jakoukoliv lidskou činností a každou organizací ve společnosti. Můžeme říci, že s každým novým výrobkem či novou technologií nám

(15)

přibývají nová data. Tak jako zlato uchovává svoji hodnotu, tak data nabývají na významu a dokáží zvýšit přidanou hodnotu podniku (McKinsey 2020).

Tento trend se projevuje skrze celou společnost. Nejenže trh datové analytiky sdružující mnoho technologií, jako například Business Intelligence, Machine Learning, Big data, Internet of Things atd., je rostoucí, vznikají nové pracovní pozice Data scientist, Data engineer atd. na pracovním trhu i studijní obory zabývající se datovou analytikou na vysokých školách, například na Vysoké škole ekonomické v Praze (Říčková 2020).

Vymezení práce a důvodu výběru tématu

Tématem diplomové práce je Využití Machine Learningového algoritmu k předcházení nežádoucích stavů v rámci elektronické preskripce v organizaci Státního ústavu pro kontrolu léčiv.

Elektronická preskripce produkuje velké množství dat, kterých se dá využít pomocí Machine Learningových nástrojů. Díky tomu je možné predikovat stavy daných procesů, například predikce nákupu léčiv pro výrobu drog, zjištění možné spolupráce lékařů s farmaceutickými společnostmi, predikce výpadků léčiv na trhu atd. Machine Learning může vést ke zvýšení produktivity či zvýšení kvality procesů. Téma své diplomové práce si autor vybral sám, jelikož se o problematiku spojenou s datovou analytikou zajímá dlouhodobě. Dalším neméně důležitým důvodem je zvyšující se zájem o technologie a nástroje postavené na Machine Learningu, které se používají pro podporu rozhodovacích a monitorovacích činností v podniku. Prostředí farmaceutického průmyslu je vysoce konkurenční, což vede jednotlivé aktéry trhu k implementaci nových trendů. Tak je tedy důležité, aby i kontrolní orgány využívaly k podpoře interních procesů prediktivní analytiku.

Cíle práce

Autorova práce se skládá z několika cílů, které definují základní strukturu této práce. Cílem této diplomové práce je analýza vybrané aplikace elektronické preskripce, identifikace rizikových oblastí, vytvoření monitorovacích pravidel nad nimi a pomocí vybrané Machine Learningového algoritmu předcházet nežádoucím stavům u vybrané oblasti.

Autor si stanovuje za cíl analýzu současného stavu, popsání současné architektury, návrh budoucí architektury řešení, vytvoření POC, výběr vhodného Machine Learningového algoritmu a návrh výstupu pro uživatele.

Výsledkem práce bude takové řešení, které bude obsahovat Machine Learningové technologie v Cloudu, které přinesou pozitivní dopad na celé řešení. Nezanedbatelnou částí bude též popis postupu řešení.

(16)

Způsob dosažení cíle

V kapitole 1.1 je popsáno zadání projektu, v následující kapitole 1.2 je vybrána kombinace metodik Team Data Science Project a 1.2.1 Cross industry process for data mining, kterými se řídí celá tato práce. Pro navržení vhodné architektury řešení je třeba zanalyzovat aktuální stav architektury a modifikovat ji na základě požadavků, které jsou validovány s SÚKL.

Následně jsou zpracována data z eReceptu a je vybrán vhodný ML algoritmus, který je aplikován na datech. Výsledek a celý projekt je validován se SÚKL.

Předpoklady a omezení práce

Předpokladem pro úspěšné dosažení vytyčených cílů je zájem instituce, Státního ústavu pro kontrolu léčiv (dále SÚKL), zapojit se do projektu, protože bez spolupráce není možné provést analýzu, ani vytvořit vyhovující řešení, které by integrovalo Machine Learningové nástroje.

Úspěch této práce bude záležet na ochotě instituce zpřístupnit nezbytné informace a data, která jsou důležitá či nezbytná pro provedení analýzy. Některé informace jsou samozřejmě neveřejné, a proto je nebude autor uvádět.

Mezi největší překážky patří nemožnost uvádění reálných neanonymizovaných dat či informací, aby instituci nebyla způsobena případná újma. Z tohoto důvodu budou v práci použita fiktivní nebo pozměněná data či data se souhlasem instituce.

Pro provedení analýzy se očekává aktivní spolupráce se zákazníkem (přístup k dokumentaci procesů a datům), z důvodu proveditelnosti. Autor předpokládá, že povede rozhovory s koncovými uživateli.

Struktura práce

Práce je strukturována podle doporučení vedoucího práce a Katedry informačních technologií na Vysoké škole ekonomické v Praze.

Po úvodní kapitole, kde je čtenář seznámen se strukturou a cíli práce, následuje kapitola s rešerší závěrečných prací, které se zaměřují na podobná témata. Následně je čtenář proveden zadáním projektu a výběrem metodiky, kterou se řídí zbytek této práce. Následuje analýza problematiky elektronické preskripce a rizikové oblasti, kde je popsána problematika antiinfektiv. Poté je věnována kapitola návrhu architektury řešení s představením principů, na kterých je vystavena. Následuje analýza a příprava dat pro jednotlivé vybrané technologie. Poté následuje vyhodnocení a výběr jednotlivých technologií v rámci evaluace. Poté návrh nasazení dané technologie do stávající architektury řešení a nastavení monitorovacích pravidel. V závěru je zhodnocena úspěšnost projektu.

(17)

Očekávané přínosy

Analýza současného stavu povede ke zjištění, zda je možné implementovat machine learningové algoritmy na vybranou problematiku. V případě nemožnosti implementování navrhne autor zlepšení daného stavu.

V neposlední řadě je tato diplomová práce cenným přínosem nejen pro samotného autora, ale i pro Státní ústav pro kontrolu léčiv.

(18)

Rešerše prací

Oblast Machine Learningu si získává v poslední době pozornost nejen velkých firem, ale i studentů a vysokoškolských pracovníků, kteří se rozhodli této zajímavé oblasti věnovat ve svých odborných pracích. Tato kapitola pojednává o pracích, jež autor použil při tvorbě této práce. V první podkapitole je čtenář seznámen s diplomovými pracemi na podobné téma.

Druhá část této kapitoly se věnuje odborné literatuře, která je nezbytná pro napsání této práce, a která posloužila jako inspirace pro autora.

Diplomové práce

STRAKA, R.: Návrh možností analýzy a prezentace dat se zaměřením na sportovní odvětví [elektronický zdroj]. Diplomová práce. 2018.

Tato práce se dívá na dashboard z jiného pohledu, a to z psychologického hlediska, zejm.

jak člověk vnímá objekty. Práce má široký teoretický základ, vycházející ze zahraniční odborné literatury. Velice zajímavá je první část této práce, kde jsou detailně popsány jednotlivé aspekty vnímání tvarů člověkem. Následná poslední část ukazuje aplikování teoretických poznatků v moderním nástroji Microsoft Power BI.

KÚDELA, J.: Strojové účenie ako služba - predikovanie výsledkov verejných obstarávaní [elektronický zdroj]. Diplomová práce. 2018.

Práce je zaměřená na Machine Learning jako službu v Cloudu – Machine Learning as a Service. V práci je detailně popsáno, jak pracovat Machine Learningem v Cloudu a jaké specifity to obnáší oproti klasickému pojetí ML. Velice zajímavou částí byla prostřední část, kde autor popisoval aplikaci ML problematiky ve dvou vybraných cloudových řešení. Pro mě byla velice přínosná část věnovaná řešení postavenému v Microsoft Azure, které využiji v této práci.

Odborná literatura a studie

MBI – Management Byznys Informatiky (mbi.vse.cz)

Jedná se o webový portál, kde je možné najít velké množství zobecněných řešení v provozu, řízení a rozvoji podnikové informatiky. Tento webový portál je vytvářen experty nejen z Vysoké školy ekonomické v Praze, ale i z jiných vysokých škol, což se odráží ve vysoké kvalitě informací. Na portálu můžeme nalézt nejen zkušenosti odborníků z praxe, ale i široké spektrum informací ohledně datové problematiky (zejména o Data science a Managementu podnikové informatiky).

(19)

Pro potřebu této diplomové práce se jeví jako zajímavé tyto sekce: Power BI- principy, data, aplikace, uživatelské rozhraní, Power BI service-mobilní aplikace a přímé dotazování.

Zároveň musíme brát v úvahu části týkající se Data science.

Self Service Business Intelligence - Pour Jan, Maryška Miloš, Stanovská Iva, Šedivá Zuzana

Kniha autorů Vysoké školy ekonomické v Praze se komplexně zabývá realizací samoobslužných Business Intelligence aplikací. Kniha je rozdělena na dvě části. V první části autoři popisují principy tvorby řešení zaměřené na plánovací a analytické úkoly.

Druhou část autoři věnovali praktické ukázce tvorby SSBI aplikací v konkrétních nástrojích např. Power BI, Qlik Sense atd.

Autor využije tuto knihu při tvorbě poslední části této diplomové práce, věnované prezentaci výstupů Machine learningových algoritmů.

Introducing Data Science and Microsoft Azure Machine Learning 2nd Edition - Valentine Fontana, Roger Barga a Wee Hyong Tok

Tato kniha slouží jako ideální doplněk oficiální dokumentace od firmy Microsoft pro Azure Machine Learning. V této knize autoři vysvětlují, co je to Data science, a jaké podobory dle nich se řadí do tohoto širokého oboru. Knihu bych doporučil jako základ pro někoho, kdo chce pochopit, jak funguje Machine Learning a jak ho postavit v prostředí Cloudu firmy Microsoft.

Autor využije tuto knihu při návrhu architektury a výběru vhodných Machine Learningových algoritmů.

Data Structures and Algorithms with Python – Kent D. Lee a Steve Hubbard

Tato kniha vysvětluje koncepty a techniky potřebné pro psaní programů, které mohou efektivně zpracovávat velké množství dat. Kniha je projektově zaměřená, přibližuje čtenáři řadu důležitých algoritmů, které se používají v praxi a ukazuje problémy, kterým čelí počítačoví programátoři. Rovněž je v knize představena myšlenka výpočetní složitosti, která ukazuje, co lze a co nelze efektivně spočítat, aby programátor mohl informovaně posoudit algoritmy, které lze použít. Jak již název napovídá, kniha se zaměřuje na jazyk Python.

Autor využije poznatky z této knihy při tvorbě scriptů použitých pro zpracovaní dat.

(20)

1 Projekt ePreskripce

Elektronická preskripce vznikla na základě národní strategie eHealth - Národní strategie pro elektronické zdraví a strategický rámec pro rozvoj eGovernmentu a zákona 378/2007 Sb. Zákon o léčivech. Elektronickou preskripci využívá více než 63 a půl tisíce subjektů.

V listopadu byl překonán milník 200 miliónů vystavených eReceptů (SÚKL 2020b; 2020a).

Tabulka 1 Počet uživatelů eReceptu k 3.11.2020 (data SÚKL, vlastní zpracování)

Subjekt Počet Zdravotnická zařízení 18152

Lékárny 2849

Lékaři 45184

V této kapitole si rozebereme fungování systému eRecept se zaměřením na datovou část (vznik a práce s daty). Pro pochopení fungování a následnou analýzu dat eReceptu. Autor vybere vhodnou metodiku pro datové projekty. Touto metodikou se bude řídit zbylá tvorba této diplomové práce.

1.1 Zadání projektu

Zadání projektu dle SÚKL a Ministerstva Zdravotnictví České republiky se týká aplikování Machine Learningu na analýzu anomálií ve spotřebě antiinfektiv z pohledu geografického a časového, podle věku a pohlaví pacienta. Cílem je zjistit, zda existují anomálie a popřípadě naučit model rozeznávat přítomné anomálie. Finální řešení má být zakomponováno do stávající infrastruktury v Cloudu.

1.2 Výběr metodiky

Jedním z úvodních stádií jakéhokoliv projektu je výběr vhodné metodiky, podle které se bude projekt řídit. V této kapitole si popíšeme vybrané vhodné metodiky pro řízení projektu orientovaného na práci s daty. Vybral jsem z možných metodiky 2 možné používané pro Data Science projekty. Mezi vybrané metodiky jsem zařadil Cross industry process for data mining a Team Data Science Process.

(21)

Graf 1 Přehled popularity jednotlivých metodik pro Data science projekty (Data Science Project Management 2021)

Graf 2 Přehled četnosti vyhledávání metodik pro Data Science na vyhledávači Google (Data Science Project Management 2021)

Na grafu číslo 1 můžeme vidět přehled popularity jednotlivých metodik mezi uživateli portálu Data Science Project Management. Mezi nejpopulárnější doménové metodiky patří CRISP-DM a TDSP. Též se tato dvojice objevuje mezi prvními dvěma metodikami ve vyhledávání na vyhledávači Google viz graf číslo 2. Tyto dvě metodiky jsou popsány níže.

0% 10% 20% 30% 40% 50% 60%

CRISP-DM Scrum Kanba Vlastní TDSP Jiná Žádná SEMMA

Jakou používáte metodiku pro datové projekty ?

0 1000 2000 3000 4000 5000

CRISP-DM TDSP SEMMA KDD process Agile Data Science OSEMN Data Science Scrum Data Science Kanban

Nejvyhledávanější metodiky pro datové projekty

Četnost vyhledávání na Americkém Google mezi 1.7. 2019 - 30.6. 2020

(22)

1.2.1 Cross industry process for data mining

První publikovaná verze této metodiky vznikla v roce 1999. Na vzniku se podíleli soukromé firmy NCR, ISL a OHRA, i vědci v rámci Evropského výzkumného projektu zastřešeného programem ESPRIT (European Strategic Programme on Research in Information Technology). Jak název napovídá, tak hlavním cílem bylo vytvořit takovou metodiku, kterou lze aplikovat jako univerzální postup pro dobývání znalostí z databází. Metodika je nezávislá na použitých softwarových nástrojích a na konkrétním odvětví. Z této metodiky vychází další komerční metodiky, například ASUM-DM od IBM či SEMMA od SAS (Berka 2003).

Na přiloženém grafu číslo 1 můžeme vidět, že tato metodika je stále používaná (poslední průzkum byl proveden v roce 2014), o čemž vypovídá průzkum mezi uživateli webu KDnugets věnující se AI, Analytice, Big Datům, Data Science a Machine Learningu. V anketě vyšla tato metodika jako nejpoužívanější, s podílem 43 % respondentů z celkových 200. 27

% respondentů používá svojí vlastní metodiku. Třetí nejpoužívanější metodikou je SEMMA s 8,5 %, která poklesla skoro o polovinu oproti předchozímu šetření (Piatetsky 2014).

Graf 3 Používané metodologie dle uživatel KDnuggets serveru (data Piatetsky, vlastní zpracování) Metodika CRISP-DM obsahuje 6 částí: Business Understanding (porozumění problematice), Data Understanding (porozumění datům), Modeling (modelování), Evaluation (evaluace) a Deployment (nasazení). Dle autorů metodiky není striktně dané pořadí jednotlivých částí. Je možné se dle potřeby vracet k předchozím krokům nebo opakovat kroky během jednoho projektu. Je vhodné se vracet k předchozím kroků a optimalizovat je. V přiloženém obrázku číslo 1 můžeme vidět sled jednotlivých kroků metodiky. Šipkami je znázorněn sled jednotlivých fází metodiky. Nejdůležitější fáze je porozumění problému. Ta zabere 20 % času, ale má 80% význam. Časově nejnáročnější je

43 27.5

8.5 8 7.5 3.5 2 0

42 19

13 4

7.3 5.3 4.7 4.7

0 5 10 15 20 25 30 35 40 45 50

CRISP-DM Vlastní SEMMA Ostatní, nedoménová KDD Process Organizace Doménově specifická metodika Žádná

Jakou metologii používáte pro váš analytický, data minongový či data science projekt ?

2007 2014

(23)

fáze přípravy dat, která zabírá 80 % času s 20% významem, přičemž modelování a analýza zkoumaných dat zabere 5 % času a má 5% význam (Berka 2003).

Obrázek 1 Jednotlivé fáze metodiky CRISP-DM (autor: Chapman et al. 1999)

1.2.1.1 Business Understanding

V této fázi je důležité porozumět požadavkům a cílům projektu z manažerského pohledu.

Vyhodnotit rizika a přínosy projektu, zkalkulovat potřebné zdroje a náklady. Následně stanovit plán projektu. Je důležité porozumět zkoumané oblasti, ze které pochází data, a je třeba mít znalost specifické oblasti. Proto je třeba rozlišit mezi novými a již známými znalostmi, které pocházejí z datové analýzy. Data miningové úlohy je možné provádět z různých doménových oblastí například zdravotnictví, marketing, telekomunikace, atd.

(MBI nedatováno).

1.2.1.2 Data Understanding

V rámci této fáze je dle autorů metodiky provést následující 4 kroky s daty:

Sběr vstupních dat – v prvním kroku je nezbytné získat alespoň přístup k datům, definovaným ve zdroji projektu, případně rozšířit o vhodná externí data. Výstupem je report, obsahující seznam získaných datových sad a metod, pomocí kterých je možné získat data a seznam problémů, které se vyskytly při získávání dat.

(24)

Popis dat – prozkoumáme hrubé a povrchové vlastnosti (datové typy, poty záznamů v tabulkách, význam sloupců). Ověření relevantnosti jednotlivých dat vůči zadání projektu.

Zkoumání dat – v rámci tohoto kroku se nejčastěji využívají deskriptivní a vizualizační techniky, pomocí kterých jsou data zobrazována a zkoumána. V rámci průzkumu můžeme zkoumat maximální, minimální, průměrné hodnoty, mediány, četnost výskytu atributů atd.

Ověření kvality dat – v tomto kroku provedeme kontrolu kvality dat. Cílem tohoto kroku je zjistit odpovědi na otázky typu: “Pokrývají získaná data dostatečně zkoumanou oblast? Jaká je správnost dat? Obsahují chyby a případně kolik?

Obsahují chybějící data?” Pokud narazíme na chyby v datech, je třeba vytvořit seznam chyb s jejich možnými řešeními. Řešení jsou závislá na naší znalosti dané problematiky (Chapman et al. 1999).

1.2.1.3 Data Preparation

Příprava dat je popsána Berkou takto: „Příprava dat zahrnuje selekci dat, čištění dat, transformaci dat, vytváření dat, integrování dat a formátování dat.“ (Berka 2003). Tato fáze navazuje na fázi analytickou, z které čerpá záznamy o atributech. Na základě těchto dat proběhne výběr konkrétních atributů pro datovou úlohu. Omezujícími faktory pro výběr dat jsou technické překážky na straně vybraného softwaru, relevance dat ve vztahu k vybranému algoritmu a cílům stanovených v první fázi. Čištění dat je proces zvyšování kvality dat, která vede ke zlepšení výsledků analytické části. Mezi čištění dat můžeme řadit:

nahrazení chybějících hodnot, vložení vhodných výchozích hodnot algoritmu atd. Vytváření nových dat spočívá v odvozování nových dat, transformací, existujících dat. Odvozená data jsou taková, která vznikla kombinací několika atributů v rámci stejného záznamu. Mezi taková odvozená data můžeme řadit dobu vyzvednutí léku, která se vypočte jako rozdíl předepsání léku a vyzvednutí léku v lékárně. V rámci procesu integrace dat dochází ke vzniku nového záznamu kombinací relevantních dat, týkající se tohoto záznamu z objektu dat uloženého ve více tabulkách či datových sadách. Je možné provést v rámci této operace i agregaci dat, pokud není nutné pracovat na větší úrovni detailu. Pod pojmem integrace si můžeme představit údaje o pacientovi, kdy v jedné tabulce jsou osobní údaje o pacientovi a v další údaje o předepsaných léčivech. V integrované nové tabulce budeme mít jak data týkající se údajů o pacientovi, tak jeho předpisy, a to v rámci jednoho záznamu. Příkladem agregace dat je situace, kdy není potřeba zkoumat jednotlivé předepsané léky lékařem, ale celkové množství v daném časovém období. Formátování dat jsou takové operace s daty, které vedou k úpravě dat v syntaktickém smyslu, například označení každého záznamu unikátním identifikátorem atd. Data jsou v rámci této fáze transformována tak, aby splnila specifické požadavky vybraných algoritmů DM. Takovým příkladem může být binarizace i diskretizace. Výstupem této fáze je taková datová sada, která vyhovuje požadavkům konkrétního algoritmu zpracovávajícího data(MBI nedatováno).

1.2.1.4 Modeling

Tuto fázi lze rozdělit do 4 kroků dle Larose:

(25)

• Výběr a aplikace vhodné modelovací techniky.

• Kalibrace parametrů vybraného modelu/algoritmu za účelem optimálního nastavení a nalezení relevantních výsledků.

• K nalezení relevantního výsledku je možné využít kombinaci několika rozdílných algoritmů/modelů. Doporučuje se použít více algoritmů a jejich výsledek zkombinovat.

• Je možné se vrátit k předchozí fázi přípravy dat a upravit data tak, aby byla vhodně přizpůsobena vybranému modelu/algoritmu (Larose a Larose 2014).

1.2.1.5 Evaluation

V předposlední fázi vyhodnocujeme získané znalosti, které jsou relevantní ke zvoleným metodám. Důležité je zhodnotit tyto znalosti z pohledu manažerů (viz fáze 1). Pro ně jsou získané znalosti důležité a oni určí, zda zadané cíle v první fázi projektu byly naplněny.

V rámci této fáze je možné přijít s takovýmto výsledkem: „Výsledky testování klasifikačních znalostí ukázaly, že systém byl příliš přísný, tedy rozpoznával klienty rizikové, ale v určitých případech (obzvláště u vyšších půjček) za rizikové označil i klienty bonitní. Bylo tedy rozhodnuto, že ve všech pobočkách banky bude využíván program, který bude rozhodovat o úvěrech do určité částky.“ (MBI nedatováno).

1.2.1.6 Deployment

V poslední fázi dochází k zhodnocení výsledků úlohy a definici využití dílčích výsledků úlohy koncovými uživateli. Výstupy úlohy mohou být ve formě závěrečné zprávy o dosažených výsledcích i softwarové řešení, automatizující proces dané úlohy (Berka 2003).

1.2.2 Team Data Science Process

Team Data Science Process (dále TDSP) je agilní, iterativní metodologie datové vědy, která efektivně dodává řešení prediktivní analýzy a inteligentní aplikace. TDSP pomáhá zlepšit týmovou spolupráci a učení tím, že navrhuje týmové role tak, aby spolupracovali efektivněji.

TDSP zahrnuje osvědčené postupy a struktury od společnosti Microsoft a dalších lídrů v oboru, které pomáhají při úspěšné implementaci řešení v oblasti Data Science. Cílem je pomoci společnostem plně si uvědomit výhody jejich analytického programu (marktab et al.

2020).

TDSP se skládá z následujících klíčových komponent:

• Definice životního cyklu Data Science řešení

• Standardizovaná struktura projektu

• Infrastruktura a zdroje doporučené pro Data Science projekty

• Doporučené nástroje pro realizaci projektu

(26)

1.2.2.1 Životní cyklus Data Science projektu

TDSP poskytuje životní cyklus pro strukturování vývoje vašich Data Science projektů.

Životní cyklus obsahuje kroky, které následují osvědčené “best practices” v oboru. Pokud používáte jiný životní cyklus, například CRISP-DM, KDD nebo metodiku vytvořenou vaší organizací, můžete stále používat TDSP na základě úkolů v kontextu těchto kroků životního cyklu. Tento životní cyklus byl navržen pro Data Science projekty, které se dodávají jako součást inteligentních aplikací. Tyto aplikace nasazují modely ML nebo AI pro prediktivní analýzu. Z tohoto procesu mohou těžit také průzkumné datové vědecké projekty nebo improvizované analytické projekty. V takových případech lze některé kroky vynechat (marktab et al. 2020).

Životní cyklus TDSP se skládá z těchto hlavních kroků, které jsou prováděny v projektech iterativně:

• Business Understanding

• Získávání a porozumění datům

• Modelování

• Deployment

Na obrázku číslo 2 můžeme vidět vzájemné provázání jednotlivých kroků životního cyklu TDSP.

Obrázek 2 Životní cyklus Team Data Science Process (autor: marktab et al. 2020) Jednotlivé úlohy projektu a artefakty jsou spojeny pomocí rolí:

(27)

• Architekt řešení

• Projektový manažer

• Datový inženýr

• Datový vědec

• Vývojář aplikací

• Vedoucí projektu

Následující obrázku můžeme vidět zobrazení úkolů (modře) a artefaktů (zeleně), přidružených ke každé fázi životního cyklu (na vodorovné ose) a roli (na svislé ose).

Obrázek 3 Diagram provázanosti projektových rolí, artefaktů a kroků cyklu TDSP (autor: marktab et al. 2020)

1.2.2.2 Standardizovaná struktura projektu

Nezbytnou součástí úspěšného projektu je použití standartní struktury adresářů a použití šablon pro jednotlivé projektové dokumenty. Díky tomu usnadňuje členům týmu najít informace o svých projektech. Veškerý kód a dokumenty jsou uloženy v systému správy verzí (VCS), jako je Git, TFS nebo Subversion, aby bylo možné na projektu pracovat týmově. Pro sledování úkolů a funkcí v agilně řízeném projektu se používají nástroje jako například Jira, Rally a Azure DevOps. Díky tomu je možné sledovat, kdo na jakém úkolu pracuje, na kterou funkci systému je to navázané. Díky tomu je možné lépe odhadnout náklady na vývoj. TDSP doporučuje vytvořit pro každý projekt ve VCS samostatné úložiště pro správu verzí, zabezpečení informací a spolupráci. Standardizovaná struktura pro všechny projekty pomáhá budovat institucionální znalosti v celé organizaci(marktab et al. 2020).

Tato struktura složek organizuje soubory, které obsahují kód pro průzkum dat a extrakci funkcí, které zaznamenávají iterace modelu. Tyto šablony usnadňují členům týmu porozumět práci ostatních a přidávat do týmů nové členy. Šablony dokumentů ve formátu

(28)

“markdown” lze snadno prohlížet a aktualizovat. Použijte šablony k poskytnutí kontrolních seznamů s klíčovými otázkami pro každý projekt, abyste se ujistili, že problém je dobře definován a že výsledky splňují očekávanou kvalitu. Mezi příklady patří:

• Projektová listina k dokumentaci obchodního problému a rozsahu projektu

• Datové zprávy dokumentující strukturu a statistiku nezpracovaných dat

• Hlavní modelové zprávy pro dokumentaci odvozených funkcí

• Modely výkonnostní metriky, jako jsou ROC křivky nebo MSE (marktab et al. 2020)

Obrázek 4 Diagram struktury projektu ve VCS (autor: marktab et al. 2020)

1.2.2.3 Infrastruktura a zdroje pro Data Science projekt

TDSP doporučuje následující komponenty pro uložení dat a práci s nimi:

• Cloudové souborové systémy pro ukládání datových sad

• Databáze

• Klastry Big data (SQL nebo Spark)

• Machine Learning Service

Analytická a úložná infrastruktura, kde jsou uloženy nezpracované a zpracované datové sady, může být v Cloudu nebo “on premises”. Tato infrastruktura umožňuje reprodukovat analýzu. Rovněž se vyhne duplikaci, která může vést k nesrovnalostem a zbytečným nákladům na infrastrukturu. K dispozici jsou nástroje k zajištění sdílených prostředků, jejich sledování a možnosti bezpečně se k těmto prostředkům připojit pro každého člena týmu. Je také dobrým zvykem, aby členové projektu vytvářeli konzistentní prostředí. Různí členové týmu pak mohou replikovat a ověřovat experimenty (marktab et al. 2020).

(29)

Obrázek 5 Příklad týmu, který pracuje na více projektech současně a sdílí různé komponenty Cloudové infrastruktury (autor: marktab et al. 2020).

1.2.3 Shrnutí

Velkou výhodou metodik je jejich podobnost a možná kombinace, která vede ke zlepšení procesu vývoje řešení díky implementaci “best practices” z praxe. Pro účely této diplomové práce budu používat jednotlivé fáze metodiky CRISP-DM. A dokumenty metodiky TDSP (Project charter - není, Solution Architecture Digram – Kapitola 1.6 Architektura řešení, kde můžeme najít jednotlivé digramy; Data Summary Report - 1.7.5 Práce s daty; Model Report a Dashboard – 1.8 Modelování).

V přiložené tabulce níže můžeme vidět porovnání těchto dvou metrik.

Tabulka 2 Porovnání metodik pro datové úlohy (autor: Miroslav Lutovský)(Figueirêdo et al. 2020;

Khan et al. 2019)

Vlastnost TDSP CRISP-DM

Publikována 2016 (autor: marktab et al.

2020) 1999 (Chapman et al. 1999)

Základ SCRUM a CRISP-DM Best Practises

(30)

Typ Agilní Rigidní

Vhodnost Menší týmy Variabilní

Primárná Tech stack Microsoft Azure Nemá

Primární zaměření Datové úlohy Data mining

Fáze projektu

Business Understanding, Data

acquisition and

understanding, Modeling a Deployment

Business Understanding, Data Understanding, Modeling, Evaluation a Deployment

1.3 Zadání projektu

V této kapitole je popsáno zadání projektu z manažerského pohledu, vyhodnocení rizik a přínosů projektu, odhad nákladů a zdrojů.

1.3.1 Vyhodnocení rizik a přínosů projektu

SWOT analýza (tabulka číslo 3) byla využita pro zhodnocení příležitostí, hrozeb, silných a slabých stránek projektu. Autor dospěl k názoru, že hrozbou pro realizaci projektu je kvalita a přístup k datům, popřípadě vliv legislativy a Ministerstva Zdravotnictví. Mezi silnou stránku spadá interní znalost problematiky a možnosti využití dosavadních znalostí interních zaměstnanců.

Tabulka 3 SWOT analýza (autor Miroslav Lutovský)

Silné stránky Slabé stránky

- Interní znalost (medicínská) - Možnost využít interních zdrojů - Zkušenosti zaměstnanců s reportingem - Existující kvalitní řešení pro získávání a

práci s daty

- Zkušenost s provozováním Cloudových služeb

- Měřitelnost služeb - Dostupnost a přístupnost

- Interní technická znalost (technologická)

- Závislost na poskytovateli služby - Chybějící česká lokalizace služby

Příležitosti Hrozby

- Zefektivnění preskripce léčiv (spolupráce se SZÚ)

- Spolupráce s NAP

- Kvalita dat - Neúplnost dat - Přístup k datům - Vysoké náklady

(31)

- Jednodušší spolupráce s dalšími subjekty

- Otevření příležitosti pro další projekty orientované na Data Science (např.

hledání podvodných transakcí)

- Možnost zpřísnění GDPR (z angl.

General Data Protection Regulation) - Politický tlak z Ministerstva

Zdravotnictví - Kulturní bariéra

1.3.2 Odhad nákladů

Pro odhad nákladů ve státní správě se používá metodika „Metodika výpočtu TCO ICT služeb veřejné správy“ vydaná Ministerstvem vnitra ČR v roce 2016 (Odbor hlavního architekta eGovernmentu, MV ČR 2016). V případě provozních nákladů se můžeme dostat až na 40,52 Euro měsíčně. Pro odhad nákladů na Cloudovou infrastrukturu jsem vycházel z kalkulačky nákladů na Azure (Microsoft 2020b). V tabulce číslo 4 můžeme vidět rozepsané jednotlivé nákladové položky na budoucí infrastrukturu v Azure. Jedná se o SQL databázi, Azure Machine Learning a nástroj pro vývoj (Microsoft 2020b).

Tabulka 4 Provozní náklady na infrastrukturu v Azure (autor Miroslav Lutovský)

Prostředek Popis Cena (Euro)

Azure SQL Database S1 20 DTU, kapacita 250 GB 29,43 Azure Machine Learning 4 procesory, 14 GB RAM 11,09

Azure Machine Learning Studio 0,00

1.4 Analýza vybrané problematiky

V této kapitole je popsána problematika eReceptu a spotřeby antiinfektiv.

1.4.1 eRecept

Pro pochopení následujících kapitol je nezbytné si popsat jednotlivé části systému eRecept a navazující terminologii, používanou ve zdravotnictví. Systém eReceptu využívá několik aplikací a softwaru třetích stran. Pro každého “actora” (lékař, lékárník a pacient) je připravena specifická aplikace. Všechny aplikace komunikují s Centrálním úložištěm elektronických receptů (dále CÚER). V systému se pracuje s léčivými přípravky (LP), které jsou dle zákona o léčivech číslo 378/2007:“

1) látka nebo kombinace látek prezentovaná s tím, že má léčebné nebo preventivní vlastnosti v případě onemocnění lidí nebo zvířat, nebo

(32)

2) látka nebo kombinace látek, kterou lze použít u lidí nebo podat lidem, nebo použít u zvířat či podat zvířatům, a to buď za účelem obnovy, úpravy či ovlivnění fyziologických funkcí prostřednictvím farmakologického, imunologického nebo metabolického účinku, nebo za účelem stanovení lékařské diagnózy.“(Anon. 2007) LP lze chápat jako lék nebo léčivo v běžné mluvě. LP mají následující typy: Hromadně vyráběný léčivý přípravek (HVLP) - lze chápat jako průmyslově vyráběný lék, a Individuálně připravovaný léčivý přípravek (IPLP) - v podstatě se jedná o připravovaný lék v lékárně (např. různé masti). Další typ léků se skrývá v Registru léčivých přípravků s omezením (RLPO) - léky s tzv. modrým pruhem (opiáty) a IPLP s obsahem konopí pro léčebné použití(SÚKL 2018a).

1.4.1.1 Lékař

Lékař v systému předepisuje eRecepty, odesílá eReceptu do CÚER, vyhledává založené eRecepty či si může zobrazit detail zobrazeného eReceptu. Aby mohl lékař vystavovat elektronické recepty je nezbytné mít nainstalovanou mobilní či webovou aplikaci nebo softwarem třetí strany (třetí stranou rozumíme dodavatele zdravotnických aplikací).

K dispozici je více než 20 softwarů třetí strany (SÚKL 2018c). Dále mít zřízený a nainstalovaný osobní kvalifikovaný certifikát pro elektronický podpis, nainstalovaný přístupový SSL certifikát a vyřízený přístup do CÚER (SÚKL 2018b). Jedním z nejčastějších procesů, s kterým se lékař během praxe setká je Založení eReceptu, který můžeme vidět na obrázku číslo 6. Proces začíná, když lékař stanoví diagnózu pacientovi. Následně se přihlásí do aplikace (web nebo mobilní i software třetí strany), kde zadá základní kontaktní informace, poté vybere léčbu pomocí HVLP či IPLP a stanoví, zda má brát pacient opakovaně předepsané LP a případně počet opakování.

(33)

Obrázek 6 Proces Předepsání léčivého přípravku (autor: Miroslav Lutovský)

(34)

1.4.1.2 Lékárník

Lékárníkům slouží mobilní či webová aplikace od SÚKL pouze v případě výpadku systémů lékárny (elektřina, internet a systému lékárny) k ověření, zda je eRecept platný. S aplikací může provádět tyto operace: vyhledání eReceptu podle identifikátoru, zobrazení detailu vyhledaného eReceptu včetně výdejů. Aplikace pro lékárníky má stejné požadavky na používání jako pro lékaře (zřízený přístup do CÚER, nainstalovaný přístupový SSL certifikát, nainstalovanou aplikaci). Pokud chce lékárník provést výdej léků musí použít software od třetích stran k tomu určený (SÚKL 2020c).

Na obrázku číslo 7 můžeme vidět proces vyzvednutí léčivého přípravku v lékárně. Proces začíná tím, že se dostaví pacient s receptem do lékárny. Lékárník se přihlásí do aplikace.

Vyhledá pomocí QR kódu či čárového kódu daný recept (předpisovou část). Následně ověří dostupnost léčivého přípravku, pokud nemá lék z receptu nebo dle preferencí klienta (obliba znaky, cena, …) navrhne alternativu. Poté zadá informace o vydaném léku do eReceptu (vznikne výdej). Klient zaplatí a lékárník vydá léčivo. Může se stát, že pokud lékárník nemá všechny léky z předpisu, tak dá eRecept do stavu částečně vystaveno.

(35)

Obrázek 7 Proces vyzvednutí léčivého přípravku předepsaného v Předpisu

(36)

1.4.1.3 Pacient

Mobilní i webová aplikace nabízí pacientům přehled lékové historie. Aplikace slouží jako nejbezpečnější způsob uložení identifikátoru eReceptu, jelikož se neposílá identifikátor mimo CÚER (běžně se posílá identifikátor pomocí SMS i emailu). Aby mohl pacient používat aplikaci je potřeba mít elektronický občanský průkaz nebo ověřenou identitu na kontaktním místě veřejné správy (SÚKL 2018d).

1.4.1.4 Recept

Recept jako takový se skládá z několika položek z výdejové části (tzv. výdej), kterou vyplňuje lékárník, a předepisované (předpis), kterou vyplňuje lékař. Předpis obsahuje LP nebo IPLP.

To samé platí pro výdejovou část. Stává se, že lékař předepíše určitý lék, ale lékárna vydá jiný, jelikož daný lék nemusí mít na skladě nebo pacient si přeje vybranou značku léku.

Jeden výdej nebo předpis může obsahovat jeden nebo více LP či IPLP. Jednotlivé LP a IPLP spadají do ATC skupiny, kterou obsahují všechny části.

1.4.1.5 ATC Skupiny

ATC skupiny se používají k určení účinné látky v léčivech. V klasifikačním systému ATC jsou účinné látky klasifikovány v hierarchii s pěti různými úrovněmi. Systém má čtrnáct hlavních anatomických / farmakologických skupin v 1. úrovni. Každá hlavní skupina ATC je rozdělena do 2. úrovní, což mohou být buď farmakologické nebo terapeutické skupiny. 3. a 4. úroveň jsou chemické, farmakologické nebo terapeutické podskupiny a 5. úroveň je chemická látka. 2., 3. a 4. úroveň se často používají k identifikaci farmakologických podskupin, pokud je to považováno za vhodnější než terapeutické nebo chemické podskupiny(WHOCC 2018).

Kompletní klasifikace metforminu ilustruje strukturu kódu:

Tabulka 5 ATC kód rozdělen do jednotlivých podskupin (autor WHOCC 2018)

ATC podskupina Název skupiny a příklad

A Alimentary tract and metabolism (1. úroveň, anatomická hlavní skupina) A10 Drugs used in diabetes

(2, úroveň, terapeutická podskupina) A10B Blood glucose lowering drugs, excl. insulins

(3. úroveň, farmakologická podskupina) A10BA Biguanides

(4. úroveň, chemická podskupina) A10BA02 metformin

(5. úroveň, chemická substance)

(37)

1.4.2 Riziková oblast – Problematika spotřeby antiinfektiv

Antiinfektivum je taková látka, která brání vzniku, rozvoji či komplikacím z napadení lidského organismu nakažlivými patogeny. Mezi tyto patogeny řadíme bakterie, viry, kvasinky, plísně a parazity. Tyto látky můžeme najít pod písmen J v ATC skupinách (Vitalion 2020).

Mezi velkým problém nejen České republiky, ale celého světa patří vznik a následné šíření kmenů infekčních mikroorganismů, které jsou rezistentní vůči antiinfektivám. Proto vzniklo doporučení Rady EU (2002/77/ES) o obezřetném používání antimikrobních látek v lékařství a Doporučení Rady EU ze dne 9. června 2009 o bezpečnosti pacientů včetně prevence a kontroly infekcí spojených se zdravotní péčí (2009/C151/01) Ministerstvo zdravotnictví ČR na základě Usnesení vlády ČR č. 595/2009 vnikl Národní antibiotický program (dále NAP). NAP vytváří Seznam esenciálních antiinfektiv, které jsou nenahraditelné při léčbě infekcí. Jedním z problémů vedoucí ke vzniku rezistentních kmenů je špatně provedena diagnóza lékařem a následně předepsané antiinfektivum nebo nedostupnost daného antiinfektiva a následné nahrazení širokospektrálním antiinfektivem.

Druhý stav je řešen pomocí Seznamu esenciálních antiinfektiv (SÚKL 2019).

Graf 4 Spotřeba a struktura spotřeby antibiotik u vybraných evropských zemích (SÚKL 2019) Na grafu číslo 2 můžeme vidět spotřebu antibiotik ve vybraných zemích. Státy jižní Evropy mají velkou spotřebu antibiotik oproti Severní Evropě. Česká republika se nachází ve středu ve spotřebě antibiotik.

(38)

Graf 5 E.Coli rezistentní k florochinolonům v EU (SÚKL 2019)

Na grafu číslo 3 můžeme vidět výskyt rezistentní bakterie E.Coli. Tato bakterie má vyšší výskyt v jižní a východní části Evropské Unie.

(39)

Graf 6 Klebsiella pneumoniae rezistentní k florochinolonům, 3. generace cefalosporinům a aminoglykosidům v EU (SÚKL 2019)

Na grafu číslo 4 můžeme vidět rezistentní bakterie Klebsiella pneumoniae, které se zejména vyskytují v jižní a východní části EU. Česká republika se řadí mezi země s vyšším výskytem rezistentních kmenů bakterie.

(40)

Graf 7 Pseudomonas aeruginosa rezistentní k 3 a více antimikrobním skupinám léčiv (piperacilliny, tazobactamy, ceftazidimy, florochinolony, aminoglykosidy, karbapenemy) (SÚKL 2019)

Na grafu číslo 5 můžeme vidět multirezistentní bakterie Pseudmonas aeruginosa, které se zejména vyskytují v jižní a východní části EU. Česká republika se řadí mezi země s vyšším výskytem rezistentních kmenů bakterie.

(41)

Graf 8 Spotřeba antibiotik v ČR, náklady spojená se spotřebou antibiotik (Prokeš 2017)

Spotřeba antibiotik v rámci České republiky má vzrůstající trend, i když v posledních letech můžeme pozorovat výkyv směrem dolů. Náklady na léčbu mají klesající trend, který je způsoben regulační politikou na trhu SÚKLem. Lze konstatovat, že ČR nepatří mezi země s extrémně vysokými spotřebami ATB ani s nejhoršími výsledky indikátorů kvality spotřeb. Pozorujeme však řadu nepříznivých trendů, jako je například nadprůměrně vysoká spotřeba makrolidů, narůstající dominance chráněných penicilinů a nežádoucí vzestup spotřeby cefuroximu, což není odůvodněno změnami citlivosti mikrobů na ATB.

To v dlouhodobém horizontu přispěje k nárůstu rezistence mikrobů na ATB a ke zbytečně vysokých nákladů na ATB (Prokeš 2017).

Jednou z cest, jak snížit spotřebu antibiotik, je včasné vyhledání ohniska pacientů a zamezení šíření této nákazy. Na základě počtu anomálních pacientů u jednotlivých lékařů, mohlo by jít zjistit, zda není třeba další školení těchto odborníků, úpravě směrnic či zlepšení vzdělávání v rámci Programu pro zlepšování kvality používání antibiotik.

1.5 Principy architektury řešení

V této kapitole se čtenář seznámí s principy, na kterých staví nová architektura po aplikaci požadavků ze strany SÚKL a vybraných technologií. Nová architektura obsahuje nové principy: Low-Code programování, Machine Learning as a service (ML jako služba, dále MLaaS) a SSBI. Jedná se o kapitulu, která je jedním z východiskem pro stavbu budoucí architektury, která je blíže popsána v kapitole číslo 1.6.

17 18 18 19 19 20 20 21 21 22

0 500 1,000 1,500 2,000 2,500 3,000

2008 2009 2010 2011 2012 2013 2014 2015 2016 2017

DDD/1000 obyvatel/den

Miliony Kč /rok

Spotřeba ATB v DDD/TID a náklady na ATB

DDD/TID mil. Kč Linear (DDD/TID)

Odkazy

Související dokumenty

Jedná se o zásobník, který je umístěn co nejníže, nad ním je výměník okruhu ústředního topení a nejvýše leží elektrické topné těleso. Rozměry

Doporučuji marketingovému oddělení zaměřit se na jednu výhodu, co konkurence nenabízí (např. některou podle praktických příkladů z předešlé kapitoly) a

1) Vývojová fáze: prvotní období, během které se podnik zabývá příležitostí nápadu tvorby nového produktu. V této fázi nedochází k žádnému objemu prodeje, neboť

(dále jen Hon-kovo) a na základ ě této analýzy zpracovat návrh nového systému operativního ř ízení zakázkové výroby.. Strategické ř ízení výroby II.

Informa č ní systém Advanced Planning and Scheduling APS definujeme jako nástroj pro pokro č ilé plánování a rozvrhování výroby na úrovni jednoho

jde o právnické osoby se sídlem v Č R, založené jako akciové spole č nosti, minimální výše základního jm ě ní 500 mil.. Úv ě rová družstva jsou zpravidla malé

Obrázek 1 Mechanický briketovací lis Obrázek 2 Hydraulický briketovací lis Obrázek 3 Granulační lis 1000kg/hod Obrázek 4 Peletovací lis 50kg/hod Obrázek 5

Vypočítej, jaký výsledek bude v jednotlivých