Porovnání výsledků evaluace algoritmů v Azure Machine Learning Studiu (autor:

Algoritmus

Mean Absolute error

Root mean squared error

Relative Squared Error

Relative Absolute Error

Coeficient of Determination

Linear Regression 5,50 12,64 0,68 0,87 0,32

Boosted Decission

Tree Regression 3,42 6,52 0,18 0,54 0,82

Poisson

Regression 3,22 6,77 0,19 0,51 0,81

Neural Network

Regression 2,69 5,01 0,11 0,43 0,89

Decission Forest

Regression 2,46 5,22 0,11 0,39 0,89

1.8.3 Nástroj Signalligence

Nástroj Signalligence pracuje, tak jak napovídá jeho název, hledá signály anomálií na nejnižších úrovních hierarchie data setu. Pomocí XGBoost algoritmu dat na nejnižší úrovni hierarchií (definované v konfiguračních souborech) vypočítá očekávané a neočekávané hodnoty. Celý proces je znázorněn na obrázku číslo 19.

Obrázek 19 Zpracování dat pomocí XGBoost modelu v Signalligence (autor: Signalligence)

Následuje zpracování očekávaných a neočekávaných hodnot vypočítaných v předchozím kroku. Data jsou zpracovaná pomocí lineární regrese na nejnižší úrovni hierarchií.

Algoritmus nám vrací odhad významnosti, kovariační matici a signály pro daný den na nejnižší úrovni hierarchií.

Obrázek 20 Aplikování modelu Lineární regrese (autor: Signalligence)

Následuje agregace dat na vyšší úrovně hierarchií pomocí Signál agregátoru, který pracuje s odhadem významnosti a kovariační maticí viz. Obrázek číslo 20.

Obrázek 21 Přenos signálů do vyšších úrovní hierarchie (autor: Signalligence)

1.8.4 Vyhodnocení modelů

V kapitole 1.8.1 jsme popsali jednotlivé ML algoritmy. V této kapitole se podíváme, jak dopadlo aplikování ML algoritmů. Mezi vybrané algoritmy patří Neural Network Regression, Decission Forest Regression, SR-CNN a XGBoost s RMSE funkcí.

V rámci vyhodnocení výsledků ML algoritmů jsem připravil řešení v nástroji Power BI, které obsahuje model v obrázku číslo 22. Datový model obsahuje 3 dimenze (datum, geografie a ATC skupina) a 6 faktových tabulek (výsledek jednotlivého algoritmu a celková spotřeba antiinfektiv).

Obrázek 22 Model v Power BI pro vyhodnocení výsledků ML algoritmů (autor: Miroslav Lutovský)

1.8.4.1 Signalligence

Nástroj Signalligence používá algoritmus XGBoost s RMSE funkcí. V případě tohoto nástroje byly aplikovány dvě nastavení (obrázek číslo 23 a 24). První nastavení algoritmu nazývejme Signalligence I a druhé Signalligence II.

Obrázek 23 Dashboard obsahují výsledky hledání anomálií, Signalligence I (autor: Miroslav Lutovský)

Na obrázku číslo 23 se nachází dashboard, vytvořený v nástroji Power BI, zobrazující anomálie neboli výstupy ze Signalligence. Na horním sloupcovém grafu jsou anomálie dle ATC skupiny (Anatomická hlavní skupina) a datumu (datumová dimenze, lze zobrazit dle roku, kvartálu, měsíce, týdnu a dnů). Na levém dolním grafu, vidíme mapu České republiky, kde jsou zobrazeny počty anomálií (velikost kruhu je dle počtu anomálií) dle geografické dimenze (lze si přepnout na její jednotlivé úrovně). Při najetí kurzoru myší na kruh vidíme detail (počet anomálií, počet anomálií na 1000 obyvatel a residuum). Na spodní tabulce můžeme vidět počty anomálií v jednotlivých krajích. Na pravém liniovém grafu můžeme vidět vývoj residua v čase (použita datumová dimenze). Celý report lze filtrovat dle geografické, datumové a ATC dimenze.

Tento model Singalligence I vracel predikovanou spotřebu pro každý řádek faktové tabulky vždy 1. Z tohoto důvodu bylo nastavena pravděpodobnost na 0.97 a více a velikost residua na 30. Při tomto nastavení bylo nalezeno 2326 anomálií. Nejvíce anomálií bylo nalezeno

v měsíci listopadu a prosinci. Nejvíce anomálií bylo naměřeno v Moravskoslezském (507), jihomoravském kraji (315) a Praze (293), naopak nejméně Karlovarském kraji (4).

Obrázek 24 Dashboard obsahující výsledky hledání anomálií, Signalligence II (autor: Miroslav Lutovský)

Na obrázku číslo 24 je zobrazen dashboard, který má stejnou strukturu jako předchozí dashboard. Na rozdíl od modelu Signalligence I, tak model Signalligence II zobrazuje různou predikovanou hodnotu, což se odrazilo ve filtrování výsledků algoritmu. Filtrování je nastaveno následně pravděpodobnost je 0,97 a vyšší, a residuum je vyšší než 7. S tímto nastavením bylo nalezeno 1730 anomálií. Nejvíce anomálií se vyskytovalo v září (492), prosinci (465) a říjnu (241), naopak nejméně srpnu (34). Geograficky jsme měli nejvíce anomálií v Jihomoravském (307), Středočeském (220) a Moravskoslezském kraji (161), nejméně v Karlovarském (39) kraji.

1.8.4.2 Power BI

Nástroj Power BI využívá SR-CNN algoritmus pro hledání anomálií v časových řadách.

Nevýhodou tohoto řešení je, že je možné použití pouze na nejnižší úrovni hierarchie a není možné dále pracovat s nejnižší a nejvyšší predikovanou hodnotou.

Na obrázku číslo 25 můžeme vidět obdobné struktuře jako předchozí reporty, ale anomálie můžeme vidět jako šedé symboly na horním liniovém grafu. Anomálie se vždy zobrazí dle zvolených filtrů v horní části (datum, kraj, okres a ATC). Výsledky jsou filtrovány na 80 % senzitivitu.

Obrázek 25 Dashboard obsahující predikce z Power BI a množství předepsaných antiinfektiv (autor: Miroslav Lutovský)

Obrázek 26 Detail anomálie v nástroji Power BI (autor: Miroslav Lutovský)

Na obrázku výše můžeme vidět detail anomálie, který je možný zobrazit kliknutím na symbol anomálie v grafu. Pravděpodobné vysvětlení anomálie se nezobrazuje ve většině případů.

1.8.4.3 Azure Machine Learning Studio

V kapitole 1.8.2.1 Tvorba a trénování modelu jsme si představili, jak se připravuje model v Azure Machine Learning studiu.

Na obrázku číslo 27 se nachází dashboard, který má stejnou strukturu jako dashboardy znárodňující výsledky Signalligence. Jedná se o výsledky algoritmu Decission Forest Regression. Jakmile je filtrování nastaveno, hledáme residuum vyšší než 20. S tímto nastavením bylo nalezeno 1263 anomálií. Nejvíce anomálií se vyskytovalo v prosinci (220) a lednu (176), naopak nejméně srpnu (33). Geograficky jsme měli nejvíce anomálií v hlavním městě Praha (466), Jihomoravském (197) a Moravskoslezském kraji (122), nejméně v Karlovarském (10) a Libereckém (19) kraji.

Obrázek 27 Dashboard obsahující výsledky hledání anomálií pomocí Decission Forest Regression (autor: Miroslav Lutovský)

Na obrázku číslo 28 můžeme vidět dashboard, který zobrazuje výsledky algoritmu

“Decission Forest Regression”. Filtrování je nastaveno následně, residuum hledáme vyšší než 15. S tímto nastavením bylo nalezeno 2701 anomálií. Nejvíce anomálií se vyskytovalo v lednu (322), prosinci (321) a únoru (298), naopak nejméně červenci (166). Geograficky jsme měli nejvíce anomálií v Hlaním městě Praha (616), Jihomoravském (359) a Moravskoslezském kraji (302), nejméně v Karlovarském (31) a Libereckém (63) kraji.

Obrázek 28 Dashboard obsahující výsledky hledání anomálií pomocí Neural Network Regression (autor: Miroslav Lutovský)

1.8.4.4 Monitorovací pravidla

Jednou z cest, jak snížit spotřebu antibiotik, je včasné vyhledání ohniska pacientů a zamezení šíření této nákazy. Na základě rozdílu predikované spotřeby a skutečné spotřeby (residuum), lze zjistit, zda nedošlo k anomální spotřebě a nenachází se zde lokální epidemie.

Pro monitorování a zjištění anomálií jsme nastavili monitorovací pravidla následovně:

Tabulka 8 Monitorovací pravidla

Algoritmus Residuum Pravděpodobnost Senzitivita

Signalligence I > 30 > 0,97 -

Signalligence II > 10 > 0,97 -

Power BI

- - > 80 %

Neural Network Regression > 15 - -

Decission Forest Regression > 20 - -

1.8.5 Shrnutí modelování

V první části této kapitoly jsme si představili několik ML algoritmů, které mohou být použity pro detekci anomálií v časových řadách. Vytvořili jsme řešení a vyhodnotili výsledky jednotlivých algoritmů - za nejlepší lze považovat Neural Network Regression a Decission Forest Regression, naopak nejhůře dopadl algoritmus Lineární regrese (vyhodnocení není dostupné pro algoritmus XGBoost a SR-CNN). Následně jsme vytvořili vizualizace v nástroji Power BI.

V tabulce číslo 9 jsou sepsány jednotlivé výhody a nevýhody zvolených řešení. Dle výsledků této analýzy lze říct, že aplikování řešení s Azure Machine Learning Studiem se jeví jako nejschůdnější. Naopak pouhé aplikování nástroje Power BI může být nedostačující.

In document Hlavní práce70001_lutm00.pdf, 4.1 MB Stáhnout (Stránka 69-78)