• Nebyly nalezeny žádné výsledky

Schéma integrace Rozza (Ministerstvo pro místní rozvoj ČR 2021c)

Datová sada obsahuje seznam jednotlivých zakázek. U každé zakázky jsou její metadata, údaje o zadavateli a údaje o příslušných dokumentech. U dokumentů jsou k dispozici metadata, kde je mimo jiné uvedeno, o jaký typ dokumentu se jedná. Typem dokumentu může být například smlouva, zadávací dokumentace, oznámení o výběru dodavatele, výzva a další. Součástí metadat dokumentů jsou odkazy na stažení těchto dokumentů. Dokumenty mají obvykle podobu souborů ve formátech PDF, DOCX, XLSX. Z těchto dokumentů mohou být kandidáty k dalšímu zkoumání texty dokumentů typu zadávací dokumentace.

3.1.4 Otevřená data MMR

Ministerstvo pro místní rozvoj ČR má na svých webových stránkách umístěný katalog otevřených dat (Ministerstvo pro místní rozvoj ČR 2021b). K dispozici je zde celkem 61 datových sad, které jsou rozlišeny do několika skupin dle obsahu. V rámci analýzy jsou především prozkoumány datové sady označené tagy veřejné zakázky, faktury, objednávky a smlouvy. Datové sady jsou k dispozici ke stažení ve formátech CSV a XML. Některé z datových sad nebylo možné stáhnout, jelikož odkaz směřoval na webovou stránku, která vracela chybovou hlášku 404 – stránka neexistuje.

Datové sady s fakturami jsou publikovány více organizacemi konkrétně Státním fondem pro rozvoj bydlení, Státním fondem podpory investic, a především Ministerstvem pro místní rozvoj. Jedna datová sada reprezentuje seznam faktur za jeden rok. Blíže jsou pak prozkoumány datové sady faktur ministerstva, konkrétně sloupec „Předmět fakturace“.

Zbylé sloupce obsahují pouze platební údaje. Ku příkladu v datové sadě za rok 2019 je obsaženo slovo nebo kořen slova „Projekt“ ve sloupci „Předmět fakturace“ 264krát a slovo

„PRINCE2“ 17krát. Tato skutečnost indikuje přítomnost dat z oblasti projektového řízení, avšak vzhledem k tomu, že se tato práce soustředí na zkoumání dat v oblasti IT projektů, je obtížné z dostupných údajů určit, zdali se jedná o data z této oblasti.

Obsahově obdobné jako faktury jsou datové sady objednávek. Ty obsahují kromě platebních údajů také sloupec, kde je uveden předmět objednávky.

Datové sady obsahující data veřejných zakázek pochází ze zdroje Informační systém o veřejných zakázkách, který je popsaný výše. Stejně tak i datové sady se seznamy smluv, jež primárně pocházejí z výše popsaného Registr smluv.

3.1.5 Otevřená data MFČR

Otevřená data Ministerstva financí ČR je web obsahující návody, analýzy, aplikace, systémy, datové sady a dokumentace aplikačních rozhraní. Níže jsou popsány systémy a data, které byly blíže prozkoumány. (Ministerstvo financí ČR 2021d)

Administrativní registr ekonomických subjektů

Administrativní registr ekonomických subjektů, známý pod zkratkou ARES, je informační systém provozovaný ministerstvem financí ČR. Tento systém slouží k vyhledávání údajů o ekonomických subjektech v ČR. Zdrojem údajů jsou veřejné rejstříky definované zákonem č. 304/2013 Sb., zákon o veřejných rejstřících právnických a fyzických osob. Uživatelé

mohou data získat prostřednictvím webového formuláře nebo rozhraní XML. Získání dat podléhá podmínkám provozu ARES. Kvůli zabezpečení systému je přístup omezován.

V případě automatizovaného dotazování je potřeba zejména dát pozor na nepřesáhnutí limitu dotazování. Mezi 8–18 hod. lze odeslat maximálně 10000 dotazů a mezi 18–8 hod.

50000 dotazů. (Ministerstvo financí ČR 2021a)

Od ledna 2018 lze alternativně data získat z datových sad exportovaných ze systému ARES.

Díky tomu se lze vyhnout omezením při dotazování. Hlavní datová sada veřejného (obchodního) rejstříku obsahující výstup s informacemi o všech osobách zapsaných ve veřejných rejstřících má podobu archivu, který sestává z XML souborů. Každý jeden XML soubor představuje záznam za jedno IČO. Nevýhodou této sady je absence informací z dalších zdrojů, konkrétně Registru ekonomických subjektů. (Kokeš 2018)

Dotazováním XML rozhraní pomocí metody GET protokolu HTTP lze přistupovat do aplikací Veřejného rejstříku, Obchodního rejstříku, Registru ekonomických subjektů a dalších. V těchto zdrojích lze dohledávat dodatečná data o dodavatelích uváděných na smlouvách. Relevantním zdrojem je zejména Registr ekonomických subjektů poskytovaný Českým statistickým úřadem, kde lze vyhledat údaj CZ-NACE, což je klasifikace ekonomických činností. Díky tomu lze odlišit dodavatele ze sektoru ICT viz 2.3.2. Právě tímto způsobem odlišili ICT smlouvy od ostatních smluv ve své práci Bruckner a Vencovský (2020a).

Faktury a smlouvy MF

Faktury a smlouvy jsou jednou ze sekcí na webu Otevřených dat MFČR. Celý resort MFČR se skládá z šesti různých organizací, mezi něž mimo Ministerstva financí patří například Generální finanční ředitelství a další. Data umístěná na této stránce se však týkají pouze samotného Ministerstva financí. K dispozici jsou ke stažení tyto datové sady:

• Smlouvy Ministerstva financí ČR – seznam smluv

• Vazební tabulka smluv a faktur Ministerstva financí ČR

• Faktury Ministerstva financí ČR

• Objednávky Ministerstva financí ČR – detail

• Objednávky Ministerstva financí ČR – seznam objednávek

• Report provozních nákladů MF (Ministerstvo financí ČR 2021b)

Datové sady jsou poskytovány ve formátech CSV, JSON, XLSX a datová sada Faktury Ministerstva financí ČR je navíc dostupná prostřednictvím REST API. Smlouvy jsou k dispozici ve výše zmíněném Registru smluv. Pozornost zde byla při analýze věnována především fakturám. Jedná se o přehled uhrazených faktur Ministerstvem financí, kde nalezneme převážně údaje o platbě. Blíže byl prozkoumán sloupec „účel_platby“. Zde se však nenacházejí relevantní data k bližšímu prozkoumání.

MONITOR

Informační portál MONITOR je webová aplikace Ministerstva financí ČR, jejíž obsah se zaměřuje na rozpočtové a účetní informace veřejné správy. Primární datové zdroje této aplikace jsou Integrovaný informační systém státní pokladny a Centrální systém účetních informací. Aplikace MONITOR uživatelům nabízí:

• Analytickou část

• Datový katalog

• Porovnávání obcí

• Vyhledávání subjektů veřejné správy

Analytická část je online reportingový nástroj, kde lze prohlížet otevřená data formou tabulek a grafů. K dispozici jsou předpřipravené sestavy, které lze dále modifikovat.

Porovnávání umožňuje vybírat obce ČR a porovnávat jejich finanční data mezi sebou. Data konkrétních subjektů pak může uživatel prohlížet jejich vyhledáním. MONITOR poskytuje předpřipravené přehledy informací o každém z těchto subjektů. (Ministerstvo financí ČR 2021c)

Z pohledu strojového zpracování otevřených dat je však nejdůležitější datový katalog. Data lze získat buď prostřednictvím API ve formátu XML nebo stažením datových sad v podobě CSV či XML souborů. Datové sady jsou rozděleny do dvou základních skupin číselníky a transakční data. Číselníků je k dispozici celkem 41. Jedná se v podstatě o skupiny, respektive dimenze, dle kterých lze subjekty veřejné správy při analýze kategorizovat.

Dimenze se převážně týkají účetnictví, rozpočtu a dalšího detailního dělení subjektů veřejné správy. Druhou skupinou datových sad jsou transakční data. Jedná se převážně o datové sady obsahující záznamy o účetnictví a plnění rozpočtu subjektů veřejné správy.

(Ministerstvo financí ČR 2021c)

3.1.6 Národní katalog otevřených dat

Národní katalog otevřených dat umístěný na Portálu otevřených dat České republiky28 je jednotným místem, kde jsou evidována a publikována otevřená data veřejné správy. Tato otevřená data pak slouží uživatelům k dalšímu využití, a to jak k nekomerčním, tak i komerčním účelům. Cílem tohoto katalogu je umožnit uživatelům snazší orientaci a vyhledávání v otevřených datech publikovaných veřejnou správou ČR. (Ministerstvo vnitra České republiky 2021a)

Otevřená data jsou distribuována formou datových sad ke stažení. Díky tomu, že jsou spolu s datovými sadami ukládána i metadata, lze prohledávat a filtrovat datové sady dle poskytovatele, tématu, klíčových slov, datového formátu či časového pokrytí datové sady.

28 https://data.gov.cz/

K vyhledávání datových sad lze však využít i fulltextového vyhledávacího pole. Pokud není uvedeno jinak, je veškerý obsah Portálu otevřených dat České republiky dostupný pod licencí CC BY 4.029. (Ministerstvo vnitra České republiky 2021a; 2021b)

Národní katalog otevřených dat celkem čítá 145 281 datových sad, které pocházejí od 50 zdroji. (Ministerstvo vnitra České republiky 2021b)

3.2 Zdroje poskytované soukromým sektorem

Níže v této kapitole jsou popsány datové zdroje a služby poskytované soukromým sektorem, které zpracovávají jiné původní datové zdroje např. ty, které byly výše uvedené mezi zdroji poskytovanými státem.

3.2.1 Hlídač státu

Hlídač státu je nezisková organizace, jejíž cílem je transparentní státní správa. Tato organizace provozuje webovou službu Hlídač státu, jež propojuje smlouvy z Registru smluv, veřejné zakázky, dotace, sponzory politických stran a politiky. Mezi cíle Hlídače státu patří umožnit veřejnosti analyzovat a zkoumat data z veřejných databází, propojovat a poukazovat na vzájemné vztahy mezi smlouvami v Registru smluv, veřejnými zakázkami, firmami a také obohacovat tyto zdroje o informace z dalších veřejných zdrojů. (Bláha 2021) Data a informace o smlouvách z registru smluv jsou získávány pomocí měsíčních XML dumpů. Většina textů smluv, které Hlídač státu poskytuje jsou získána z PDF nebo MS Office dokumentů, avšak určitá část smluv (zhruba 30 %) jsou skeny, jež jsou následně převáděny do textové podoby pomocí OCR softwaru. Do databáze jsou ukládány pouze skeny, které mají úspěšnost 80 % převodu skenu na text. K obsahu databáze Hlídače státu lze přistupovat pomocí REST API, které poskytuje data o dotacích, firmách, insolvencích, osobách, smlouvách, veřejných zakázkách a dalších. Některá data, jako například detaily veřejných zakázek, jsou však poskytována pouze pro držitele komerčních licencí. (Bláha 2021)

Zpracovaná data z Registru smluv a dalších datových zdrojů jsou následně analyzována.

Kontrolují se například uváděné ceny, údaje o smlouvě, provádějí se statistické výpočty atd.

Součástí webové služby Hlídač státu jsou analytické a souhrnné reporty. Ty jsou rozděleny do třech kategorií smlouvy, úřady a osoby a firmy. Jednotlivé reporty se pak například týkají

29 https://creativecommons.org/licenses/by/4.0/deed.cs

30 Tímto není myšleno, že každá sada je k dispozici v tomto počtu formátů. Datové sady jsou k dispozici v 1 až n datových formátech.

základních statistik Registru smluv, chybných smluv, nejdražších smluv, nejčastějších oborů, v nichž jsou smlouvy uzavírané a mnoho dalších napříč výše zmíněnými kategoriemi.

Informace a výstupy, které Hlídač státu poskytuje, jsou dostupné zdarma pod licencí CC BY 3.0 CZ31. (Bláha 2021)

3.2.2 CZ-FIN

CZ-FIN je projekt, který vznikl v rámci Hackathonu veřejné správy. Jedná se o agregátor státních datových zdrojů obdobně jako výše zmíněný Hlídač státu. Služby jsou poskytovány dle licence, kterou uživatel zvolí. (CZ-FIN.com 2019) V tabulce (viz Tabulka 2) níže je zobrazen přehled těchto licencí a jimi poskytovaných vlastností, služeb a funkcionalit. Blíže budou prozkoumány služby, které lze využívat užitím licence Fin FREE, tedy zdarma.

Tabulka 2: Přehled licencí služby CZ-FIN (CZ-FIN.com 2019)

Fin FREE Fin

PERSONAL Fin PREMIUM Fin

ENTERPRISE

Exporty do

excelu Ne Ano Ano Ano

CSV datasety Ne Ne Ano Ano

Počet uživatelů 0 1 5 Neomezený

LIVE monitoring

médií 0 0 5 výrazů Neomezený

Integrace do

Slacku Ne Ne Ano Ano

Denní monitoring médií

0 1 výrazů 10 výrazů Neomezený

Měsíční monitoring médií

0 1 výraz 10 výrazů Neomezený

K vyhledávání společností jsou připraveny formuláře, kde lze vyhledávat dle IČO nebo názvu společnosti. U vyhledaných položek je možné otevřít detail, kde jsou obsaženy následující informace: základní identifikační údaje o společnosti, odkazy na další webové zdroje s informacemi o společnosti, činnosti společnosti s klasifikací NACE, údaje z Registru ekonomických subjektů a přehled smluv z Registru smluv. Společnosti lze také vyhledávat procházením seznamů, kde jsou kategorizovány podle činností. Například prohledáváním kategorie Informační a komunikační činnosti. (CZ-FIN.com 2019) Tímto však možnosti přístupu zdarma končí. K dispozici je tedy prohlížení obsahu formou vyhledávacích formulářů a otevírání webových stránek. K účelům automatizovaného zpracování se tak nejedná o ideální datový zdroj.

3.2.3 Cribis

Cribis je stejně jako výše uvedený CZ-FIN agregátorem státních a dalších datových zdrojů.

Základními datovými zdroji jsou: k vyhledávání informací o firmách a webovou aplikaci, kde lze prohlížet veškeré informace ze všech zdrojů s dalšími prémiovými možnostmi. Poskytované funkcionality a služby se liší v závislosti, zdali je uživatel neregistrovaný, registrovaný či plátce prémiové webové aplikace. Přehled těchto funkcionalit a služeb je zobrazen v tabulce (viz Tabulka 3) níže.

(CRIF - Czech Credit Bureau, a. s. 2021)

Tabulka 3: Cribis - přehled funkcionalit a služeb dle konfigurace (CRIF - Czech Credit Bureau, a. s.

2021)

Komplexní reporty

dostupných dat Ne Ne Ano

Grafické zobrazení

napojených subjektů Ne Ne Ano

On-line marketingové

seznamy Ne Ne Ano

Propojení na další

databáze Ne Ne Ano

Informace o

mediálních výstupech Ne Ne Ano

Registrovaní uživatelé mají zdarma přístup k vyhledávání firem a přehledu informací o těchto subjektech. Výsledky vyhledávání vracejí i kromě soukromých firem veřejné instituce jako například Ministerstvo financí. Na detailu vyhledaného subjektu lze vyčíst následující informace: základní identifikační údaje, předmět činnosti dle klasifikace NACE, velikost společnosti, ekonomické údaje, upozornění a hodnotící ukazatele. U prémiové webové aplikace lze k přístupu využít zkušební doby, avšak informace, které uživatel touto cestou získá jsou určeny výhradně pro interní potřeby. (CRIF - Czech Credit Bureau, a. s.

2021)

3.2.4 DATLAB

Firma Datlab s.r.o. se věnuje zpracování a analýze dat, a to především ze sektoru veřejných zakázek. Na webových stránkách DATLAB (Datlab s.r.o. 2021) jsou uvedeny jednotlivé produkty. Produkty, respektive datové zdroje, které byly vybrány, jakožto relevantní k bližšímu prozkoumání, jsou popsány níže.

DATLAB KONTROLA

Nástroj KONTROLA monitoruje rizika subjektů veřejné správy. Kromě placených služeb je k dispozici takzvaná Malá kontrola. Tato služba poskytuje přehled 12 vybraných automatizovaně počítaných rizik. Kontrola se zaměřuje na chybějící smlouvy v registru smluv, politicky napojené dodavatelské firmy, obcházení zákona a celkové počty a závažnosti rizik. (Datlab s.r.o. 2020)

Malá kontrola je řešena formou vyhledávacího formuláře, kam uživatel zadá požadovaný úřad a následně prohlíží jeho identifikovaná rizika. Obrázek 6 a Obrázek 7 níže ilustrují výstup služby Malá kontrola. Výstup obsahuje základní údaje, ukazatele a seznam rizikových oblastí s jejich četnostmi. Detailně rozepsaná rizika pak nabízí placená služba Střední kontrola.