• Nebyly nalezeny žádné výsledky

Nejpoužívanější software k řízení agilních projektů (Digital.ai 2020)

2.4 Otevřená data

Termín „otevřený“, který je používán v kolokacích otevřená data, otevřený obsah (svobodný obsah) či otevřené znalosti, je dle Open Knowledge Foundation (2021a) shrnut následovně14: „Otevřený znamená, že kdokoli může volně přistupovat, používat, upravovat a sdílet za jakýmkoli účelem (maximálně s výhradou požadavků, které zachovávají původ a otevřenost).“ Pojem otevřených dat vymezuje Open Knowledge Foundation (2021b) ve své příručce otevřených dat. Dle definice v této příručce jsou otevřená data taková data, které je možné volně využívat a dále šířit. Důležitou vlastností je neomezený přístup k datům pro jakoukoliv skupinu či jednotlivce. Tedy data by mělo být možné využívat libovolně k osobním, komerčním, vzdělávacím a dalším účelům bez diskriminace jednotlivců

14 Původní znění: „Open means anyone can freely access, use, modify, and share for any purpose (subject, at most, to requirements that preserve provenance and openness).“

a skupin. Další vlastností je dostupnost otevřených dat. Ideálně by měla být dostupná přes internet, a to ve vhodné podobě k dalšímu zpracování. Podmínky užití dat musí poskytovat možnost jejich opakovaného použití a kombinování s dalšími datasety.

Nezisková organizace Sunlight Foundation publikovala na svých webových stránkách deset principů, na základě kterých lze posuzovat míru otevírání vládních dat. Těmito principy jsou:

• Úplnost – Data jsou kompletní v maximální možné míře včetně metadat či výpočtů a vysvětlivek odvozených dat.

• Původnost – Data zveřejněná vládou pochází z primárního zdroje.

• Včasnost – Data by měla být zveřejňována co nejrychleji. Přednost by měla mít data, jejichž užitečnost je závislá na čase zveřejnění.

• Snadná fyzická a elektronická dostupnost – Přístup k datům by měl být možný bez zbytečných překážek. (návštěva konkrétní kanceláře, vyplňování elektronických formulářů, nutnost funkčního JavaScriptu v prohlížeči či jiné překážky)

• Strojová čitelnost – Data by měla být publikována ve formátu, který je dobře zpracovatelný strojem. Například naskenované dokumenty mohou vést při strojovém zpracování k mnoha chybám.

• Nediskriminace – Jakákoliv osoba či aplikace může bez identifikace k datům kdykoliv přistupovat a současně nemusí sdělovat důvod použití dat.

• Užití otevřených či běžně dostupných standardů – Data by neměla být publikována v proprietárních formátech spravovaných komerčními společnostmi. Přístup pomocí těchto formátů může znamenat dodatečné náklady pro uživatele.

• Licencování – Data by měla být dostupná s minimálním licenčním omezením.

• Trvalost – Data zveřejněná na internetu by měla být trvale dostupná v archivech, popřípadě verzována pokud se mění v čase.

• Minimální nákladovost – Data by měla být dostupná za minimální náklady.

(Sunlight Foundation 2017)

Z právního hlediska se pojmem otevřených dat zabývá zákon č. 106/1999 Sb., zákon o svobodném přístupu k informacím. Odstavec 11 § 3 vymezuje pojem takto: „Otevřenými daty se pro účely tohoto zákona rozumí informace zveřejňované způsobem umožňujícím dálkový přístup v otevřeném a strojově čitelném formátu, jejichž způsob ani účel následného využití není omezen a které jsou evidovány v národním katalogu otevřených dat.“ (Česko 2021a)

Aby mohla být otevřená data efektivně využívána specialisty, jako jsou například programátoři a datoví analytici, při tvorbě aplikací či analýz je potřeba, aby tato data byla dobře strojově čitelná. Ministerstvo vnitra na webových stránkách Otevřená data vymezuje, co nelze chápat jako otevřená data. Mezi příklady jsou uvedeny tabulky zveřejňované v podobě PDF souborů či HTML stránek a HTML formuláře určené pro koncové uživatele.

(Klímek 2018)

Jakou by měli mít ideálně otevřená data podobu popisuje 5hvězdičkové schéma, které navrhl Tim Berners-Lee. Níže jsou uvedeny jednotlivé stupně tohoto schématu:

• * - Data jsou zveřejněná na webu v libovolném formátu. Musí být však dostupná pod otevřenou licencí.

• ** - Je splněn předchozí stupeň a zároveň jsou data dostupná ve formátu, který je strojově čitelný.

• *** - Je splněn předchozí stupeň a zároveň jsou data ve formátu, který není proprietární.

• **** - Je splněn předchozí stupeň a zároveň jsou využity standardy RDF15 a SPARQL16.

• ***** - Je splněn předchozí stupeň a data jsou navíc propojená s dalšími datovými sadami. (Berners-Lee 2010)

2.4.1 Datové zdroje

Níže jsou uvedeny datové zdroje, které jsou následně detailně popsány v rámci kapitoly Analýza datových zdrojů. Jedná se o zdroje otevřených dat či zdroje, které otevřená data zpracovávají a poskytují v modifikované podobě.

Registr smluv

Registr smluv je informační systém provozovaný Ministerstvem vnitra ČR, ve kterém jsou zveřejňovány soukromoprávní smlouvy dle zákona o registru smluv. V systému jsou k dispozici dvouhvězdičková otevřená data. (Ministerstvo vnitra České republiky 2016)

Informační systém o veřejných zakázkách

Jedná se o informační systém Ministerstva pro místní rozvoj ČR. Systém zastřešuje oblast veřejných zakázek. K dispozici zde jsou otevřená data, která pochází z Věstníku veřejných zakázek. Data jsou k dispozici v otevřeném formátu, čímž je lze považovat za tříhvězdičková.

(Ministerstvo pro místní rozvoj ČR 2021a)

Rozza

Platforma integrující elektronické nástroje pro zadávání veřejných zakázek. Na webu jsou k dispozici ke stažení otevřená tříhvězdičková data. Obsahem těchto dat jsou i odkazy na stažení dalších dokumentů, které jsou však v proprietárních formátech například DOCX.

(Ministerstvo pro místní rozvoj ČR 2021c)

15 https://www.w3.org/RDF/

16 https://www.w3.org/2001/sw/wiki/SPARQL

Otevřená data MMR

Otevřená data poskytovaná Ministerstvem pro místní rozvoj ČR. Data jsou poskytována prostřednictvím katalogu umístěného na webu. Jedná se o tříhvězdičková otevřená data.

(Ministerstvo pro místní rozvoj ČR 2021b)

Otevřená data MFČR

Web o otevřených datech Ministerstva financí ČR. Pozornost je v této práci věnována zdrojům ARES, Faktury a smlouvy MF a MONITOR. Všechny tyto uvedené zdroje poskytují tříhvězdičková otevřená data. (Ministerstvo financí ČR 2021d)

Národní katalog otevřených dat

Národní katalog otevřených dat provozovaný Ministerstvem vnitra ČR je jednotným místem pro evidenci a publikaci otevřených dat veřejné správy ČR. Díky dostupným API tento zdroj odpovídá nejvyššímu stupni otevřenosti. (Ministerstvo vnitra České republiky 2021b;

2021a)

Hlídač státu

Hlídač státu je webová platforma, která zpracovává data veřejné správy a následně je uživatelům poskytuje sjednoceně a přehledně na jednom místě. Hlídač státu poskytuje mimo jiné data z Registru smluv. Díky tomu, že jsou texty smluv již zpracovány a poskytovány pomocí REST API, jsou data vyššího stupně otevřenosti. (Bláha 2021)

CZ-FIN

Agregátor státních otevřených datových zdrojů. Přístup ke zpracovaným datovým sadám je zpoplatněn. Právo stahovat a zpracovávat údaje z webové stránky mají pouze osoby, které si zakoupili licenci na používání těchto údajů. Nejedná se tedy o otevřený datový zdroj. (CZ-FIN.com 2019)

Cribis

Agregátor státních otevřených datových zdrojů. Informace ze služby Cribis mohou být upravovány, kopírovány nebo distribuovány pouze se souhlasem CRIF CZ. Nejedná se o otevřený datový zdroj. (CRIF - Czech Credit Bureau, a. s. 2021)

DATLAB

Firma Datlab s.r.o. provozuje několik různých webových aplikací, které zpracovávají otevřená data z oblasti veřejných zakázek. Užívání většiny těchto webových aplikací je zpoplatněno. (Datlab s.r.o. 2021)

3 Analýza datových zdrojů

Účelem této kapitoly je naplnění dílčího cíle DC3. Konkrétně je věnována analýze, respektive prozkoumání a popisu datových zdrojů, které mohou být následně využity k dalšímu zpracování. Analýza se soustředí pouze na české zdroje. Kromě primárních zdrojů jsou prozkoumány i zdroje sekundární, tedy takové zdroje, které již data z primárního zdroje zpracovaly a dále je poskytují v upravené a lépe či hůře přístupné podobě. Přínosem pro čtenáře této kapitoly tak může být získání širšího pohledu na datové zdroje a aplikace z oblasti veřejných zakázek v České republice.

Způsobem vyhledání zdrojů bylo prozkoumání kvalifikačních prací, Národního katalogu otevřených dat, webových stránek ministerstev ČR, Hlídače státu v sekci státní weby a dotazování internetového vyhledávače Google. Některé zdroje byly nalezeny již během tvorby kapitoly Rešerše zdrojů.

Níže jsou detailně popsány datové zdroje, z nichž lze čerpat data k účelům následného zpracování. Popis typicky zahrnuje informace, kde se čtenář dozvídá, o jaký zdroj se jedná, jak z tohoto zdroje data získat a jaká data tento zdroj poskytuje. Kapitola je členěna do dvou hlavních podkapitol, které rozdělují zdroje na ty, jež poskytuje stát a na ty, které poskytuje veřejnost, tedy soukromé společnosti a jednotlivci.

3.1 Zdroje poskytované státem

Níže v této kapitole jsou popsány autorem vybrané datové zdroje poskytované státem.

3.1.1 Registr smluv

Od 1. července 2016 musí všechny státní a veřejnoprávní instituce, územně samosprávné celky, státní podniky a další instituce definované zákonem č. 340/2015 Sb., zákon o registru smluv zveřejňovat smlouvy dle podmínek tohoto zákona v Registru smluv. Jedná se o informační systém provozovaný Ministerstvem vnitra České republiky. Jednou z funkcionalit tohoto systému je možnost publikace smluv. Publikující subjekt je povinen nahrát smlouvu ve strojově čitelné podobě. Mezi povolené formáty nahrávaných dokumentů patří PDF17, DOC18, DOCX19, RTF20, ODT21 a TXT22. (Ministerstvo vnitra České republiky 2016)

17 Portable Document Format

18 Word 97-2003

19 Office Open XML

20 Rich Text Format

21 OpenDocument Text

22 Plain Text

K zveřejněným datům lze přistupovat dvěma způsoby. Prvním z nich je podrobné vyhledávání prostřednictvím webového formuláře23. Uživatel tak může zadáváním řady kritérií dohledat potřebné smlouvy. Dalším způsobem je stažení semistrukturovaných dat v podobě XML24 souboru. Data v této podobě jsou vhodná k dalšímu strojovému hromadnému zpracování. Tyto XML datové sady, nazývané také jako dumpy, jsou dostupné prostřednictvím URL25 adres, které uživatel sám definuje dle požadovaného období. Adresa je konstruována tak, že k základnímu řetězci https://data.smlouvy.gov.cz/ je přidán řetězec dump_<YYYY>_<MM>.xml. Hodnoty ve špičatých závorkách reprezentují proměnné pro nastavení požadovaného období. Výsledná adresa pak může vypadat následovně: https://data.smlouvy.gov.cz/dump_2017_01.xml. Tato adresa odkazuje na data, která vznikla v lednu roku 2017. Kromě měsíčních dumpů je také možné stahovat denní dumpy. Toho lze docílit tak, že je na konec adresy přidána proměnná požadovaného dne takto: dump_<YYYY>_<MM>_<DD>.xml. (Ministerstvo vnitra České republiky 2016) Strukturu datových souborů určují XSD26 šablony27. V první části dumpu jsou vždy obsaženy meta informace měsíc, rok, čas generování dumpu a dokončený měsíc. Dokončený měsíc nabývá hodnot 0 a 1 na základě toho, zdali je již měsíční dump uzavřen nebo stále přijímá nová data. V další části dumpu jsou již samotné záznamy nesoucí informace o publikovaných smlouvách. Každý záznam reprezentuje jednu smlouvu. (Ministerstvo vnitra České republiky 2016) Pro lepší představu je níže ilustrována ukázka části dumpu.

23 https://smlouvy.gov.cz/vyhledavani

24 Extensible Markup Language

25 Uniform Resource Locator

26 XML Schema Definition

27 https://smlouvy.gov.cz/soubor/isrs-xsd.zip