• Nebyly nalezeny žádné výsledky

zdravotnictví Publikace otevřené datové sady ve

N/A
N/A
Protected

Academic year: 2022

Podíl "zdravotnictví Publikace otevřené datové sady ve"

Copied!
38
0
0

Načítání.... (zobrazit plný text nyní)

Fulltext

(1)MASARYKOVA UNIVERZITA FAKULTA INFORMATIKY. Publikace otevřené datové sady ve zdravotnictví BAKALÁRSKA PRÁCA. Maroš Uhliar. Brno, jar 2021.

(2) MASARYKOVA UNIVERZITA FAKULTA INFORMATIKY. Publikace otevřené datové sady ve zdravotnictví. BAKALÁRSKA PRÁCA. Maroš Uhliar. Brno, jar 2021.

(3) Na tomto mieste sa v tlačenej práci nachádza práce a vyhlásenie autora školského diela.. oficiálne. podpísané. zadanie.

(4) Vyhlásenie V y h l a s u j e m , že táto bakalárska práca je mojím p ô v o d n ý m autorským d i e l o m , ktoré s o m v y p r a c o v a l samostatne. V š e t k y z d r o j e , p r a m e n e a literatúru, ktoré s o m p r i vypracovaní používal alebo z n i c h čerpal, v práci riadne citujem s uvedením úplného o d k a z u n a príslušný zdroj.. Maroš Uhliar. Vedúci práce: R N D r . M a r t i n K o m e n d a , P h . D . i.

(5) Poďakovanie Ď a k u j e m R N D r . M a r t i n o v i K o m e n d o v i , P h . D . z a čas, c e n n é r a d y a p r i p o m i e n k y , ktoré p r i s p e l i k tvorbe tejto práce. n.

(6) Zhrnutie Bakalárska práca predstavuje úvod to sveta otvorených dát, definuje i c h p r o b l e m a t i k u a isté špecifiká v o b l a s t i zdravotníctva. V úvodnej časti práce sa popisujú otvorené dáta, i c h vlastnosti a stav v Českej Re­ p u b l i k e . Ďalšia časť približuje procesy p r i tvorbe dátovej s a d y určenej k p u b l i k o v a n i u . Posledná časť demonštruje p r i e b e h prípravy dátovej sady.. iii.

(7) Kľúčové slová otvorené dáta, C K A N , publikácia dát, metadata, zdravotníctvo. iv.

(8) Obsah Úvod. 1. 1. Otvorené dáta 1.1 Princípy otvorených dát 1.2 História otvorených dát 1.2.1 História otvorených dát v U S A 1.2.2 História otvorených dát v o Veľkej Británii . . . . 1.3 Stupne otvorenosti dát. 3 3 5 6 6 7. 2. Otvorené dáta a zdravotníctvo ( v ý h o d y a n e v ý h o d y ) 2.1 Poskytovanie a otvorenosť dát (podlá Zákona č. 106/1999 Sb.) 2.2 O c h r a n a osobných údajov 2.3 Zdravotnícke dáta v Českej r e p u b l i k e. 9. 3. 9 10 11. N á r o d n ý katalóg otvorených dát 3.1 C K A N 3.2 Katalóg otvorených dát Ministerstva zdravotníctva Čes­ kej r e p u b l i k y 3.2.1 Príklad dátovej s a d y. 12 12. 4. Metodika publikácie otvorených dát 4.1 Plánovanie publikácie otvorených dát 4.2 Príprava publikácie 4.2.1 Návrh odstránenia citlivých údajov 4.2.2 Návrh štruktúry dát 4.2.3 L i c e n c i a otvorených dát 4.2.4 Metadáta 4.3 Publikácia dát 4.3.1 Príprava a validácia dát 4.3.2 Zverejnenie dátovej s a d y 4.4 Udržiavanie dát 4.4.1 Z á n i k dát. 17 17 18 18 18 18 19 19 19 20 20 21. 5. Praktická časť: Publikácia dátovej sady 5.1 Dátová sada a jej v ý z n a m. 22 22. 13 14. v.

(9) 6. 5.2. P r e v o d dát d o formátu C S V. 23. 5.3. V y t v o r e n i e dátovej schémy pre dátovú s a d u. 24. Záver. 26. Bibliografia. 27. vi.

(10) Zoznam obrázkov 1.1 1.2. Ekosystém otvorených dát 5 Päťhviezdičková schéma otvorenosti dát. 3.1 3.2 3.3. Katalóg otvorených dát Ministerstva zdravotníctva ČR Náhľad dátovej sady s vykázanými očkovaniami 15 Informácie o dátovom súbore s vykázanými očkovaniami. 5.1. Diagram tried pre číselníky. 7 14 16. 22. vii.

(11) Úvod Žijeme v d o b e , ktorá prináša m n o ž s t v o n o v ý c h inovácií a možností. Posledné desaťročia nás zasiahol vo veľkom technologický vývoj, ktorý o v p l y v n i l naše každodenné životy a z m e n i l prístup spoločnosti k jeho v n í m a n i u . O b č a n i a m a j ú čoraz väčší z á u j e m o informácie, k t o r ý m i disponujú n i e l e n štátne inštitúcie. Takto p o d a n é informácie majú d o veľkej m i e r y socioekonomický potenciál, ktorý sa dá najlepšie využiť pokiaľ sú informácie zverejnené v čo najväčšej forme s možnosťou i c h ďalšieho využitia. Otvorené dáta sú t ý m najlepším s p ô s o b o m , a k ý m m ô ž e verejný sektor p r e občanov poskytovať informácie. O d štátu sa očakáva r e a k c i a n a technologické z m e n y aj s p o s t u p n ý m v ý v o j o m spoločnosti. Preto je n a mieste, aby si z a c h o v a l s v o j u d o b r ú povesť, transparentnost a umožňoval voľný prístup k informáciám. V ľuďoch aj takéto významnejšie k r o k y v z b u d z u j ú dôveryhodnosť k verejným inštitúciám. V Českej republike je zakotvená právna úprava v zákone č.106/1999 Sb. o s l o b o d n o m prístupe k i n f o r m á c i á m , ktorý je aj v b u d ú c n o s t i prísľubom otvorenej verejnej s p r á v y a p r í s t u p o m k jej v y t v o r e n ý m dátam. Otváranie dát dovoľuje diaľkový prístup a zdieľanie naprieč spoločnosťou. S e k u n d á r n e zapríčiňuje aj m o d e r n i z á c i u a zlepšenie organizácie v o verejnej správe, ktorá sa d o k á ž e lepšie prispôsobiť potrebám občanov. V dnešnej dobe sa k takejto iniciatíve nehlásia l e n najvyspelejšie krajiny, p o k r o k n e o b c h á d z a a n i rozvojové krajiny. Táto práca b y m a l a ponúknuť úvod d o sveta p r o b l e m a t i k y otvore­ ných dát, i c h históriu, stav v Českej r e p u b l i k e a technické požiadavky pre publikáciu dátovej s a d y v o f o r m e otvorených dát. V prvej časti práce sa oboznámime s p o j m o m "otvorené d á t a " a i c h z á k l a d n ý m i p r i n c í p m i p r e lepšie p o c h o p e n i e k o n c e p t u otvorených dát. Predstavíme si aj stupne otvorenosti dát, podľa ktorých sa otvore­ nosť dát dá určiť. Postupne naviažeme historickým vývojom v d v o c h krajinách, ktoré sa r a d i a m e d z i najstaršie a najväčšie v p o s k y t o v a n í dát. V druhej kapitole si z h r n i e m e prínosy otvorených dát samotných ako aj v oblasti zdravotníctva. S p o m e n i e m e si n a p o j m y a k o p o s k y t o ­ v a n i e a osobné údaje. Neskôr s i z h r n i e m e situáciu s dátami v Českej. 1.

(12) r e p u b l i k e . V nasledujúcej tretej kapitole s i u v e d i e m e hlavné národné katalógy dát tuzemských poskytovateľov. Štvrtá k a p i t o l a p o p i s u j e technické p r o c e s y p r e p u b l i k o v a n i e ot­ vorenej dátovej sady, o d plánovania až p o zánik dát. N a s l e d u j ú c a piata k a p i t o l a je praktická a zobrazuje p o s t u p a prípravu s a d y určenej k publikácii. Cieľom tejto p r a k t i c k e j časti je n á z o r n á u k á ž k a p o t r e b ­ ných krokov. V závere sa nachádza z h r n u t i e teoretických výstupov a praktickej časti práce.. 2.

(13) 1 Otvorené dáta Názov otvorené dáta je relatívne nový p o j e m , ktorý definuje informá­ cie v o forme voľne prístupných dát dostupných n a internete. Dáta sú v štruktúrovanej a strojovo čitateľnej p o d o b e . Ich využitie n i e je l i m i ­ tované žiadnymi právnymi a n i technickými prekážkami. Štandardne sú poskytované z a d a r m o , alebo z a symbolický p o p l a t o k . Neexistuje presná definícia p o j m u otvorené dáta, v rôznych kniž­ ných publikáciách sa však autori zhodujú n a spoločných myšlienkach. K o n c e p t otvorených dát pramení z názoru, že určité dáta b y m a l i byť prístupné v š e t k ý m b e z r o z d i e l u . Koncoví užívatelia m ô ž u tieto dáta využívať p r e vlastné účely, a zdieľať z a p o d m i e n k y u v e d e n i a a u t o r a a rovnakých p o d m i e n o k p r e všetkých ďalších užívateľov [1].. 1.1. Princípy otvorených dát. O p e n K n o w l e d g e F o u n d a t i o n (2012) c h a r a k t e r i z o v a l o otvorené dáta ako dáta, ktoré m ô ž u užívatelia svojvoľne využívať n a ľubovoľné účely a ďalej zdieľať z a p r e d p o k l a d u u v e d e n i a a u t o r a . Z tejto definícií n i e je úplne jasné, ako m ô ž u byť otvorené dáta sprístupnené, najčastejšie sa o n i c h hovorí a k o o dátach publikovaných n a internete. M ô ž e m e sa stretnúť aj s p o j m o m otvorené dáta verejnej správy z a p o d m i e n k y , že otvorené dáta sú n a internete sprístupnené v súlade s p r i n c í p m i otvorených dát. Podľa K o n c e p t u katalogizácie otvorených dát verejnej správy Č R (Chlápek a k o l . , 2012) m u s i a otvorené dáta verejnej správy splňovať: • Úplnosť - zverejnenie dát v čo najväčšom m o ž n o m r o z s a h u . P o ­ skytovatel' dát alebo právny p r e d p i s definuje r o z s a h . V dátach sa nachádzajú čerstvé záznamy. • Ľahkú dostupnosť - dáta sú dostupné a p l n e dohľadateľné n a i n ­ ternete p o m o c o u bežných prostriedkov. • Strojovú čitateľnosť - dáta sú uložené v dostatočne štruktúrova­ n o m formáte, aby sa p o m o c o u p r o g r a m o v e j aplikácie dokázali získať potrebné údaje. 3.

(14) i . O T V O R E N É DÁTA. • Používanie štandardov s v o l n e d o s t u p n o u špecifikáciou - dáta m u s i a byť v o formáte, ktorý je v o l n e d o s t u p n ý p r e ľubovoľné použitie, alebo je m o ž n é dáta d o takéhoto f o r m á t u b e z p l a t n e previesť.. • Sprístupnenie z a jasne definovaných p o d m i e n o k užitia dát s m i ­ n i m o m o b m e d z e n í - p o d m i e n k y n a užívanie m u s i a byť zverej­ nené a zreteľne a jasne definované.. • Dostupnosť p r e užívateľov p r i v y n a l o ž e n í minimálnych nákla­ d o v n a i c h získanie - žiadatelia m ô ž u z a poskytnuté dáta uhradiť m a x i m á l n u s u m u v o výške nákladov spojených s i c h p o s k y t n u ­ tím. K v y m e d z e n i u otvorených dát je dôležité spomenúť, že p u b l i k o ­ v a n í m otvorených dát i c h ďalej m ô ž u využívať p r á v n e subjekty, sú­ k r o m n é o s o b y a orgány verejnej správy. Verejná správa tiež drží aj veľké množstvo dát, ktoré n i e sú určené p r e širokú verejnosť. Takéto dôležité dáta n e m ô ž u byť publikované a n i v p r í p a d e , ak b y spĺňali vyššie u v e d e n é p o d m i e n k y . Podľa z á k o n a č. 111/2009 Sb., o z á k l a d ­ ných registroch, sa k u všetkým údajom z o základných registrov musí pristupovať a nakladať individuálne. Podľa d o k u m e n t u No Turning Back On Open Data ( Z i g u r a t , 2020) sa dajú dáta rozdeliť n a dáta s ú k r o m n é h o s e k t o r u , verejnej správy a obyvateľov. V rámci prostredia otvorených dát, dáta cirkulujú m e d z i s a m o t n ý m i s k u p i n a m i . K a ž d ý p r v o k p o s k y t u j e dáta n i e l e n sebe, ale aj p r e ostatných. Verejná správa a s ú k r o m n ý sektor využívajú dáta predovšetkým o d občanov k prispôsobeniu p o s k y t o v a n i u služieb. V o všeobecnosti sa p r i publikácií dát treba najprv rozhodnúť, či sú dáta určené aj pre verejnosť, a podľa toho sa začať zaoberať ako b y sa p o d m i e n k a m vyššie dalo vyhovieť. Pokiaľ sú dáta nejakým spôsobom chránené, a ako c e l o k sa n e m ô ž u p o s k y t n ú ť verejnosti, treba hľadať cestu, ako b y b o l o m o ž n é zverejniť verejnosti a s p o ň o d v o d e n é dáta (napr. a n o n y m i z á c i o u ) . P r i dátach, ktoré sú zverejnené n a z á k l a d e p r á v n e h o p r e d p i s u je v ž d y v h o d n é brať d o úvahy aj i c h zverejnenie ako otvorené dáta. 4.

(15) i . O T V O R E N É DÁTA. Dála súkromného sektor.]. Dáta súkromného sektoru Dáta súkromného sektoru. Dáta obyvateľov. Poskytuje dáta pre. Používa dáta.... Zdroj: Deloitte LLP. O b r . 1.1: Ekosystém otvorených dát. 1.2. História otvorených dát. Otvorené dáta b o l i v dobe v z n i k u výsadou vyspelých demokratických krajín, a k ý m i sú U S A a Veľká Británia. P o s t u p n e sa k n i m pridávali ďalšie krajiny, ktoré m a l i z á u j e m v p o d p o r e o t v o r e n o s t i aj r o z v o j a i n t e r n e t u . V t o m t o r a n n o m o b d o b í sa j e d n á p r e d o v š e t k ý m o dáta štátnej správy, o ktoré stúpal z á u j e m spoločnosti. V dnešnej d o b e už dáta zasahujú skoro d o každého odvetvia. Dokážu ušetriť h r o m a d u financií, sú prínosom pre spoločnosť atď. 5.

(16) i . O T V O R E N É DÁTA. 1.2.1 História otvorených dát v U S A O otvorených dátach sa začína p o p r v ý k r á t neoficiálne hovoriť v de­ cembri r o k u 2007 v Sebastopoli ( C a l i f o r n i a , U S A ) . Zišla sa t u s k u p i n a tridsiatich ľudí so spoločnou iniciatívou slobodného šírenia softvéru. M e d z i v ý z n a m n é o s o b n o s t i stretnutia p a t r i l i p r o f e s o r i T i m O ' R e i l l y a L a w r e n c e Lessig. Spoločne v y t v o r i l i princípy, ktoré n á m dnes umož­ ň u j ú definovať otvorené dáta. Z á k l a d n o u m y š l i e n k o u je, ž e verejné dáta sú s p o l o č n ý m m a j e t k o m . P r o s t r i e d k y n a d o s i a h n u t i e tejto m y š ­ l i e n k y sa týkali n a j m ä použiteľnosti a zdieľania, tj. presnejšie to sta­ n o v i l i n a t r o c h k o n c e p t o c h : transparentnost, účasť a spolupráca [2]. N a p r . p r o g r a m á t o r , ktorý m a l o c h o t u spolupracovať, b o l v y z v a n ý n a zdieľanie zdrojového k ó d u p o m o c o u verejných p l a t f o r i e m . Výstup T i m a O R e i l l y h o z konferencie b o l o a p l i k o v a n i e princípov otvorených z d r o j o v a i c h metód n a verejné záležitosti. Barack O b a m a v r o k u 2009 p o n á s t u p e d o B i e l e h o d o m u p o d p í s a l t r i p r e z i d e n t s k é m e m o r a n d a . D v e z n i c h sa týkajú otvorenej vlády, ktorej j e d n ý m z p i ­ lierov sú otvorené dáta. Tieto m e m o r a n d a nastavili kultúru otvorených z d r o j o v n a verejnú činnosť, s nárokovaním t r o c h základných k o n c e p ­ tov. Tento n á p a d a k o n c e p t y sú založené n a sprístupnení informácií s dôrazom n a i c h technickú a p r á v n u otvorenosť širokej verejnosti. 1.2.2 História otvorených dát vo Veľkej Británii V o Veľkej Británii sa v r o k u 2009 začína hovoriť o potrebe zverejne­ n i a dát o cestovných p o r i a d k o c h . M i n i s t e r s t v o d o p r a v y tak učinilo n a p o p u d niekoľkých britských autorít, k u k t o r ý m sa p r i d a l i vte­ dajší p r e m i é r G o r d o n B r o w n . C e s t o v n é p o r i a d k y b o l i d o tej d o b y k o m e r č n é dáta s d r a h o u l i c e n c i o u . M i n i s t e r s t v o čoskoro veľkú časť dopytovaných informácií z a d a r m o zverejnilo p r e kohokoľvek. Tento k r o k p r i v i e d o l v l n u nových aplikácií využívajúcich cestovné poriadky, a v z b u d i l veľký záujem spoločnosti o p o d o b n e dostupné dáta z iných oblastí.. 6.

(17) i . O T V O R E N É DÁTA. 1.3. Stupne otvorenosti dát. P o m o c o u s t u p n i c e o t v o r e n o s t i dát, k t o r ú n a v r h o l T i m B e r n e r s - L e e v r o k u 2010, je m o ž n é definovať k v a l i t u o t v o r e n o s t i dát. S t u p n i c a pozostáva z 5 stupňov a každému stupňu odpovedá určitá m i e r a otvo­ renosti. Obrázok (1.1) zachytáva s t u p n i c u vytvorenú T i m o m BernersL e e h o m [3].. Obr. 1.2: Päťhviezdičková s c h é m a otvorenosti dát. • * - Dáta sú dostupné n a internete, majú otvorenú licenciu. N a for­ m á t dát n i e je kladená žiadna p o d m i e n k a . P r í k l a d o m je v y t v o ­ rený súbor formátu .pdf. • ** - Dáta sú prístupné n a internete, m u s i a mať strojovo čitateľnú f o r m u . S ú b o r s dátami sa m u s í skladať z o z n a k o v a mať určitú štruktúru. Vďaka tejto p o d m i e n k e sa dáta dokážu a u t o m a t i c k y spracovať. N a p r . tabuľka v o formáte .xls. • *** - Dáta sú prístupné n a internete, m u s i a mať strojovo čitateľnú f o r m u . S ú b o r s d á t a m i m á otvorený formát. P r e s p r a c o v a n i e je p o t r e b n ý software, p l n o h o d n o t n e stačí aj voľne prístupný. Príkladom sú súbory formátu .csv, .json alebo .xlsx. 7.

(18) i . O T V O R E N É DÁTA. • **** - D á t a sú p r í s t u p n é n a internete, m u s i a mať strojovo čita­ teľnú f o r m u . Súbor s dátami m á otvorenú f o r m u a vlastné U R I ( U n i f o r m Re-source Identifier). Vďaka tejto vlastnosti m ô ž u byť dáta presne identifikované a je možné sa n a ne odkazovať. N a p r . súbor formátu .rdf. • ***** - D á t a sú p r í s t u p n é n a internete, m u s i a mať strojovo čita­ teľnú f o r m u . Súbor s dátami m á otvorenú f o r m u a vlastné U R I . Dáta m u s i a byť m e d z i s e b o u n a v z á j o m p r e p o j e n é , p o m o c o u čoho sa dajú určiť i c h spoločné p r v k y (kontext d á t ) . Príkladom m ô ž e byť z n o v u súbor s formátom .rdf.. 8.

(19) 2 Otvorené dáta a zdravotníctvo (výhody a ne­ výhody) Spoločnosti p o c e l o m svete v dnešnej d o b e dbajú n a p o t r e b n ú d i g i ­ talizáciu v o s v o j o m odvetví, zdravotníctvo n i e je ž i a d n o u v ý n i m k o u . Peniaze putujú d o nových technológií, ktoré používajú pokročilé algo­ r i t m y p r e spracovanie a analýzu dát p r e p r e d p o v e d a n i e zdravotným potrebám ľudí. Otvorené dáta m ô ž u v oblasti zdravotníctva pochádzať z rôznych zdrojov, o d lekára až p o t r h s l i e k m i . Dôležité je n á s l e d n é v y h o d n o ­ tenie, ktoré m ô ž e p o s k y t n ú ť presnejší o b r a z v p r o b l e m a t i k e . V ď a k a tejto možnosti d o k á ž u zdravotníci poskytnúť kvalitnejšiu zdravotnú starostlivosť. P o d o b n e s i m ô ž e lekár pospájať príčiny zdravotného p r o b l é m u , ktoré b y n e m u s e l zbadať p r i klasickej diagnostike. Ď a l š í m cieľom dát je p r e d p o v e d a n i e a nájdenie riešenia p r e z d r a ­ votné problémy, ešte p r e d tým, ako sa stihnú n a p l n o prejaviť. Takisto sa dá m n o h ý m ťažkostiam predísť, čo j e d n o z n a č n e z v y š u j e k v a l i t u života. V n e p o s l e d n o m r a d e d o k á ž e analýza dát odhaliť ľudí, ktorí o sebe poskytujú nepravdivé informácie, alebo sa pokúšajú o poistné podvody.. 2.1. Poskytovanie a otvorenosť dát (podľa Zákona č. 106/1999 Sb.). Subjekty, ktoré m a j ú podľa § 2 odst. 1 z á k o n a č.106/1999 Sb. p o v i n ­ nosť poskytovať informácie p r e verejnosť vzťahujúce sa k činnosti i c h pôsobenia, sú štátne orgány, ú z e m n é samosprávne c e l k y a i c h or­ gány a verejné inštitúcie. Subjekty poskytujú informácie zverejnením alebo n a z á k l a d e žiadosti. O t v o r e n é dáta sa zverejňujú diaľkovým prístupom v o t v o r e n o m a strojovo čitateľnom formáte. P r i zverejnení sú informácie p o s k y t n u t é v o všetkých f o r m á t o c h a j a z y k o c h , v ktorých b o l i vytvorené. S p o l u s informáciami sa o d o p o ručujú zverejniť aj prislúchajúce metadáta. K takýmto informáciám m á prístup n e o b m e d z e n ý o k r u h ľudí. P r i poskytovaní informácií n a zá­ k l a d e žiadosti, subjekt p o s k y t n e žiadateľovi informácie v r á t a n e m e tadát podľa r o z s a h u žiadosti. Žiadateľ m ô ž e s informáciami narábať 9.

(20) 2 . O T V O R E N É DÁTA A Z D R A V O T N Í C T V O ( V Ý H O D Y A N E V Ý H O D Y ). l e n v súlade v r o z s a h u žiadosti. Subjekt nie je povinný vyvinúť n e p r i ­ m e r a n ú záťaž spojenú s úpravou formátu a j a z y k u kvôli špecifickým požiadavkám žiadateľa. Informácie sa podľa o b e c n é h o z á k o n n é h o p o ž i a d a v k u verejnej správy Českej r e p u b l i k y p o s k y t u j ú čo najviac otvorené. Z definícií otvorených dát podľa § 3 a § 4 zákona 106/1999 Sb. prislúcha stupeň otvorenosti s t r o m i hviezdičkami. P r i zverejnení sa odoporúča stupeň s p i a t i m i hviezdičkami.. 2.2. Ochrana osobných údajov. P o d p o j m o m o s o b n ý údaj sa r o z u m i e akákoľvek informácia, ktorá sa týka fyzickej osoby. Každá osoba je nositeľom presných osobných úda­ jov, ktoré j u robia unikátnymi. A k je nejaký údaj dostatočne v y p o v e d a ­ júci, hovorí sa o priamej identifikácii osoby. P r i nepriamej identifikácii sa myslí proces, p r i k t o r o m sa p o m o c o u viacerých údajov dokáže i d e n ­ tifikovať osoba, nakoľko samotné údaje sú samé o sebe nedostačujúce. Osobné údaje majú potenciál k identifikácii, preto spadajú p o d zákon č. 110/2019 Sb. ( Z á k o n o zpracování o s o b n í c h ú d a j ů ) . Pokiaľ sa i n ­ formácie obsiahnuté v otvorených dátach dotýkajú vecí, javov alebo ostatných entít rozličných o d človeka ako osoby, nespadajú p o d zákon o spracovaní osobných údajov. Podľa čl. 9 E Ú o G D P R sa dovoľujú spracovávať osobné údaje z dô­ v o d o v verejného z á u j m u v oblasti verejného z d r a v i a , p r e účely p r e ­ ventívneho alebo pracovného lekárstva, alebo p r e štatistické účely. P r i otvorených dátach treba rozlíšiť d v a d r u h y správcov osobných údajov [4], n a poskytovateľov a žiadateľov otvorených dát [5]. Poskytovatelia zvyčajne spracovávajú informácie s o s o b n ý m i údajmi z o zákonnej p o v i n n o s t i , ktorá m ô ž e vyplývať z právneho p r e d p i s u . Žiadatelia n á ­ sledne príslušné dáta s o s o b n ý m i údajmi m ô ž u využiť p r e vlastnú spotrebu a informovanosť. 1. 1. P r e s n é z n e n i e n a r i a d e n i a d o s t u p n é n a h t t p s : / / w w w . p r i v a c y - r e g u l a t i o n . e u / sk/9.htm.. 10.

(21) 2 . O T V O R E N É DÁTA A Z D R A V O T N Í C T V O ( V Ý H O D Y A N E V Ý H O D Y ). 2.3. Zdravotnícke dáta v Českej republike. V Českej r e p u b l i k e z b i e r a dáta z oblasti zdravotníctva Ústav zdravot­ níckych informácií a štatistiky Českej r e p u b l i k y ( Ú Z I S ) . Ústav b o l založený M i n i s t e r s t v o m zdravotníctva Č R v r o k u 1960 [6] a je správ­ c o m Národného zdravotníckeho informačného systému ( N Z I S ) podľa z á k o n a č. 372/2011 S b . . Ú Z I S je súčasťou štátnej štatistickej s l u ž b y s p o l u p r a c u j e s Č e s k ý m štatistickým ú r a d o m a zabezpečuje prepoje­ nie m e d z i N Z I S a samotnými poskytovateľmi zdravotníckych služieb. P o s k y t o v a t e l i a zdravotnej starostlivosti s ú p o v i n n í zasielať správy o údajoch d o ÚZIS periodicky. K hlavným úlohám ÚZISu patrí n i e l e n zber, ale aj s p r a c o v a n i e informácií o z d r a v o t n o m stave a zdravotnej starostlivosti, správa národných zdravotných registrov a poskytovanie informácií. N a nadnárodnej úrovni ÚZIS predkladá oficiálne informá­ cie z a Č e s k ú r e p u b l i k u organizáciám a k o n a p r . W H O , O S N , O E C D 2. [7]P r i spracovaní o s o b n ý c h údajov v rôznych častiach N Z I S m u s í byť k a ž d ý j e d e n z á z n a m spracovaný v súlade s n a r i a d e n í m E u r ó p ­ skeho p a r l a m e n t u a R a d y ( E U ) 2016/679 z o dňa 27.4.2016 o ochrane fyzických osôb s ohľadom n a s p r a c o v a n i e o s o b n ý c h údajov a o voľ­ n o m p o h y b e týchto údajov, k t o r ý m sa zrušuje s m e r n i c a 95/46/ES ( v š e o b e c n é n a r i a d e n i e o ochrane ú d a j o v ) , a z á k o n č. 110/2019 S b . o spracovaní osobných údajov, v znení neskorších p r e d p i s o v . V súčasnej dobe počas celosvetovej p a n d e m i e sa v Českej r e p u b l i k e s p o m e d z i zdravotníckych dát najviac navštevuje portál o štatistikách koronavírusu . Dostupné surové dáta sú pre používateľov j e d n o d u c h o graficky znázornené. Takéto znázornenie zahŕňa množstvo procesov o d samotného z b e r u údajov o d zdravotníckych poskytovateľov až p o samotnú vizualizáciu dát a štatistiku návštevnosti [8]. 3. 4. 5. 2. P r e s n é z n e n i e z á k o n a d o s t u p n é n a h t t p s : / / w w w . z a L k o n 3 r p r o l i d i . c z / c s / 2011-372. 3. C e l é n a r i a d e n i e d o s t u p n é n a h t t p s : / / w w w . p r i v a c y - r e g u l a t i o n . e u / s k / 4. 5.. P r e s n é z n e n i e z á k o n a d o s t u p n é n a h t t p s : //www. e p i . s k / z z c r / 2 0 1 9 - 1 1 0 https://koronavirus.mzcr.cz/. 11.

(22) 3 Národný katalóg otvorených dát N á r o d n ý katalóg otvorených dát ( N K O D ) je d o s t u p n ý n a Portále verejnej správy Č R . Prevádzkovateľ portálu M i n i s t e r s t v o vnútra Č R si p r i v z n i k u d a l o z a cieľ n a j e d n o m mieste evidovať a publikovať zverejnené dáta z o s e k t o r u verejnej s p r á v y ( M V Č R , 2020). Z tohto dôvodu sa postupne zlepšila dostupnosť samotných dát a i c h častejšie využívanie. Katalóg p o n ú k a j e d n o d u c h š i u orientáciu a aj vyhľadávanie otvo­ rených dát podľa rôznych filtrov. S a m o t n é využitie vyhľadaných dát poslúži n i e l e n p r e n e k o m e r č n é , ale aj k o m e r č n é účely. N a portáli sú prehľadným s p ô s o b o m uvedené informácie p r e záujemcov, p o s k y t o vateľov aj užívateľov o otvorené dáta. N K O D umožňuje d v a spôsoby, podľa ktorých sa dáta m ô ž u p u b l i ­ kovať. Prvá možnosť je registrácia lokálneho katalógu otvorených dát, z ktorého sa v budúcnosti p e r i o d i c k y a a u t o m a t i c k y sťahujú metadáta s p o l u s dátami. Táto m o ž n o s ť je v h o d n á p r e úrady, ktoré m a j ú p o ­ trebu častejšej publikácie dát. D r u h o u možnosťou je manuálne p r i a m e v k l a d a n i e súborov (dáta s p o l u s m e t a d á t a m i ) . V katalógu sa nachádza 45 poskytovateľov dát ( k u dňu 22.5.2021), z toho 28 poskytovateľov prevádzkuje n a portáli riadne zaregistrovaný lokálny katalóg. K a t a l ó g obsahuje v i a c n e ž 136 tisíc dátových sád a n a j v ý z n a m n e j š í m poskytovateľom je Č e s k ý ú r a d z e m e m e r a č s k ý a katastrálny. Tieto dátové s a d y sú rozdelené d o 180 tém, ktoré m ô ž e užívateľ využiť pre lepšie dohľadanie požadovaných dát. Pokiaľ nie je uvedené inak, je autorský a databázovo chránený o b s a h publikovaný p o d l i c e n c i o u Creative Commons Attribution 4.0. 1. 3.1. CKAN. C K A N ( C o m p r e h e n s i v e K n o w l e d g e A r c h i v e N e t w o r k ) je nástroj n a t v o r b u w e b o v ý c h stránok o d á t a c h . U m o ž ň u j e i c h s p r a v o v a n i e a p u b l i k o v a n i e . Bežne h o prevádzkujú organizácie a inštitúcie, ktoré 2. 1. h t t p s : / / d a t a . g o v . c z / 2. h t t p s : / / c k a n . o r g /. 12.

(23) 3- N Á R O D N Ý K A T A L Ó G O T V O R E N Ý C H DÁT. zbierajú m n o ž s t v o údajov v o b l a s t i p ô s o b e n i a . Je to softvér s otvore­ n ý m zdrojovým k ó d o m , k o m u n i t a h o neustále vyvíja a udržiava. C K A N d i s p o n u j e p r í j e m n ý m A P I , postačuje p r e správu z o b r a z o ­ v a n i a o b s a h u p r e používateľov. Pokročilejšie nastavenia správcov s ú vykonávané p o m o c o u príkazového r i a d k u . Používa svoj vlastný m o ­ del n a u k l a d a n i e metadát z rozličných záznamov a prezentuje i c h pre žiadateľov. Každý súbor m á svoju vlastnú stránku z o z o z n a m o m zdrojov a metadátami. S p o l u sa z o súborov vytvára prehľadný a hodnotný katalóg dát. D á t a je m o ž n é pridávať d o skupín, a v o vyhľadávaní je m o ž n é prehľadávať aj i c h samotný obsah. D o katalógu je možné pridať veľkú r a d u rozšírení , ale aj vlastne vytvorené p r e konkrétnu f u n k c i o n a l i t u . 3. 3.2. Katalóg otvorených dát Ministerstva zdravotníctva Českej republiky. M i n i s t e r s t v o zdravotníctva v spolupráci s Ú Z I S Č R p r e v á d z k u j e l o ­ kálny katalóg otvorených d á t . Využíva n a to o p e n - s o u r c e softvér katalógu C K A N . Podľa n a r i a d e n i a vlády č. 425/2016 S b . je Ú Z I S Č R ako správca N á r o d n é h o registra poskytovateľov zdravotníckych s l u ­ žieb ( N R P Z S ) p o v i n n ý poskytovať údaje n a c h á d z a j ú c e sa v registri vo forme otvorených dát. Ú Z I S Č R sa snaží d l h o d o b o katalóg zapĺňať a t e c h n i c k y zabezpečovať. 4. 5. Zverejňovanie dátových s a d závisí o d p o v a h y dát, ktoré p o c h á ­ dzajú b u ď z Národného informačného zdravotníckeho systému alebo jednotlivých registrov. Zverejnené informácie m u s i a byť v súlade s p r a ­ v i d l a m i p r e otvorené dáta riadne popísané, aby nedochádzalo k m o ž ­ nej dezinterpretácií. O katalóg sa stará p o grafickej stránke W e b s t u d i o ÚZIS Č R [9]. V katalógu sa n a c h á d z a 87 dátových sád ( k u d ň u 22.5.2021) a 70 organizácií, ktoré m ô ž u vytvárať, spravovať a publikovať k o l e k c i e dátových sád. Jedná sa o organizácie, ktoré pôsobia v oblasti zdravot-. 3. h t t p s : / / c k a i i . o r g / f e a t u r e s / 4. h t t p s : / / o p e n d a t a . m z c r . c z / 5. P r e s n é z n e n i e z á k o n a d o s t u p n é 2016-425.. na. https://www.zakon3rprolidi.cz/cs/. 13.

(24) 3- N Á R O D N Ý K A T A L Ó G O T V O R E N Ý C H D A T. K a t a l o g otevřených d a t Ministerstvo zdravotnictví České republiky ŕí. Datové sady T Organizace. Vyhledat datové sady... Zobrazit pouze populárni Organizace 2 datasety nalezeny. COVID-19: Přehled vykázaných očkováni podle očkovacích mist ČR. COVID-13: Přehled vykázaných očkováni podle krajů ČR Datová sadr. ccGliytujc Jiii-jgovarř. .;atr. •; vykázan/cn očkováním na ú :oů=: vykázaných očkováni v oaněm ani. za VĚKOVOU skupinu, s. Vyuziván •. ckan. Obr. 3.1: K a t a l o g otvorených dát M i n i s t e r s t v a z d r a v o t n i c t v a Č R níctva. Všetky publikované dátové sady majú p o v a h u zdravotníckeho charakteru. 3.2.1. Príklad dátovej sady. Z katalogu s o m v y b r a l j e d n u dátovú sadu pre popis, názov sady je COVID-19: Přehled vykázaných očkování podle krajů ČR . O d p o v e d á p o s t u p u očkovania p r o t i k o r o n a v í r u s u naprieč k r a j m i Č R . H n e d p o otvorení m á m e m o ž n o s ť vidieť p o d n á z v o m jej p o p i s . Ďalej sa n a ­ chádza sekcia so s a m o t n ý m s ú b o r o m s dátami a kľúčovými s l o v a m i . P o d s e k c i o u je tabuľka s doplňujúcimi údajmi o dátovej sade, m á m e m o ž n o s ť v nej nájsť kľúčové informácie a k o autor, d á t u m p o s l e d n e j zmeny, o d k a z n a licenciu, poskytovatel', periodicita aktualizácie a p o d . 6. 6. D á t o v á s a d a d o s t u p n á n a a d r e s e : h t t p s : / / o p e n d a t a . m z c r . c z / d a t a s e t / covid-19-prehled-vykázaných-ockovani-podle-kraju-cr. 14.

(25) 3-. N Á R O D N Ý KATALÓG OTVORENÝCH. K a t a l o g otevřených d a t. Datovs sady. DÁT. Organ. ié republiky «. Organizace. UZISCR. COVID-19: Přehled... COVID-19: Přehled tt Skupiny. vykázaných očkovaní podle. O Udalosti. krajů ČR. COVID-19: Přehled vykázaných očkování podle krajů ČR Datová sada poskytuje agregovaná data c v;. kázsKci o': ková i'i ľ r s Jrovi •::a]Ĺ CR. <=žď;.' 'á::e-; ořehledu popisuje :oče: vyká z a rycí očkováni v daném dni. za věkovou ski. c u ; pc.ižíťir :;-=ré oifcíivacíá:k;. = ve vypraném kraji. Za jeden den tedy přehled obsahu e r?x Tálrí X iádkč. -tle X = oočet -cajč í'4) x oočet věícvyc ľ ski.:: i (15) x počet c.ihí. očkovaccn látř-: ••»• ok=rž CL I; k=ce 2) = 5;C D=:a SOL =-".ializována k času 20.00 b předchozího dne a mohou se zpětně nÍTiě měnit z cl jvodu průběžného doplňování.. ÚZIS UZIS CR. Data a zdroje COVID-19: P. „VB-,,. «. „. d vykázaných očkování podle .... _. « „ «. ««d»». Äo.äsKup.,. Doplňující informace. Ústav zdravotnických informací a statistiky ČR (LIZIS ČR) je organizační složkou státu, jejírrž zizov=te en je Ministerstvo zdravotnictví ČR a je správcem Národního... načíst další B Sdílet. Pole. Hodnota. Správce. Martin Komenda. Naposledy aktualizováno. 23 Květen 2021, 8 07 (UTC+02:00). Vytvořeno. 25 leden 2021,10:02 (UTC+01:00). Odkaz na podmínky užiti. https7rdata.gov.cz/podm%C3%ADnky-u%C5%BEit %C3 % A D/voln %C3% BD-p % C5%99%C3% ADstll p/. Poskytovatel dat. ÚZIS ČR. Periodicita aktualizace. R/P1D. • Twitter n Facebook. Cs:atrí :;Otsyená cs-ioe) ;. URI souvisejícího geografického území. https: in i n ke 3. c i. z <. cz. • e ; o JT e. ru i a n/stat/1. Typ územního prvku RÚIAN. ST. ;. ;. Kód územního prvku RÚIAN Klasifikace dle EUROVOC. http Weu rovoc.e uropa eu/837. Katalog otevřených dat. Využíván. c KANAPI. H ckan. Asociace CKAN. J a l y k :. O b r . 3.2: Náhľad dátovej s a d y s v y k á z a n ý m i očkovaniami P o kliknutí n a dátový súbor sa d o s t a n e m e n a stránku, ktorá uvá­ d z a bližšie informácie o súbore s dátami. M á m e možnosť s i i c h hneď pozrieť, takisto ako aj schému dátového zdroja s ďalšími informáciami. V tabuľke je zobrazený formát samotných dát a k o aj dátovej schémy. Tie sú doplnené o p o d m i e n k y užívania a potrebné dátumy.. 15.

(26) 3-. N Á R O D N Ý KATALÓG OTVORENÝCH. K a t a l o g otevřených d a t. Datovs sady. DÁT. Organ. ié republiky #. Organizace. UZIS C R. COVID-19: Přehled.... COVID-19: Přehled... COVID-19: Přehled vykázaných očkování podle ... URL: https://oriernocrieri-aktualne.mzcr.cz/api/v2/covid -19/ockovan i. csv Datová sada poskyt.ije ž.z'izz-. 3-\á ;:a:a z- ~:ázarýcl~ cí-Bváríci i?. Ľ. r i kraji Ó=: íaždý fádek přehledu popisuje počet vy kázaných očkování v daném dni. za vekovou skupinu, s použitiu v;. Ijraié ;č-:c/a-:' Ištky a /e v;, biaréir -;'=ji Za jeden den tedy přehled obsatiuje maximÉlrě X VäclKČ. -tie X = COÍŤ: -raju (14) x počet vekový cti skupin (15) x počet druhu očkovacie!" late Í :V o<aiižik pL.:ľ -;ace 2: = 630. D?, ta jsoi a-~.i=lizov=ia k ča;i. 20 DC i předchozí ne zre a rrciou se zpětné mírně měnit z důvodu průběžného doplňováni. :. M Prohlížeč dat X Na celou obrazovku. Grid. Graph. datum. Map vakcína. 1000 records. «. 1-100. Kraj nuts kod. s. Q.. kraj naze.. veková skupina. </> Zakomponovat. | Go». Search data.... prvnien dave* drunycn davek. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 18 24. 48. 0. 48. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 25 29. 109. 0. 109. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 30 34. 102. 0. 102. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 35 39. 111. 0. 111. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 40 44. 172. 0. 172. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 45 49. 156. 0. 156. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 50 54. 12B. 0. 12B. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 55 59. 96. 0. 96. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 60 64. 85. 0. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 65-69. 79. 0. 79. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 70-74. 48. 0. 48. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 75 79. 19. 0. 19. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 80. 24. 0. 24. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. ne. 2. 0. 2. celkem davek. 85. 202C-1 J i. n.ily. C/UM. loncavik ki j. 25 29. 3. 0. 3. 202C-1 J i. n.ily. C/UM. loncavik ki j. 30 34. 7. 0. 7. 202C-1 J i. C:i. n.ily. C/UM. loncavik ki. 35 39. 3. 0. 8. 202C-1 J i. C:i. n.ily. C/UM. loncavik ki. 40 44. 6. 0. 6. 202C-1 J i. C:i. n.ily. C/UM. noncavšk ki Jj. 45-49. 10. 0. 10. 202C-1 J i. C:i. n.ily. C/UM. noncavšk ki äj. 50-54. 14. 0. 14. 202C-1 J i. C:i. n.ily. C/UM. noncavšk ki Jj. i 55-59. 11. 0. 11. 202C-1 J i. C:i. n.ily. C/UM. loncavik ki j. 60-64. 10. 0. 10. 202C-1 J i. C:i. n.ily. C/UM. noncavšk ki ]j. j 65-69. 2. 0. 2. Další informace B Sdílet • Twitter CJ Facebook. Pole. Hodnota. Naposledy aktualizováno. Květen 24. 2021. Vytvořeno. Leden 25, 2021. Formát. application/csv. Odkaz na podmínky užiti. .gov.cz/podmin ky-užití vc •íý-píísMp. Dotčené časové období od. 2020- 12-27. Dotčené časové období do. 2021- 05-24. Odkaz na schéma datového z: Formát schématu datového zdroje. applicat o'v'csvn-jsor. Obr. 3.3: Informácie o dátovom súbore s v y k á z a n ý m i očkovaniami. 16.

(27) 4 Metodika publikácie otvorených dát V tejto kapitole sa popisujú potrebné procesy pre publikáciu otvorenej dátovej s a d y n a portál otvorených dát.. 4.1. Plánovanie publikácie otvorených dát. N a začiatku sa vyberajú potenciálne dátové sady vhodné pre p u b l i k o ­ v a n i e . P r e d c h á d z a t o m u aj overenie, či d á t o v ú s a d u už n e p o s k y t u j e iná inštitúcia. Treba zvážiť prekážky, ktoré b y m o h l i z n e m o ž ň o v a ť p u b l i k á c i u dát (citlivé o s o b n é údaje, firemné tajomstvo, n e v h o d n é i n f o r m á c i e . . . ) . Prínos dát b y m a l prevažovať n a d n e g a t í v n y m i dô­ s l e d k a m i . F o r m á t dát je v h o d n é publikovať v otvorenej f o r m e p r e všetkých žiadateľov a strojovo čitateľnej p o d o b e , čo odpovedá „trom h v i e z d i č k á m " podľa m o d e l u (viď obrázok 1.2), v k a p i t o l e 1.3. Návrh n a p o s k y t o v a n i e dát je m o ž n ý d v o m i spôsobmi, voľne stiahnuteľný alebo d o s t u p n ý p r o s t r e d n í c t v o m služieb, ktoré m ô ž u z a ­ hŕňať p o p l a t k y spojené s p u b l i k á c i o u samotných dát. V ý š k a p o p l a t ­ kov sa n a začiatku plánovania o d h a d n e podľa náročnosti spracovania a nákladov p u b l i k o v a n i a dátovej sady. P o p l a t k y sa však m ô ž u meniť p o č a s celého p r o c e s u p u b l i k o v a n i a dát. V sektore zdravotníctva n i e všetky dáta sú voľne dostupné vzhľadom n a citlivosť a p o v a h u dát. Dátové s a d y sa n e m u s i a publikovať n a r a z (napr. z d ô v o d o v ča­ sových, t e c h n i c k ý c h ) , ale sa m ô ž u rozdeliť d o viacerých etáp. E t a p y sa zvyčajne publikujú podľa stupňa dôležitosti p r i o r i t y dátových sád. Etapa zahŕňa z o z n a m jednotlivých úloh. Plánovanie publikácie je príp­ r a v o u n a jej samotnú realizáciu, ktoré zahŕňa: • stanovenie cieľov, ktoré sa d o s i a h n u otvorením dát, • h a r m o n o g r a m , podľa ktorého sa realizujú jednotlivé úlohy, • financovanie jednotlivých úloh, • zodpovednosť z a v y k o n a n i e úloh, • p o p i s rizík, ale aj prínosov p r i samotnej realizácií. 17.

(28) 4- M E T O D I K A P U B L I K Á C I E O T V O R E N Ý C H DÁT. 4.2. Príprava publikácie. 4.2.1. Návrh odstránenia citlivých údajov. A k o p r v ý k r o k treba d ô k l a d n e skontrolovať dáta, aby n e o b s a h o v a l i citlivé údaje. P r e k á ž k o u v o zverejnení m ô ž e byť napr. o c h r a n a osob­ ných údajov (viď k a p i t o l a 2.2), p r e t o je n u t n é navrhnúť efektívny spôsob ú p r a v y dát. N a v r h n u t ý spôsob sa d o s i a h n e a n o n y m i z á c i o u alebo a g r e g á c i o u dát. A n o n y m i z á c i a zaručuje, že p o úprave dát ne­ b u d e m o ž n é identifikovať jednotlivé subjekty. P r i agregácii sa dáta zlučujú, z jednotlivých subjektov sa vytvára s k u p i n a so s ú h r n n ý m i ú d a j m i o subjektoch. V p r í p a d e b u d ú c e j aktualizácie dát je v h o d n é spôsob anonymizácie/agregácie p l n e zautomatizovať, alebo previesť manuálne, čo p r i m e n š o m množstve dát zohľadňuje časovú a finančnú úsporu. 4.2.2. Návrh štruktúry dát. Jednotlivé p o l o ž k y v dátovej sade p o p i s u j e dátová s c h é m a . P r e l e p ­ šiu predstavivosť dát, ktoré b u d ú publikované, je v ý h o d n é navrhnúť schému dátovej s a d y v o formáte X M L . Alternatívou môže byť schéma zapísaná p o m o c o u U M L , alebo p o m o c o u entitno-relačného d i a g r a m u . Tie v š a k n i e sú strojovo čitateľné. V ý s l e d n ý d i a g r a m obsahuje j a s n ý a zrozumiteľný n á v r h riešenej oblasti, definície atribútov a i c h v z á ­ j o m n é väzby, zachováva r e a l i t u štruktúry, je štandardizovaný a d o p l ­ nený aj s p r i e v o d n o u dokumentáciou. Podľa štruktúry dát sa n a v r h n e aj v h o d n ý formát dát. Pokiaľ sa nachádzajú v dátovej sade názvy územných celkov, krajov, miest je vhodné použiť kódy z už existujúcich číselníkov ( N U T S , L a u ) . Číselníky sú súčasťou štatistického informačného systému, priebežne sa aktualizujú. 1. 4.2.3. Licencia otvorených dát. P r i otvorených dátach je dôležité stanoviť si p o d m i e n k y a l i c e n c i u , p o d k t o r o u majú byť publikované, aby b o l a zaručená i c h právna istota 1. Č í s e l n í k y okresov podľa ČSÚ: https://www.czso.cz/csu/rso/ okres-dle-statisticke-klasifikace-nuts-lau. 18.

(29) 4- M E T O D I K A P U B L I K Á C I E O T V O R E N Ý C H DÁT. a praktická využiteľnosť. Žiadateľ m u s í byť informovaný o p o d m i e n ­ k a c h , p r i ktorých m ô ž e používať dátovú s a d u . P o d m i e n k y m u s i a byť verejne dostupné, a je potrebné aby o b s a h o v a l i o d k a z n a l i c e n c i u . A k o j e d n a z o š t a n d a r d n e p o u ž í v a n ý c h licencií je C C - B Y 4.0 - L i ­ cence C r e a t i v e C o m m o n s A t t r i b u t i o n 4 . 0 . Táto l i c e n c i a sa m ô ž e v y ­ užívať, keď je p o t r e b n é uviesť a u t o r a dát alebo pokiaľ n i e je m o ž n é vzdať sa práv a sprístupniť dáta k voľnému používaniu. 2. 4.2.4. Metadata. P r i procese t v o r b y dátovej s a d y je k nej p o t r e b n é pridať p o p i s v o forme metadát, b e z n i c h b y dátová sada n e m o h l a existovať. M e t a d a t a sú štruktúrované údaje a poskytujú informácie o primárnych dátach. Pomáhajú užívateľom lepšie pochopiť v ý z n a m dát, i c h štruktúru. "Zni­ žujú riziko nesprávnej interpretácie datasetu a uľahčujú prácu vývojárov a ostatným používateľom údajov." [10] Pre publikáciu dát je potrebné vytvoriť katalogizačný záznam o dá­ tovej sade. Z á z n a m sa skladá z d v o c h častí. P r v á časť obsahuje m e ­ tadata n e s ú c e informácie o samotnej dátovej sade, t.j. n á z o v ( t i t u l ) , p o p i s , kategória ( t é m a ) , kľúčové slová ( t a g y ) , ú z e m i e , p e r i o d i c i t a aktualizácie a t ď D r u h á časť obsahuje m e t a d a t a o distribúcii dátovej sady, m u s í zahŕňať l i c e n c i u , o d k a z n a dátový súbor a formát súboru dát.. 4.3. Publikácia dát. 4.3.1 Príprava a validácia dát P r i procese prípravy dát sa dáta t r a n s f o r m u j ú d o cieľovej štruktúry a f o r m á t u tak, a b y z o d p o v e d a l i v o p r e d n a v r h n u t ý m p l á n o m . V prí­ pade aktualizácie publikovanej distribúcie sa nemusí nutne nevytvárať nová, stačí j u aj aktualizovať. Po príprave je potrebné dáta overiť (validovať). Z o d p o v e d n á osoba s k o n t r o l u j e či transformácia a p r í p a d n á anonymizácia / agregácia prebehla korektne. Pokiaľ sú v dátach objavia zanesené chyby, je v h o d n é i c h zanalyzovať a opraviť.. 2.. https://creativecommons.org/licenses/by/4.0/legalcode. 19.

(30) 4- M E T O D I K A P U B L I K Á C I E O T V O R E N Ý C H DÁT. 4.3.2 Zverejnenie dátovej sady Hotová dátová s a d a je pripravená k s a m o t n é m u z v e r e j n e n i u n a i n ­ ternete. S p o l u s m e t a d á t a m i sa n a h r á n a úložisko, z k t o r é h o b u d e dostupná p r e žiadateľov z internetu. V Českej r e p u b l i k e sa štandardne dáta nahrávajú n a portál Národného katalógu otvorených dát ( N K O D , data.gov.cz) alebo d o vlastného l o k á l n e h o k a t a l ó g u , ktorý je r i a d n e zaregistrovaný v N K O D a spĺňa Otvorené formálne n o r m y R o z h r a n i a katalógou otvorených dát [11]. Po nahratí sa dátová s a d a k a t a l o g i z u j e . Portál N K O D d i s p o n u j e f o r m u l á r o m v k t o r o m je nutné vyplniť údaje o dátovej sade a jej distri­ búcii. Taktiež ponúka aj možnosť nahratia samotnej dátovej sady, takže nie je j u nutné nahrávať n a úložisko. V prípade lokálneho katalógu sa dátová s a d a s p o l u s distribúciou d o N K O D načíta celá a u t o m a t i c k y . Týmto s p ô s o b o m sa v ý r a z n e šetrí a g e n d a spojená s katalogizáciou. N a prípadné nedostatky p r i katalogizácii je tvorca upozornený, a p r e ú s p e š n ý z á z n a m je p o t r e b n é i c h odstrániť. P u b l i k o v a n e j sade treba zabezpečiť p o d o b u jej p l a t n o s t i dostupnosť. 3. 4.4. Udržiavanie dát. Dátovej sade treba zaistiť aktualizácie podľa definovanej p e r i o d i c i t y . V ä č š i n o u d o c h á d z a k p u b l i k o v a n i u prírastkových dát alebo z m i e n v d á t u m o c h . A j p r i aktualizácii treba venovať pozornosť k v a l i t e dát, aby nedochádzalo k n e p r e s n o s t i a m a neúplnostiam. Dáta stále o d p o ­ vedajú p r v o t n ý m n á v r h o m , ktoré sa m ô ž u prispôsobiť n a špecifické požiadavky pre potrebné obdobie. Katalogizačný záznam je potrebné aktualizovať tiež, n a j m ä d á t u m p o s l e d n e j aktualizácie a o d k a z n a aktuálne dáta. Všetky z m e n y v lokálnom katalógu sa d o N K O D auto­ m a t i c k y načítavajú. Pre hladký c h o d poskytovatelia dát dodržujú komunikačnú straté­ g i u . V p r i e b e h u d o b y b y m a l a v h o d n e reagovať n a aktuálne z m e n y v rámci komunikácie.. 3.. https://data.gov.cz/formulář/registrace-datové-sady. 20.

(31) 4- M E T O D I K A P U B L I K Á C I E O T V O R E N Ý C H DÁT. 4.4.1. Z á n i k dát. P o istej d o b e m ô ž u dáta tratit n a v ý z n a m e , n a p r . v d ô s l e d k u z m e n y legislatívy, ktorá ďalej n e u m o ž ň u j e zbierať určité dáta, alebo z á n i k u a postupného u p a d a n i a o d v e t v i a z ktorého pochádzajú. Pokiaľ dôjde k u k o n č e n i u z b e r u dát, a n i e je z a k á z a n é publikovať už v o p r e d z o ­ zbierané dáta, m ô ž e orgán verejnej správy r o z h o d n ú ť o p o n e c h a n í publikovanej dátovej sady. Tým sa zabezpečí funkčnosť služieb, ktoré j u stále požívajú. Ďalej je nutné rozhodnúť o udržovaní dátovej sady, t.j. aby sa o p r a ­ v o v a l i p r í p a d n é n e d o s t a t k y n á j d e n é v dátovej sade alebo n i e . Túto skutočnosť treba aktualizovať v katalogizačnom zázname. V prípade že sa n a h r a d í dátová s a d a s u k o n č e n o u ú d r ž b o u n o v o u , je v h o d n é túto informáciu tiež uviesť v katalogizačnom z á z n a m e a odkázať n a novú dátovú s a d u . O d m o m e n t u , keď n i e je m o ž n é ďalej poskytovať dátovú s a d u , dochádza k ukončeniu jej p o s k y t o v a n i a . N a v r h n e sa plán n a riadený z á n i k p u b l i k á c i e dát. Pokiaľ n i e je dovolené p u b l i k á c i u n a z á k l a d e legislatívy naďalej sprístupňovať, je potrebné zrušiť jej p u b l i k o v a n i e d o stanoveného d á t u m u . V o b o c h p r í p a d o c h b u d e aj naďalej evidovaná v k a t a l ó g u , avšak už b u d e o z n a č e n á a k o s a d a s v y p r š a n o u l e h o t o u sprístupnenia.. 21.

(32) 5 Praktická časť: Publikácia dátovej sady Táto praktická k a p i t o l a sa zaoberá p o s t u p o m a prípravou už v o p r e d pozbieraných dát n a dátovú s a d u určenú k publikácii. Motiváciou k v y t v o r e n i u tejto dátovej sady b o l o prepojenie d v o c h samostatných číselníkov, používaných v d v o c h rôznych inštitúciách ve­ rejnej správy. Následné spojenie v novo vytvorenej dátovej sade uľahčí prácu týmto inštitúciám p r i práci s o b c a m i s rozšírenou pôsobnosťou.. 5.1. Dátová sada a jej význam. Dátová sada obsahuje číselníky obcí s rozšírenou pôsobnosťou a i c h názvami n a území Českej r e p u b l i k y . U Z I S používa p r e obce s rozšíre­ n o u p ô s o b n o s ť o u vlastný číselník, ktorý n i e je totožný s číselníkom Českého štatistického úradu ( Č S Ú ) . Táto dátová sada obsahuje p r i a m u v ä z b u m e d z i o b o m a číselníkmi. R o v n a k o obsahuje aj identifikátory daných okresov a krajov, a doplňujúci údaj o poslednej zmene daného okresu. Obrázok popisuje prvotný návrh schémy pre dátovú s a d u . Schéma je znázornená p o m o c o u d i a g r a m u tried v j a z y k u U M L . H l a v n o u myš­ l i e n k o u b o l o prepojenie d v o c h číselníkových entít p o m o c o u väzobnej tabuľky.. Obec v ČR - zkrácený název : string - plný název : string. ÚZIS ČR - kód obce : int. *. 1. 1. > - id_kraj: string. 1. ČSÚ. 1. - kód obce : int. - id_okres : string - změna : string. Obr. 5.1: D i a g r a m t r i e d p r e číselníky. 22.

(33) 5- P R A K T I C K Á Č A S Ť P U B L I K Á C I A DÁTOVEJ S A D Y. 5.2. Prevod dát do formátu CSV. Z o z b i e r a n é dáta sú v o f o r m á t e X L S X , t.j. štandardná tabuľka (napr. vytvorená v tabuľkovom softvéri M i c r o s o f t E x c e l ) . Publikované dáta v tomto formáte nie sú najvhodnejšie vzhľadom n a čas potrebný p r i i c h s t r o j o v o m spracovávaní. B e ž n e sa s tabuľkovým f o r m á t o m m ô ž e m e stretnúť, nakoľko nie všetky zverejnené dátové s a d y je potrebné ďalej strojovo spracovávať. Najbližší m o ž n ý formát, ktorý spĺňa túto p o d ­ m i e n k u je formát C S V . V y t v o r i l s o m nasledujúci j e d n o d u c h ý skript v j a z y k u P y t h o n , slúži n a p r e v o d dát d o koncového formátu. S k r i p t je súčasťou prílohy. import import. xlrd csv. d e f c s v _ f r o m _ e x c e l () : workbook = x l r d . o p e n _ w o r k b o o k ( " o r p precislovani.xlsx") sheet = w o r k b o o k . s h e e t _ b y _ n a m e ( ' L i s t í ' ) s h e e t . c e l l _ v a l u e ( 0 , 0) output_csv = n ( " o r p - p r e c i s l o v a n i . csv" , for i for. "w"). in range(sheet.nrows): j in range(sheet.ncols):. text = s h e e t . c e l l _ v a l u e ( i , j) if e ( s h e e t . c e l l _ v a l u e ( i , j) , it) : text = str(in1 (sheet.cell_value (i , j))) if. j != sheet.ncols-1: text = text + ' , ' output_csv.write(text) o u t p u t _ c s v . w r i t e ( ' \ n ') output_csv.close(). 23.

(34) 5- P R A K T I C K Á Č A S Ť P U B L I K Á C I A DÁTOVEJ S A D Y. 5.3. Vytvorenie dátovej schémy pre dátovú sadu. P r i publikácií dátovej s a d y sa m u s í vytvoriť súbor, k t o r ý dáta nále­ žité vysvetľuje, t.j. katalogizačný záznam vo forme metadát. Metadáta existujú v o f o r m e J S O N d o k u m e n t u , obsahujúce objekt n a najvyššej úrovni popisujúci tabuľku [12]. Katalogizačný záznam m ô ž e byť zve­ rejnený v o viacerých katalógoch, zvýši sa tým informácia o existencii dátovej s a d y a dostupnosť p r e čo najväčší o k r u h užívateľov. Štruktúra m e t a d á t o d p o v e d á e u r ó p s k e m u š t a n d a r d u D C A T - A P z a l o ž e n é h o n a slovníku dátového k a t a l ó g u ( D C A T ) o d spoločnosti World Wide Web Consortium. Hlavná výhoda D C A T - A P je zabezpečenie k o n z i s t e n t n o s t i p o s k y t n u t í m š t a n d a r d u n a o p i s metaúdajov, ktoré uverejňujú portály v celej E u r ó p e . O b s a h u j e tiež širokú škálu n á z ­ v o v a využíva v ý r a z y z iných slovníkov, najmä Dublin Core Metadata Initiative [13]. Súbor s metadátami sa skladá z d v o c h častí. V prvej sa nachádzajú informácie o dátovej sade zložené z : 1. • k o n t e x t u - obsahuje a d r e s u definície slovníka, v n a š o m prípade ešte predvolený j a z y k použitý v súbore s metadátami, • u r l - uvádza sa v nej U R L adresa súboru C S V , v k t o r o m je tabuľka u l o ž e n á , relatívne cesta k u m i e s t n e n i u s ú b o r u v z h ľ a d o m n a metadáta, • n á z v u dátovej s a d y - názov m u s í byť krátky a presný, aby b o l o jasné čo je o b s a h o m dátovej s a d y • p o p i s u dátovej s a d y - text, ktorý detailnejšie p o p i s u j e o b s a h dátovej sady, o č o m dáta vypovedajú, • z d r o j a - vypovedá o z d r o j i , z ktorého dáta pochádzajú, • kľúčových slov - kľúčové slová alebo značky popisujúce dátovú s a d u , zdroj..., • vydavateľa - subjekt z o d p o v e d n ý z a sprístupnenie z d r o j a , ty­ p i c k y zahŕňa m e n o autora, organizácie..., 1. K o m p l e t n á š p e c i f i k á c i a je d o s t u p n á n a oficiálnej dublincore.org/specifications/dublin-core/. stránke. https://www.. 24.

(35) 5- P R A K T I C K Á Č A S Ť P U B L I K Á C I A DÁTOVEJ S A D Y. • licencie - d o k u m e n t poskytujúci oficiálne povolenie n a prácu so z d r o j o m , štandardne o d k a z u j e n a licenčný d o k u m e n t , • dátumu z m e n y - dátum poslednej z m e n y s p o l u s príslušným formátom. V druhej časti sa n a c h á d z a p o p i s schémy p r e dátový súbor. P o p i ­ suje štruktúru tabuľky. K a ž d ý stĺpec musí mať jedinečný názov, t y p a náležitý p o p i s .. 25.

(36) 6 Záver Cieľom tejto p r á c e b o l o p r e d s t a v e n i e p r o b l e m a t i k y otvorených dát, pochopiť i c h základné princípy a r o z d e l e n i e . V prvých d v o c h k a p i t o ­ lách sa z a m e r i a v a n a v š e o b e c n ý p o p i s otvorených dát, i c h u k o t v e n i e v zákone o poskytovaní s p o l u s o c h r a n o u osobných údajov a opisuje aktuálne situáciu v Českej r e p u b l i k e so zdravotníckymi dátami. S a m i sme b o l i s v e d k a m i , a k o sa z a p o s l e d n ý r o k stali otvorené dáta p o p u ­ lárnejšími kvôli p a n d e m i i koronavírusu. N a stranu štátu b o l vyvíjaný veľký tlak, a b y dáta b o l i správne a m a l i s v o j u v ý p o v e d n ú h o d n o t u . To b y však nebolo možné vďaka spolupráci množstva zdravotníckych inštitúcií s prepracovanými p l á n m i o d z b e r u až p o publikáciu dát. V tretej a štvrtej k a p i t o l e sa z r e k a p i t u l o v a l i d v a podstatné t u z e m ­ ské katalógy s otvorenými dátami, aj s obrázkovým príkladom. B o l a predostretá a zhrnutá m e t o d i k a p r e publikáciu otvorených dát. P o p i ­ sujú sa v nej p o t r e b n é k r o k y p r e v y t v o r e n i e otvorenej dátovej s a d y určenej k publikácii. V p r a k t i c k e j časti b o l a n a v r h n u t á a v y k o n a n á časť p r o c e s o v n e ­ v y h n u t n á p r e prípravu dátovej s a d y k z v e r e j n e n i u . B o l p o c h o p e n ý charakter a v ý z n a m zozbieraných dát. N a v r h o l sa príslušný d i a g r a m , logické z h r n u t i e dát v o forme grafu. Dáta sa p r e v i e d l i d o formátu C S V , použil sa n a to s k r i p t v j a z y k u P y t h o n . Následne sa v y t v o r i l a dátová schéma popisujúca dátovú s a d u . O t v o r e n é dáta sa publikujú v čoraz väčšej m i e r e , i c h v ý h o d o u je prístupnosť k verejnosti. Dáta sú relevantné, niektoré časom zaniknú a niektoré b u d ú naďalej aktualizované. K v a n t i t a a využiteľnosť dát m á k a ž d ý m r o k o m rastúcu t e n d e n c i u , č o je s v ý h ľ a d o m d o b u d ú c n o s t i pozitívny ukazovateľ.. 26.

(37) Bibliografia 1.. B O Č E K , J á n ; Č E P I Č K Y , J á c h y m ; M R Á Č E K , J a k u b . Jak otevírat data? P r a h a : F o n d O t a k a r a M o t e j l a , 2014. I S B N 978-80-87725-15-3. D o s t u p n é tiež z : h t t p s : //osf . c z / p u b l i k a c e / j a k - o t e v i r a t data/.. 2.. C H I G N A R D , S i m o n . A brief history of Open Data [ o n l i n e ] . Paris I n n o v a t i o n R e v i e w , 2013 [cit. 2020-12-05]. D o s t u p n é z : h t t p : // parisinnovatiorireview. com/articles-en/a-brief-historyof-open-data.. 3.. B E R N E R S - L E E , T i m . 5 Star Open Data [ o n l i n e ] . 2015 [cit. 202012-10]. Dostupné z : h t t p s : / / 5 s t a r d a t a . i n f o/en/.. 4.. M Í Š E K , Jakub. Právní aspekty otevřených dat [ o n l i n e ] . B r n o , 2018 [cit. 2020-12-15]. D o s t u p n é z : h t t p s : / / i s .muni . c z / t h / s q e 7 a / rigo_opendata_f i n a l .pdf. D i z . pr. Právnická fakulta, M a s a r y ­ kova Univerzita.. 5.. MÍŠEK, Jakub. Ochrana osobních údajů a poskytování otevřených dat [online]. 2020 [cit. 2021-01-12]. Dostupné z : h t t p s : //opendata. gov . cz/dokumenty : ochrana-osobn°/ C3°/ ADch-°/ C3°/ BAdaj °/C5°/ AF-a-gdpr. 0. 6.. 0. 0. 0. 0. 0. Ústav zdravotnických informácia statistiky ČR [ o n l i n e ] . W i k i p e d i a [cit. 2021-01-15]. D o s t u p n é z : h t t p s : / / c s . w i k i p e d i a . o r g / w i k i / % C 3 % 9 A s t a v _ z d r a v o t n i c k y C 3 y o B D c h _ i n f ormacy C3y AD_a_ statistiky_y C4y 8CR. o. 0. 0. 0. 0. 7.. O Ústavu zdravotnických informací a statistiky ČR [ o n l i n e ] . Ú Z I S Č R [cit. 2021-04-12]. D o s t u p n é z : h t t p s : //www.uzis . c z / i n d e x . php?pg=o-nas.. 8.. K O M E N D A , M a r t i n ; B U L H A R T , Vojtěch; KAROĽYI, Matěj; J A R KOVSKÝ, Jiří; M U Ž Í K , Jan; M Á J E K , Ondřej; ŠNAJDROVÁ, L e n k a ; RŮŽIČKOVÁ, Petra; RÁZOVÁ, Jarmila; P R Y M U L A , R o m a n ; M A C ­ KOVÁ, Barbora; BREZOVSKÝ, Pavel; M A R O U N E K , Jan; Č E R N Ý , Vladimír; D U Š E K , L a d i s l a v . C o m p l e x R e p o r t i n g of the C O V I D 19 E p i d e m i c i n the C z e c h R e p u b l i c : U s e of a n Interactive W e b Based A p p i n Practice. /Med Internet Res [ o n l i n e ] . 2020, roc. 22,. 27.

Odkazy

Související dokumenty

Logické datové sady (logická seskupení tříd) mohou být umístěny v jedné (fyzické) datové sadě spolu s volně umístěnými třídami prvků. Výhodné je využití

Různorodost datové sady je potřebná zejména kvůli správnému vytvoření vzorů, nerůznorodá datová sada může způ- sobit, že vzor bude odpovídat jenom malé

Kromě pozitivního vlivu rozptýlených ocelových vláken na pevnostní charakteristiky, zejména ohybové pevnosti (viz úvodní sady vzorků a trámce sady B),

ČSN 27 4014 v platném znění, Bezpečnostní předpisy pro konstrukci a montáž výtahů - Zvláštní úpravy výtahů určených pro dopravu osob nebo osob a nákladů -

Bohužel u žádné datové sady nebyl neuronový model lepší než LDA model, avšak jeho výsledky nebyly špatné vezmeme-li v potaz, že architektura neuronové sítě (včetně

Užívateľ má taktiež na výber z atribútov dátovej sady, ktoré sú rozdelené do kategórií, zvoliť si môže ľubovoľný počet a hodnoty (použitý je ListView, atribúty

Navíc datové sady, které vznikly na základ ě postup ů popsaných v práci byly publikovány na univerzitním webu (viz mortality.vse.cz).. Text je rozd ě len do

Na projektu prototypového řešení – návrhu datové sady a reportu / dashboardu pro sledování plnění plánu a predikci budoucích výnosů podniku na základě dat získaných