zdravotnictví Publikace otevřené datové sady ve
Fulltext
(2) MASARYKOVA UNIVERZITA FAKULTA INFORMATIKY. Publikace otevřené datové sady ve zdravotnictví. BAKALÁRSKA PRÁCA. Maroš Uhliar. Brno, jar 2021.
(3) Na tomto mieste sa v tlačenej práci nachádza práce a vyhlásenie autora školského diela.. oficiálne. podpísané. zadanie.
(4) Vyhlásenie V y h l a s u j e m , že táto bakalárska práca je mojím p ô v o d n ý m autorským d i e l o m , ktoré s o m v y p r a c o v a l samostatne. V š e t k y z d r o j e , p r a m e n e a literatúru, ktoré s o m p r i vypracovaní používal alebo z n i c h čerpal, v práci riadne citujem s uvedením úplného o d k a z u n a príslušný zdroj.. Maroš Uhliar. Vedúci práce: R N D r . M a r t i n K o m e n d a , P h . D . i.
(5) Poďakovanie Ď a k u j e m R N D r . M a r t i n o v i K o m e n d o v i , P h . D . z a čas, c e n n é r a d y a p r i p o m i e n k y , ktoré p r i s p e l i k tvorbe tejto práce. n.
(6) Zhrnutie Bakalárska práca predstavuje úvod to sveta otvorených dát, definuje i c h p r o b l e m a t i k u a isté špecifiká v o b l a s t i zdravotníctva. V úvodnej časti práce sa popisujú otvorené dáta, i c h vlastnosti a stav v Českej Re p u b l i k e . Ďalšia časť približuje procesy p r i tvorbe dátovej s a d y určenej k p u b l i k o v a n i u . Posledná časť demonštruje p r i e b e h prípravy dátovej sady.. iii.
(7) Kľúčové slová otvorené dáta, C K A N , publikácia dát, metadata, zdravotníctvo. iv.
(8) Obsah Úvod. 1. 1. Otvorené dáta 1.1 Princípy otvorených dát 1.2 História otvorených dát 1.2.1 História otvorených dát v U S A 1.2.2 História otvorených dát v o Veľkej Británii . . . . 1.3 Stupne otvorenosti dát. 3 3 5 6 6 7. 2. Otvorené dáta a zdravotníctvo ( v ý h o d y a n e v ý h o d y ) 2.1 Poskytovanie a otvorenosť dát (podlá Zákona č. 106/1999 Sb.) 2.2 O c h r a n a osobných údajov 2.3 Zdravotnícke dáta v Českej r e p u b l i k e. 9. 3. 9 10 11. N á r o d n ý katalóg otvorených dát 3.1 C K A N 3.2 Katalóg otvorených dát Ministerstva zdravotníctva Čes kej r e p u b l i k y 3.2.1 Príklad dátovej s a d y. 12 12. 4. Metodika publikácie otvorených dát 4.1 Plánovanie publikácie otvorených dát 4.2 Príprava publikácie 4.2.1 Návrh odstránenia citlivých údajov 4.2.2 Návrh štruktúry dát 4.2.3 L i c e n c i a otvorených dát 4.2.4 Metadáta 4.3 Publikácia dát 4.3.1 Príprava a validácia dát 4.3.2 Zverejnenie dátovej s a d y 4.4 Udržiavanie dát 4.4.1 Z á n i k dát. 17 17 18 18 18 18 19 19 19 20 20 21. 5. Praktická časť: Publikácia dátovej sady 5.1 Dátová sada a jej v ý z n a m. 22 22. 13 14. v.
(9) 6. 5.2. P r e v o d dát d o formátu C S V. 23. 5.3. V y t v o r e n i e dátovej schémy pre dátovú s a d u. 24. Záver. 26. Bibliografia. 27. vi.
(10) Zoznam obrázkov 1.1 1.2. Ekosystém otvorených dát 5 Päťhviezdičková schéma otvorenosti dát. 3.1 3.2 3.3. Katalóg otvorených dát Ministerstva zdravotníctva ČR Náhľad dátovej sady s vykázanými očkovaniami 15 Informácie o dátovom súbore s vykázanými očkovaniami. 5.1. Diagram tried pre číselníky. 7 14 16. 22. vii.
(11) Úvod Žijeme v d o b e , ktorá prináša m n o ž s t v o n o v ý c h inovácií a možností. Posledné desaťročia nás zasiahol vo veľkom technologický vývoj, ktorý o v p l y v n i l naše každodenné životy a z m e n i l prístup spoločnosti k jeho v n í m a n i u . O b č a n i a m a j ú čoraz väčší z á u j e m o informácie, k t o r ý m i disponujú n i e l e n štátne inštitúcie. Takto p o d a n é informácie majú d o veľkej m i e r y socioekonomický potenciál, ktorý sa dá najlepšie využiť pokiaľ sú informácie zverejnené v čo najväčšej forme s možnosťou i c h ďalšieho využitia. Otvorené dáta sú t ý m najlepším s p ô s o b o m , a k ý m m ô ž e verejný sektor p r e občanov poskytovať informácie. O d štátu sa očakáva r e a k c i a n a technologické z m e n y aj s p o s t u p n ý m v ý v o j o m spoločnosti. Preto je n a mieste, aby si z a c h o v a l s v o j u d o b r ú povesť, transparentnost a umožňoval voľný prístup k informáciám. V ľuďoch aj takéto významnejšie k r o k y v z b u d z u j ú dôveryhodnosť k verejným inštitúciám. V Českej republike je zakotvená právna úprava v zákone č.106/1999 Sb. o s l o b o d n o m prístupe k i n f o r m á c i á m , ktorý je aj v b u d ú c n o s t i prísľubom otvorenej verejnej s p r á v y a p r í s t u p o m k jej v y t v o r e n ý m dátam. Otváranie dát dovoľuje diaľkový prístup a zdieľanie naprieč spoločnosťou. S e k u n d á r n e zapríčiňuje aj m o d e r n i z á c i u a zlepšenie organizácie v o verejnej správe, ktorá sa d o k á ž e lepšie prispôsobiť potrebám občanov. V dnešnej dobe sa k takejto iniciatíve nehlásia l e n najvyspelejšie krajiny, p o k r o k n e o b c h á d z a a n i rozvojové krajiny. Táto práca b y m a l a ponúknuť úvod d o sveta p r o b l e m a t i k y otvore ných dát, i c h históriu, stav v Českej r e p u b l i k e a technické požiadavky pre publikáciu dátovej s a d y v o f o r m e otvorených dát. V prvej časti práce sa oboznámime s p o j m o m "otvorené d á t a " a i c h z á k l a d n ý m i p r i n c í p m i p r e lepšie p o c h o p e n i e k o n c e p t u otvorených dát. Predstavíme si aj stupne otvorenosti dát, podľa ktorých sa otvore nosť dát dá určiť. Postupne naviažeme historickým vývojom v d v o c h krajinách, ktoré sa r a d i a m e d z i najstaršie a najväčšie v p o s k y t o v a n í dát. V druhej kapitole si z h r n i e m e prínosy otvorených dát samotných ako aj v oblasti zdravotníctva. S p o m e n i e m e si n a p o j m y a k o p o s k y t o v a n i e a osobné údaje. Neskôr s i z h r n i e m e situáciu s dátami v Českej. 1.
(12) r e p u b l i k e . V nasledujúcej tretej kapitole s i u v e d i e m e hlavné národné katalógy dát tuzemských poskytovateľov. Štvrtá k a p i t o l a p o p i s u j e technické p r o c e s y p r e p u b l i k o v a n i e ot vorenej dátovej sady, o d plánovania až p o zánik dát. N a s l e d u j ú c a piata k a p i t o l a je praktická a zobrazuje p o s t u p a prípravu s a d y určenej k publikácii. Cieľom tejto p r a k t i c k e j časti je n á z o r n á u k á ž k a p o t r e b ných krokov. V závere sa nachádza z h r n u t i e teoretických výstupov a praktickej časti práce.. 2.
(13) 1 Otvorené dáta Názov otvorené dáta je relatívne nový p o j e m , ktorý definuje informá cie v o forme voľne prístupných dát dostupných n a internete. Dáta sú v štruktúrovanej a strojovo čitateľnej p o d o b e . Ich využitie n i e je l i m i tované žiadnymi právnymi a n i technickými prekážkami. Štandardne sú poskytované z a d a r m o , alebo z a symbolický p o p l a t o k . Neexistuje presná definícia p o j m u otvorené dáta, v rôznych kniž ných publikáciách sa však autori zhodujú n a spoločných myšlienkach. K o n c e p t otvorených dát pramení z názoru, že určité dáta b y m a l i byť prístupné v š e t k ý m b e z r o z d i e l u . Koncoví užívatelia m ô ž u tieto dáta využívať p r e vlastné účely, a zdieľať z a p o d m i e n k y u v e d e n i a a u t o r a a rovnakých p o d m i e n o k p r e všetkých ďalších užívateľov [1].. 1.1. Princípy otvorených dát. O p e n K n o w l e d g e F o u n d a t i o n (2012) c h a r a k t e r i z o v a l o otvorené dáta ako dáta, ktoré m ô ž u užívatelia svojvoľne využívať n a ľubovoľné účely a ďalej zdieľať z a p r e d p o k l a d u u v e d e n i a a u t o r a . Z tejto definícií n i e je úplne jasné, ako m ô ž u byť otvorené dáta sprístupnené, najčastejšie sa o n i c h hovorí a k o o dátach publikovaných n a internete. M ô ž e m e sa stretnúť aj s p o j m o m otvorené dáta verejnej správy z a p o d m i e n k y , že otvorené dáta sú n a internete sprístupnené v súlade s p r i n c í p m i otvorených dát. Podľa K o n c e p t u katalogizácie otvorených dát verejnej správy Č R (Chlápek a k o l . , 2012) m u s i a otvorené dáta verejnej správy splňovať: • Úplnosť - zverejnenie dát v čo najväčšom m o ž n o m r o z s a h u . P o skytovatel' dát alebo právny p r e d p i s definuje r o z s a h . V dátach sa nachádzajú čerstvé záznamy. • Ľahkú dostupnosť - dáta sú dostupné a p l n e dohľadateľné n a i n ternete p o m o c o u bežných prostriedkov. • Strojovú čitateľnosť - dáta sú uložené v dostatočne štruktúrova n o m formáte, aby sa p o m o c o u p r o g r a m o v e j aplikácie dokázali získať potrebné údaje. 3.
(14) i . O T V O R E N É DÁTA. • Používanie štandardov s v o l n e d o s t u p n o u špecifikáciou - dáta m u s i a byť v o formáte, ktorý je v o l n e d o s t u p n ý p r e ľubovoľné použitie, alebo je m o ž n é dáta d o takéhoto f o r m á t u b e z p l a t n e previesť.. • Sprístupnenie z a jasne definovaných p o d m i e n o k užitia dát s m i n i m o m o b m e d z e n í - p o d m i e n k y n a užívanie m u s i a byť zverej nené a zreteľne a jasne definované.. • Dostupnosť p r e užívateľov p r i v y n a l o ž e n í minimálnych nákla d o v n a i c h získanie - žiadatelia m ô ž u z a poskytnuté dáta uhradiť m a x i m á l n u s u m u v o výške nákladov spojených s i c h p o s k y t n u tím. K v y m e d z e n i u otvorených dát je dôležité spomenúť, že p u b l i k o v a n í m otvorených dát i c h ďalej m ô ž u využívať p r á v n e subjekty, sú k r o m n é o s o b y a orgány verejnej správy. Verejná správa tiež drží aj veľké množstvo dát, ktoré n i e sú určené p r e širokú verejnosť. Takéto dôležité dáta n e m ô ž u byť publikované a n i v p r í p a d e , ak b y spĺňali vyššie u v e d e n é p o d m i e n k y . Podľa z á k o n a č. 111/2009 Sb., o z á k l a d ných registroch, sa k u všetkým údajom z o základných registrov musí pristupovať a nakladať individuálne. Podľa d o k u m e n t u No Turning Back On Open Data ( Z i g u r a t , 2020) sa dajú dáta rozdeliť n a dáta s ú k r o m n é h o s e k t o r u , verejnej správy a obyvateľov. V rámci prostredia otvorených dát, dáta cirkulujú m e d z i s a m o t n ý m i s k u p i n a m i . K a ž d ý p r v o k p o s k y t u j e dáta n i e l e n sebe, ale aj p r e ostatných. Verejná správa a s ú k r o m n ý sektor využívajú dáta predovšetkým o d občanov k prispôsobeniu p o s k y t o v a n i u služieb. V o všeobecnosti sa p r i publikácií dát treba najprv rozhodnúť, či sú dáta určené aj pre verejnosť, a podľa toho sa začať zaoberať ako b y sa p o d m i e n k a m vyššie dalo vyhovieť. Pokiaľ sú dáta nejakým spôsobom chránené, a ako c e l o k sa n e m ô ž u p o s k y t n ú ť verejnosti, treba hľadať cestu, ako b y b o l o m o ž n é zverejniť verejnosti a s p o ň o d v o d e n é dáta (napr. a n o n y m i z á c i o u ) . P r i dátach, ktoré sú zverejnené n a z á k l a d e p r á v n e h o p r e d p i s u je v ž d y v h o d n é brať d o úvahy aj i c h zverejnenie ako otvorené dáta. 4.
(15) i . O T V O R E N É DÁTA. Dála súkromného sektor.]. Dáta súkromného sektoru Dáta súkromného sektoru. Dáta obyvateľov. Poskytuje dáta pre. Používa dáta.... Zdroj: Deloitte LLP. O b r . 1.1: Ekosystém otvorených dát. 1.2. História otvorených dát. Otvorené dáta b o l i v dobe v z n i k u výsadou vyspelých demokratických krajín, a k ý m i sú U S A a Veľká Británia. P o s t u p n e sa k n i m pridávali ďalšie krajiny, ktoré m a l i z á u j e m v p o d p o r e o t v o r e n o s t i aj r o z v o j a i n t e r n e t u . V t o m t o r a n n o m o b d o b í sa j e d n á p r e d o v š e t k ý m o dáta štátnej správy, o ktoré stúpal z á u j e m spoločnosti. V dnešnej d o b e už dáta zasahujú skoro d o každého odvetvia. Dokážu ušetriť h r o m a d u financií, sú prínosom pre spoločnosť atď. 5.
(16) i . O T V O R E N É DÁTA. 1.2.1 História otvorených dát v U S A O otvorených dátach sa začína p o p r v ý k r á t neoficiálne hovoriť v de cembri r o k u 2007 v Sebastopoli ( C a l i f o r n i a , U S A ) . Zišla sa t u s k u p i n a tridsiatich ľudí so spoločnou iniciatívou slobodného šírenia softvéru. M e d z i v ý z n a m n é o s o b n o s t i stretnutia p a t r i l i p r o f e s o r i T i m O ' R e i l l y a L a w r e n c e Lessig. Spoločne v y t v o r i l i princípy, ktoré n á m dnes umož ň u j ú definovať otvorené dáta. Z á k l a d n o u m y š l i e n k o u je, ž e verejné dáta sú s p o l o č n ý m m a j e t k o m . P r o s t r i e d k y n a d o s i a h n u t i e tejto m y š l i e n k y sa týkali n a j m ä použiteľnosti a zdieľania, tj. presnejšie to sta n o v i l i n a t r o c h k o n c e p t o c h : transparentnost, účasť a spolupráca [2]. N a p r . p r o g r a m á t o r , ktorý m a l o c h o t u spolupracovať, b o l v y z v a n ý n a zdieľanie zdrojového k ó d u p o m o c o u verejných p l a t f o r i e m . Výstup T i m a O R e i l l y h o z konferencie b o l o a p l i k o v a n i e princípov otvorených z d r o j o v a i c h metód n a verejné záležitosti. Barack O b a m a v r o k u 2009 p o n á s t u p e d o B i e l e h o d o m u p o d p í s a l t r i p r e z i d e n t s k é m e m o r a n d a . D v e z n i c h sa týkajú otvorenej vlády, ktorej j e d n ý m z p i lierov sú otvorené dáta. Tieto m e m o r a n d a nastavili kultúru otvorených z d r o j o v n a verejnú činnosť, s nárokovaním t r o c h základných k o n c e p tov. Tento n á p a d a k o n c e p t y sú založené n a sprístupnení informácií s dôrazom n a i c h technickú a p r á v n u otvorenosť širokej verejnosti. 1.2.2 História otvorených dát vo Veľkej Británii V o Veľkej Británii sa v r o k u 2009 začína hovoriť o potrebe zverejne n i a dát o cestovných p o r i a d k o c h . M i n i s t e r s t v o d o p r a v y tak učinilo n a p o p u d niekoľkých britských autorít, k u k t o r ý m sa p r i d a l i vte dajší p r e m i é r G o r d o n B r o w n . C e s t o v n é p o r i a d k y b o l i d o tej d o b y k o m e r č n é dáta s d r a h o u l i c e n c i o u . M i n i s t e r s t v o čoskoro veľkú časť dopytovaných informácií z a d a r m o zverejnilo p r e kohokoľvek. Tento k r o k p r i v i e d o l v l n u nových aplikácií využívajúcich cestovné poriadky, a v z b u d i l veľký záujem spoločnosti o p o d o b n e dostupné dáta z iných oblastí.. 6.
(17) i . O T V O R E N É DÁTA. 1.3. Stupne otvorenosti dát. P o m o c o u s t u p n i c e o t v o r e n o s t i dát, k t o r ú n a v r h o l T i m B e r n e r s - L e e v r o k u 2010, je m o ž n é definovať k v a l i t u o t v o r e n o s t i dát. S t u p n i c a pozostáva z 5 stupňov a každému stupňu odpovedá určitá m i e r a otvo renosti. Obrázok (1.1) zachytáva s t u p n i c u vytvorenú T i m o m BernersL e e h o m [3].. Obr. 1.2: Päťhviezdičková s c h é m a otvorenosti dát. • * - Dáta sú dostupné n a internete, majú otvorenú licenciu. N a for m á t dát n i e je kladená žiadna p o d m i e n k a . P r í k l a d o m je v y t v o rený súbor formátu .pdf. • ** - Dáta sú prístupné n a internete, m u s i a mať strojovo čitateľnú f o r m u . S ú b o r s dátami sa m u s í skladať z o z n a k o v a mať určitú štruktúru. Vďaka tejto p o d m i e n k e sa dáta dokážu a u t o m a t i c k y spracovať. N a p r . tabuľka v o formáte .xls. • *** - Dáta sú prístupné n a internete, m u s i a mať strojovo čitateľnú f o r m u . S ú b o r s d á t a m i m á otvorený formát. P r e s p r a c o v a n i e je p o t r e b n ý software, p l n o h o d n o t n e stačí aj voľne prístupný. Príkladom sú súbory formátu .csv, .json alebo .xlsx. 7.
(18) i . O T V O R E N É DÁTA. • **** - D á t a sú p r í s t u p n é n a internete, m u s i a mať strojovo čita teľnú f o r m u . Súbor s dátami m á otvorenú f o r m u a vlastné U R I ( U n i f o r m Re-source Identifier). Vďaka tejto vlastnosti m ô ž u byť dáta presne identifikované a je možné sa n a ne odkazovať. N a p r . súbor formátu .rdf. • ***** - D á t a sú p r í s t u p n é n a internete, m u s i a mať strojovo čita teľnú f o r m u . Súbor s dátami m á otvorenú f o r m u a vlastné U R I . Dáta m u s i a byť m e d z i s e b o u n a v z á j o m p r e p o j e n é , p o m o c o u čoho sa dajú určiť i c h spoločné p r v k y (kontext d á t ) . Príkladom m ô ž e byť z n o v u súbor s formátom .rdf.. 8.
(19) 2 Otvorené dáta a zdravotníctvo (výhody a ne výhody) Spoločnosti p o c e l o m svete v dnešnej d o b e dbajú n a p o t r e b n ú d i g i talizáciu v o s v o j o m odvetví, zdravotníctvo n i e je ž i a d n o u v ý n i m k o u . Peniaze putujú d o nových technológií, ktoré používajú pokročilé algo r i t m y p r e spracovanie a analýzu dát p r e p r e d p o v e d a n i e zdravotným potrebám ľudí. Otvorené dáta m ô ž u v oblasti zdravotníctva pochádzať z rôznych zdrojov, o d lekára až p o t r h s l i e k m i . Dôležité je n á s l e d n é v y h o d n o tenie, ktoré m ô ž e p o s k y t n ú ť presnejší o b r a z v p r o b l e m a t i k e . V ď a k a tejto možnosti d o k á ž u zdravotníci poskytnúť kvalitnejšiu zdravotnú starostlivosť. P o d o b n e s i m ô ž e lekár pospájať príčiny zdravotného p r o b l é m u , ktoré b y n e m u s e l zbadať p r i klasickej diagnostike. Ď a l š í m cieľom dát je p r e d p o v e d a n i e a nájdenie riešenia p r e z d r a votné problémy, ešte p r e d tým, ako sa stihnú n a p l n o prejaviť. Takisto sa dá m n o h ý m ťažkostiam predísť, čo j e d n o z n a č n e z v y š u j e k v a l i t u života. V n e p o s l e d n o m r a d e d o k á ž e analýza dát odhaliť ľudí, ktorí o sebe poskytujú nepravdivé informácie, alebo sa pokúšajú o poistné podvody.. 2.1. Poskytovanie a otvorenosť dát (podľa Zákona č. 106/1999 Sb.). Subjekty, ktoré m a j ú podľa § 2 odst. 1 z á k o n a č.106/1999 Sb. p o v i n nosť poskytovať informácie p r e verejnosť vzťahujúce sa k činnosti i c h pôsobenia, sú štátne orgány, ú z e m n é samosprávne c e l k y a i c h or gány a verejné inštitúcie. Subjekty poskytujú informácie zverejnením alebo n a z á k l a d e žiadosti. O t v o r e n é dáta sa zverejňujú diaľkovým prístupom v o t v o r e n o m a strojovo čitateľnom formáte. P r i zverejnení sú informácie p o s k y t n u t é v o všetkých f o r m á t o c h a j a z y k o c h , v ktorých b o l i vytvorené. S p o l u s informáciami sa o d o p o ručujú zverejniť aj prislúchajúce metadáta. K takýmto informáciám m á prístup n e o b m e d z e n ý o k r u h ľudí. P r i poskytovaní informácií n a zá k l a d e žiadosti, subjekt p o s k y t n e žiadateľovi informácie v r á t a n e m e tadát podľa r o z s a h u žiadosti. Žiadateľ m ô ž e s informáciami narábať 9.
(20) 2 . O T V O R E N É DÁTA A Z D R A V O T N Í C T V O ( V Ý H O D Y A N E V Ý H O D Y ). l e n v súlade v r o z s a h u žiadosti. Subjekt nie je povinný vyvinúť n e p r i m e r a n ú záťaž spojenú s úpravou formátu a j a z y k u kvôli špecifickým požiadavkám žiadateľa. Informácie sa podľa o b e c n é h o z á k o n n é h o p o ž i a d a v k u verejnej správy Českej r e p u b l i k y p o s k y t u j ú čo najviac otvorené. Z definícií otvorených dát podľa § 3 a § 4 zákona 106/1999 Sb. prislúcha stupeň otvorenosti s t r o m i hviezdičkami. P r i zverejnení sa odoporúča stupeň s p i a t i m i hviezdičkami.. 2.2. Ochrana osobných údajov. P o d p o j m o m o s o b n ý údaj sa r o z u m i e akákoľvek informácia, ktorá sa týka fyzickej osoby. Každá osoba je nositeľom presných osobných úda jov, ktoré j u robia unikátnymi. A k je nejaký údaj dostatočne v y p o v e d a júci, hovorí sa o priamej identifikácii osoby. P r i nepriamej identifikácii sa myslí proces, p r i k t o r o m sa p o m o c o u viacerých údajov dokáže i d e n tifikovať osoba, nakoľko samotné údaje sú samé o sebe nedostačujúce. Osobné údaje majú potenciál k identifikácii, preto spadajú p o d zákon č. 110/2019 Sb. ( Z á k o n o zpracování o s o b n í c h ú d a j ů ) . Pokiaľ sa i n formácie obsiahnuté v otvorených dátach dotýkajú vecí, javov alebo ostatných entít rozličných o d človeka ako osoby, nespadajú p o d zákon o spracovaní osobných údajov. Podľa čl. 9 E Ú o G D P R sa dovoľujú spracovávať osobné údaje z dô v o d o v verejného z á u j m u v oblasti verejného z d r a v i a , p r e účely p r e ventívneho alebo pracovného lekárstva, alebo p r e štatistické účely. P r i otvorených dátach treba rozlíšiť d v a d r u h y správcov osobných údajov [4], n a poskytovateľov a žiadateľov otvorených dát [5]. Poskytovatelia zvyčajne spracovávajú informácie s o s o b n ý m i údajmi z o zákonnej p o v i n n o s t i , ktorá m ô ž e vyplývať z právneho p r e d p i s u . Žiadatelia n á sledne príslušné dáta s o s o b n ý m i údajmi m ô ž u využiť p r e vlastnú spotrebu a informovanosť. 1. 1. P r e s n é z n e n i e n a r i a d e n i a d o s t u p n é n a h t t p s : / / w w w . p r i v a c y - r e g u l a t i o n . e u / sk/9.htm.. 10.
(21) 2 . O T V O R E N É DÁTA A Z D R A V O T N Í C T V O ( V Ý H O D Y A N E V Ý H O D Y ). 2.3. Zdravotnícke dáta v Českej republike. V Českej r e p u b l i k e z b i e r a dáta z oblasti zdravotníctva Ústav zdravot níckych informácií a štatistiky Českej r e p u b l i k y ( Ú Z I S ) . Ústav b o l založený M i n i s t e r s t v o m zdravotníctva Č R v r o k u 1960 [6] a je správ c o m Národného zdravotníckeho informačného systému ( N Z I S ) podľa z á k o n a č. 372/2011 S b . . Ú Z I S je súčasťou štátnej štatistickej s l u ž b y s p o l u p r a c u j e s Č e s k ý m štatistickým ú r a d o m a zabezpečuje prepoje nie m e d z i N Z I S a samotnými poskytovateľmi zdravotníckych služieb. P o s k y t o v a t e l i a zdravotnej starostlivosti s ú p o v i n n í zasielať správy o údajoch d o ÚZIS periodicky. K hlavným úlohám ÚZISu patrí n i e l e n zber, ale aj s p r a c o v a n i e informácií o z d r a v o t n o m stave a zdravotnej starostlivosti, správa národných zdravotných registrov a poskytovanie informácií. N a nadnárodnej úrovni ÚZIS predkladá oficiálne informá cie z a Č e s k ú r e p u b l i k u organizáciám a k o n a p r . W H O , O S N , O E C D 2. [7]P r i spracovaní o s o b n ý c h údajov v rôznych častiach N Z I S m u s í byť k a ž d ý j e d e n z á z n a m spracovaný v súlade s n a r i a d e n í m E u r ó p skeho p a r l a m e n t u a R a d y ( E U ) 2016/679 z o dňa 27.4.2016 o ochrane fyzických osôb s ohľadom n a s p r a c o v a n i e o s o b n ý c h údajov a o voľ n o m p o h y b e týchto údajov, k t o r ý m sa zrušuje s m e r n i c a 95/46/ES ( v š e o b e c n é n a r i a d e n i e o ochrane ú d a j o v ) , a z á k o n č. 110/2019 S b . o spracovaní osobných údajov, v znení neskorších p r e d p i s o v . V súčasnej dobe počas celosvetovej p a n d e m i e sa v Českej r e p u b l i k e s p o m e d z i zdravotníckych dát najviac navštevuje portál o štatistikách koronavírusu . Dostupné surové dáta sú pre používateľov j e d n o d u c h o graficky znázornené. Takéto znázornenie zahŕňa množstvo procesov o d samotného z b e r u údajov o d zdravotníckych poskytovateľov až p o samotnú vizualizáciu dát a štatistiku návštevnosti [8]. 3. 4. 5. 2. P r e s n é z n e n i e z á k o n a d o s t u p n é n a h t t p s : / / w w w . z a L k o n 3 r p r o l i d i . c z / c s / 2011-372. 3. C e l é n a r i a d e n i e d o s t u p n é n a h t t p s : / / w w w . p r i v a c y - r e g u l a t i o n . e u / s k / 4. 5.. P r e s n é z n e n i e z á k o n a d o s t u p n é n a h t t p s : //www. e p i . s k / z z c r / 2 0 1 9 - 1 1 0 https://koronavirus.mzcr.cz/. 11.
(22) 3 Národný katalóg otvorených dát N á r o d n ý katalóg otvorených dát ( N K O D ) je d o s t u p n ý n a Portále verejnej správy Č R . Prevádzkovateľ portálu M i n i s t e r s t v o vnútra Č R si p r i v z n i k u d a l o z a cieľ n a j e d n o m mieste evidovať a publikovať zverejnené dáta z o s e k t o r u verejnej s p r á v y ( M V Č R , 2020). Z tohto dôvodu sa postupne zlepšila dostupnosť samotných dát a i c h častejšie využívanie. Katalóg p o n ú k a j e d n o d u c h š i u orientáciu a aj vyhľadávanie otvo rených dát podľa rôznych filtrov. S a m o t n é využitie vyhľadaných dát poslúži n i e l e n p r e n e k o m e r č n é , ale aj k o m e r č n é účely. N a portáli sú prehľadným s p ô s o b o m uvedené informácie p r e záujemcov, p o s k y t o vateľov aj užívateľov o otvorené dáta. N K O D umožňuje d v a spôsoby, podľa ktorých sa dáta m ô ž u p u b l i kovať. Prvá možnosť je registrácia lokálneho katalógu otvorených dát, z ktorého sa v budúcnosti p e r i o d i c k y a a u t o m a t i c k y sťahujú metadáta s p o l u s dátami. Táto m o ž n o s ť je v h o d n á p r e úrady, ktoré m a j ú p o trebu častejšej publikácie dát. D r u h o u možnosťou je manuálne p r i a m e v k l a d a n i e súborov (dáta s p o l u s m e t a d á t a m i ) . V katalógu sa nachádza 45 poskytovateľov dát ( k u dňu 22.5.2021), z toho 28 poskytovateľov prevádzkuje n a portáli riadne zaregistrovaný lokálny katalóg. K a t a l ó g obsahuje v i a c n e ž 136 tisíc dátových sád a n a j v ý z n a m n e j š í m poskytovateľom je Č e s k ý ú r a d z e m e m e r a č s k ý a katastrálny. Tieto dátové s a d y sú rozdelené d o 180 tém, ktoré m ô ž e užívateľ využiť pre lepšie dohľadanie požadovaných dát. Pokiaľ nie je uvedené inak, je autorský a databázovo chránený o b s a h publikovaný p o d l i c e n c i o u Creative Commons Attribution 4.0. 1. 3.1. CKAN. C K A N ( C o m p r e h e n s i v e K n o w l e d g e A r c h i v e N e t w o r k ) je nástroj n a t v o r b u w e b o v ý c h stránok o d á t a c h . U m o ž ň u j e i c h s p r a v o v a n i e a p u b l i k o v a n i e . Bežne h o prevádzkujú organizácie a inštitúcie, ktoré 2. 1. h t t p s : / / d a t a . g o v . c z / 2. h t t p s : / / c k a n . o r g /. 12.
(23) 3- N Á R O D N Ý K A T A L Ó G O T V O R E N Ý C H DÁT. zbierajú m n o ž s t v o údajov v o b l a s t i p ô s o b e n i a . Je to softvér s otvore n ý m zdrojovým k ó d o m , k o m u n i t a h o neustále vyvíja a udržiava. C K A N d i s p o n u j e p r í j e m n ý m A P I , postačuje p r e správu z o b r a z o v a n i a o b s a h u p r e používateľov. Pokročilejšie nastavenia správcov s ú vykonávané p o m o c o u príkazového r i a d k u . Používa svoj vlastný m o del n a u k l a d a n i e metadát z rozličných záznamov a prezentuje i c h pre žiadateľov. Každý súbor m á svoju vlastnú stránku z o z o z n a m o m zdrojov a metadátami. S p o l u sa z o súborov vytvára prehľadný a hodnotný katalóg dát. D á t a je m o ž n é pridávať d o skupín, a v o vyhľadávaní je m o ž n é prehľadávať aj i c h samotný obsah. D o katalógu je možné pridať veľkú r a d u rozšírení , ale aj vlastne vytvorené p r e konkrétnu f u n k c i o n a l i t u . 3. 3.2. Katalóg otvorených dát Ministerstva zdravotníctva Českej republiky. M i n i s t e r s t v o zdravotníctva v spolupráci s Ú Z I S Č R p r e v á d z k u j e l o kálny katalóg otvorených d á t . Využíva n a to o p e n - s o u r c e softvér katalógu C K A N . Podľa n a r i a d e n i a vlády č. 425/2016 S b . je Ú Z I S Č R ako správca N á r o d n é h o registra poskytovateľov zdravotníckych s l u žieb ( N R P Z S ) p o v i n n ý poskytovať údaje n a c h á d z a j ú c e sa v registri vo forme otvorených dát. Ú Z I S Č R sa snaží d l h o d o b o katalóg zapĺňať a t e c h n i c k y zabezpečovať. 4. 5. Zverejňovanie dátových s a d závisí o d p o v a h y dát, ktoré p o c h á dzajú b u ď z Národného informačného zdravotníckeho systému alebo jednotlivých registrov. Zverejnené informácie m u s i a byť v súlade s p r a v i d l a m i p r e otvorené dáta riadne popísané, aby nedochádzalo k m o ž nej dezinterpretácií. O katalóg sa stará p o grafickej stránke W e b s t u d i o ÚZIS Č R [9]. V katalógu sa n a c h á d z a 87 dátových sád ( k u d ň u 22.5.2021) a 70 organizácií, ktoré m ô ž u vytvárať, spravovať a publikovať k o l e k c i e dátových sád. Jedná sa o organizácie, ktoré pôsobia v oblasti zdravot-. 3. h t t p s : / / c k a i i . o r g / f e a t u r e s / 4. h t t p s : / / o p e n d a t a . m z c r . c z / 5. P r e s n é z n e n i e z á k o n a d o s t u p n é 2016-425.. na. https://www.zakon3rprolidi.cz/cs/. 13.
(24) 3- N Á R O D N Ý K A T A L Ó G O T V O R E N Ý C H D A T. K a t a l o g otevřených d a t Ministerstvo zdravotnictví České republiky ŕí. Datové sady T Organizace. Vyhledat datové sady... Zobrazit pouze populárni Organizace 2 datasety nalezeny. COVID-19: Přehled vykázaných očkováni podle očkovacích mist ČR. COVID-13: Přehled vykázaných očkováni podle krajů ČR Datová sadr. ccGliytujc Jiii-jgovarř. .;atr. •; vykázan/cn očkováním na ú :oů=: vykázaných očkováni v oaněm ani. za VĚKOVOU skupinu, s. Vyuziván •. ckan. Obr. 3.1: K a t a l o g otvorených dát M i n i s t e r s t v a z d r a v o t n i c t v a Č R níctva. Všetky publikované dátové sady majú p o v a h u zdravotníckeho charakteru. 3.2.1. Príklad dátovej sady. Z katalogu s o m v y b r a l j e d n u dátovú sadu pre popis, názov sady je COVID-19: Přehled vykázaných očkování podle krajů ČR . O d p o v e d á p o s t u p u očkovania p r o t i k o r o n a v í r u s u naprieč k r a j m i Č R . H n e d p o otvorení m á m e m o ž n o s ť vidieť p o d n á z v o m jej p o p i s . Ďalej sa n a chádza sekcia so s a m o t n ý m s ú b o r o m s dátami a kľúčovými s l o v a m i . P o d s e k c i o u je tabuľka s doplňujúcimi údajmi o dátovej sade, m á m e m o ž n o s ť v nej nájsť kľúčové informácie a k o autor, d á t u m p o s l e d n e j zmeny, o d k a z n a licenciu, poskytovatel', periodicita aktualizácie a p o d . 6. 6. D á t o v á s a d a d o s t u p n á n a a d r e s e : h t t p s : / / o p e n d a t a . m z c r . c z / d a t a s e t / covid-19-prehled-vykázaných-ockovani-podle-kraju-cr. 14.
(25) 3-. N Á R O D N Ý KATALÓG OTVORENÝCH. K a t a l o g otevřených d a t. Datovs sady. DÁT. Organ. ié republiky «. Organizace. UZISCR. COVID-19: Přehled... COVID-19: Přehled tt Skupiny. vykázaných očkovaní podle. O Udalosti. krajů ČR. COVID-19: Přehled vykázaných očkování podle krajů ČR Datová sada poskytuje agregovaná data c v;. kázsKci o': ková i'i ľ r s Jrovi •::a]Ĺ CR. <=žď;.' 'á::e-; ořehledu popisuje :oče: vyká z a rycí očkováni v daném dni. za věkovou ski. c u ; pc.ižíťir :;-=ré oifcíivacíá:k;. = ve vypraném kraji. Za jeden den tedy přehled obsahu e r?x Tálrí X iádkč. -tle X = oočet -cajč í'4) x oočet věícvyc ľ ski.:: i (15) x počet c.ihí. očkovaccn látř-: ••»• ok=rž CL I; k=ce 2) = 5;C D=:a SOL =-".ializována k času 20.00 b předchozího dne a mohou se zpětně nÍTiě měnit z cl jvodu průběžného doplňování.. ÚZIS UZIS CR. Data a zdroje COVID-19: P. „VB-,,. «. „. d vykázaných očkování podle .... _. « „ «. ««d»». Äo.äsKup.,. Doplňující informace. Ústav zdravotnických informací a statistiky ČR (LIZIS ČR) je organizační složkou státu, jejírrž zizov=te en je Ministerstvo zdravotnictví ČR a je správcem Národního... načíst další B Sdílet. Pole. Hodnota. Správce. Martin Komenda. Naposledy aktualizováno. 23 Květen 2021, 8 07 (UTC+02:00). Vytvořeno. 25 leden 2021,10:02 (UTC+01:00). Odkaz na podmínky užiti. https7rdata.gov.cz/podm%C3%ADnky-u%C5%BEit %C3 % A D/voln %C3% BD-p % C5%99%C3% ADstll p/. Poskytovatel dat. ÚZIS ČR. Periodicita aktualizace. R/P1D. • Twitter n Facebook. Cs:atrí :;Otsyená cs-ioe) ;. URI souvisejícího geografického území. https: in i n ke 3. c i. z <. cz. • e ; o JT e. ru i a n/stat/1. Typ územního prvku RÚIAN. ST. ;. ;. Kód územního prvku RÚIAN Klasifikace dle EUROVOC. http Weu rovoc.e uropa eu/837. Katalog otevřených dat. Využíván. c KANAPI. H ckan. Asociace CKAN. J a l y k :. O b r . 3.2: Náhľad dátovej s a d y s v y k á z a n ý m i očkovaniami P o kliknutí n a dátový súbor sa d o s t a n e m e n a stránku, ktorá uvá d z a bližšie informácie o súbore s dátami. M á m e možnosť s i i c h hneď pozrieť, takisto ako aj schému dátového zdroja s ďalšími informáciami. V tabuľke je zobrazený formát samotných dát a k o aj dátovej schémy. Tie sú doplnené o p o d m i e n k y užívania a potrebné dátumy.. 15.
(26) 3-. N Á R O D N Ý KATALÓG OTVORENÝCH. K a t a l o g otevřených d a t. Datovs sady. DÁT. Organ. ié republiky #. Organizace. UZIS C R. COVID-19: Přehled.... COVID-19: Přehled... COVID-19: Přehled vykázaných očkování podle ... URL: https://oriernocrieri-aktualne.mzcr.cz/api/v2/covid -19/ockovan i. csv Datová sada poskyt.ije ž.z'izz-. 3-\á ;:a:a z- ~:ázarýcl~ cí-Bváríci i?. Ľ. r i kraji Ó=: íaždý fádek přehledu popisuje počet vy kázaných očkování v daném dni. za vekovou skupinu, s použitiu v;. Ijraié ;č-:c/a-:' Ištky a /e v;, biaréir -;'=ji Za jeden den tedy přehled obsatiuje maximÉlrě X VäclKČ. -tie X = COÍŤ: -raju (14) x počet vekový cti skupin (15) x počet druhu očkovacie!" late Í :V o<aiižik pL.:ľ -;ace 2: = 630. D?, ta jsoi a-~.i=lizov=ia k ča;i. 20 DC i předchozí ne zre a rrciou se zpětné mírně měnit z důvodu průběžného doplňováni. :. M Prohlížeč dat X Na celou obrazovku. Grid. Graph. datum. Map vakcína. 1000 records. «. 1-100. Kraj nuts kod. s. Q.. kraj naze.. veková skupina. </> Zakomponovat. | Go». Search data.... prvnien dave* drunycn davek. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 18 24. 48. 0. 48. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 25 29. 109. 0. 109. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 30 34. 102. 0. 102. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 35 39. 111. 0. 111. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 40 44. 172. 0. 172. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 45 49. 156. 0. 156. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 50 54. 12B. 0. 12B. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 55 59. 96. 0. 96. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 60 64. 85. 0. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 65-69. 79. 0. 79. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 70-74. 48. 0. 48. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 75 79. 19. 0. 19. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. 80. 24. 0. 24. 202C-1 Ji. n.ily. t:/ti 0. Hlavn msto Praha. ne. 2. 0. 2. celkem davek. 85. 202C-1 J i. n.ily. C/UM. loncavik ki j. 25 29. 3. 0. 3. 202C-1 J i. n.ily. C/UM. loncavik ki j. 30 34. 7. 0. 7. 202C-1 J i. C:i. n.ily. C/UM. loncavik ki. 35 39. 3. 0. 8. 202C-1 J i. C:i. n.ily. C/UM. loncavik ki. 40 44. 6. 0. 6. 202C-1 J i. C:i. n.ily. C/UM. noncavšk ki Jj. 45-49. 10. 0. 10. 202C-1 J i. C:i. n.ily. C/UM. noncavšk ki äj. 50-54. 14. 0. 14. 202C-1 J i. C:i. n.ily. C/UM. noncavšk ki Jj. i 55-59. 11. 0. 11. 202C-1 J i. C:i. n.ily. C/UM. loncavik ki j. 60-64. 10. 0. 10. 202C-1 J i. C:i. n.ily. C/UM. noncavšk ki ]j. j 65-69. 2. 0. 2. Další informace B Sdílet • Twitter CJ Facebook. Pole. Hodnota. Naposledy aktualizováno. Květen 24. 2021. Vytvořeno. Leden 25, 2021. Formát. application/csv. Odkaz na podmínky užiti. .gov.cz/podmin ky-užití vc •íý-píísMp. Dotčené časové období od. 2020- 12-27. Dotčené časové období do. 2021- 05-24. Odkaz na schéma datového z: Formát schématu datového zdroje. applicat o'v'csvn-jsor. Obr. 3.3: Informácie o dátovom súbore s v y k á z a n ý m i očkovaniami. 16.
(27) 4 Metodika publikácie otvorených dát V tejto kapitole sa popisujú potrebné procesy pre publikáciu otvorenej dátovej s a d y n a portál otvorených dát.. 4.1. Plánovanie publikácie otvorených dát. N a začiatku sa vyberajú potenciálne dátové sady vhodné pre p u b l i k o v a n i e . P r e d c h á d z a t o m u aj overenie, či d á t o v ú s a d u už n e p o s k y t u j e iná inštitúcia. Treba zvážiť prekážky, ktoré b y m o h l i z n e m o ž ň o v a ť p u b l i k á c i u dát (citlivé o s o b n é údaje, firemné tajomstvo, n e v h o d n é i n f o r m á c i e . . . ) . Prínos dát b y m a l prevažovať n a d n e g a t í v n y m i dô s l e d k a m i . F o r m á t dát je v h o d n é publikovať v otvorenej f o r m e p r e všetkých žiadateľov a strojovo čitateľnej p o d o b e , čo odpovedá „trom h v i e z d i č k á m " podľa m o d e l u (viď obrázok 1.2), v k a p i t o l e 1.3. Návrh n a p o s k y t o v a n i e dát je m o ž n ý d v o m i spôsobmi, voľne stiahnuteľný alebo d o s t u p n ý p r o s t r e d n í c t v o m služieb, ktoré m ô ž u z a hŕňať p o p l a t k y spojené s p u b l i k á c i o u samotných dát. V ý š k a p o p l a t kov sa n a začiatku plánovania o d h a d n e podľa náročnosti spracovania a nákladov p u b l i k o v a n i a dátovej sady. P o p l a t k y sa však m ô ž u meniť p o č a s celého p r o c e s u p u b l i k o v a n i a dát. V sektore zdravotníctva n i e všetky dáta sú voľne dostupné vzhľadom n a citlivosť a p o v a h u dát. Dátové s a d y sa n e m u s i a publikovať n a r a z (napr. z d ô v o d o v ča sových, t e c h n i c k ý c h ) , ale sa m ô ž u rozdeliť d o viacerých etáp. E t a p y sa zvyčajne publikujú podľa stupňa dôležitosti p r i o r i t y dátových sád. Etapa zahŕňa z o z n a m jednotlivých úloh. Plánovanie publikácie je príp r a v o u n a jej samotnú realizáciu, ktoré zahŕňa: • stanovenie cieľov, ktoré sa d o s i a h n u otvorením dát, • h a r m o n o g r a m , podľa ktorého sa realizujú jednotlivé úlohy, • financovanie jednotlivých úloh, • zodpovednosť z a v y k o n a n i e úloh, • p o p i s rizík, ale aj prínosov p r i samotnej realizácií. 17.
(28) 4- M E T O D I K A P U B L I K Á C I E O T V O R E N Ý C H DÁT. 4.2. Príprava publikácie. 4.2.1. Návrh odstránenia citlivých údajov. A k o p r v ý k r o k treba d ô k l a d n e skontrolovať dáta, aby n e o b s a h o v a l i citlivé údaje. P r e k á ž k o u v o zverejnení m ô ž e byť napr. o c h r a n a osob ných údajov (viď k a p i t o l a 2.2), p r e t o je n u t n é navrhnúť efektívny spôsob ú p r a v y dát. N a v r h n u t ý spôsob sa d o s i a h n e a n o n y m i z á c i o u alebo a g r e g á c i o u dát. A n o n y m i z á c i a zaručuje, že p o úprave dát ne b u d e m o ž n é identifikovať jednotlivé subjekty. P r i agregácii sa dáta zlučujú, z jednotlivých subjektov sa vytvára s k u p i n a so s ú h r n n ý m i ú d a j m i o subjektoch. V p r í p a d e b u d ú c e j aktualizácie dát je v h o d n é spôsob anonymizácie/agregácie p l n e zautomatizovať, alebo previesť manuálne, čo p r i m e n š o m množstve dát zohľadňuje časovú a finančnú úsporu. 4.2.2. Návrh štruktúry dát. Jednotlivé p o l o ž k y v dátovej sade p o p i s u j e dátová s c h é m a . P r e l e p šiu predstavivosť dát, ktoré b u d ú publikované, je v ý h o d n é navrhnúť schému dátovej s a d y v o formáte X M L . Alternatívou môže byť schéma zapísaná p o m o c o u U M L , alebo p o m o c o u entitno-relačného d i a g r a m u . Tie v š a k n i e sú strojovo čitateľné. V ý s l e d n ý d i a g r a m obsahuje j a s n ý a zrozumiteľný n á v r h riešenej oblasti, definície atribútov a i c h v z á j o m n é väzby, zachováva r e a l i t u štruktúry, je štandardizovaný a d o p l nený aj s p r i e v o d n o u dokumentáciou. Podľa štruktúry dát sa n a v r h n e aj v h o d n ý formát dát. Pokiaľ sa nachádzajú v dátovej sade názvy územných celkov, krajov, miest je vhodné použiť kódy z už existujúcich číselníkov ( N U T S , L a u ) . Číselníky sú súčasťou štatistického informačného systému, priebežne sa aktualizujú. 1. 4.2.3. Licencia otvorených dát. P r i otvorených dátach je dôležité stanoviť si p o d m i e n k y a l i c e n c i u , p o d k t o r o u majú byť publikované, aby b o l a zaručená i c h právna istota 1. Č í s e l n í k y okresov podľa ČSÚ: https://www.czso.cz/csu/rso/ okres-dle-statisticke-klasifikace-nuts-lau. 18.
(29) 4- M E T O D I K A P U B L I K Á C I E O T V O R E N Ý C H DÁT. a praktická využiteľnosť. Žiadateľ m u s í byť informovaný o p o d m i e n k a c h , p r i ktorých m ô ž e používať dátovú s a d u . P o d m i e n k y m u s i a byť verejne dostupné, a je potrebné aby o b s a h o v a l i o d k a z n a l i c e n c i u . A k o j e d n a z o š t a n d a r d n e p o u ž í v a n ý c h licencií je C C - B Y 4.0 - L i cence C r e a t i v e C o m m o n s A t t r i b u t i o n 4 . 0 . Táto l i c e n c i a sa m ô ž e v y užívať, keď je p o t r e b n é uviesť a u t o r a dát alebo pokiaľ n i e je m o ž n é vzdať sa práv a sprístupniť dáta k voľnému používaniu. 2. 4.2.4. Metadata. P r i procese t v o r b y dátovej s a d y je k nej p o t r e b n é pridať p o p i s v o forme metadát, b e z n i c h b y dátová sada n e m o h l a existovať. M e t a d a t a sú štruktúrované údaje a poskytujú informácie o primárnych dátach. Pomáhajú užívateľom lepšie pochopiť v ý z n a m dát, i c h štruktúru. "Zni žujú riziko nesprávnej interpretácie datasetu a uľahčujú prácu vývojárov a ostatným používateľom údajov." [10] Pre publikáciu dát je potrebné vytvoriť katalogizačný záznam o dá tovej sade. Z á z n a m sa skladá z d v o c h častí. P r v á časť obsahuje m e tadata n e s ú c e informácie o samotnej dátovej sade, t.j. n á z o v ( t i t u l ) , p o p i s , kategória ( t é m a ) , kľúčové slová ( t a g y ) , ú z e m i e , p e r i o d i c i t a aktualizácie a t ď D r u h á časť obsahuje m e t a d a t a o distribúcii dátovej sady, m u s í zahŕňať l i c e n c i u , o d k a z n a dátový súbor a formát súboru dát.. 4.3. Publikácia dát. 4.3.1 Príprava a validácia dát P r i procese prípravy dát sa dáta t r a n s f o r m u j ú d o cieľovej štruktúry a f o r m á t u tak, a b y z o d p o v e d a l i v o p r e d n a v r h n u t ý m p l á n o m . V prí pade aktualizácie publikovanej distribúcie sa nemusí nutne nevytvárať nová, stačí j u aj aktualizovať. Po príprave je potrebné dáta overiť (validovať). Z o d p o v e d n á osoba s k o n t r o l u j e či transformácia a p r í p a d n á anonymizácia / agregácia prebehla korektne. Pokiaľ sú v dátach objavia zanesené chyby, je v h o d n é i c h zanalyzovať a opraviť.. 2.. https://creativecommons.org/licenses/by/4.0/legalcode. 19.
(30) 4- M E T O D I K A P U B L I K Á C I E O T V O R E N Ý C H DÁT. 4.3.2 Zverejnenie dátovej sady Hotová dátová s a d a je pripravená k s a m o t n é m u z v e r e j n e n i u n a i n ternete. S p o l u s m e t a d á t a m i sa n a h r á n a úložisko, z k t o r é h o b u d e dostupná p r e žiadateľov z internetu. V Českej r e p u b l i k e sa štandardne dáta nahrávajú n a portál Národného katalógu otvorených dát ( N K O D , data.gov.cz) alebo d o vlastného l o k á l n e h o k a t a l ó g u , ktorý je r i a d n e zaregistrovaný v N K O D a spĺňa Otvorené formálne n o r m y R o z h r a n i a katalógou otvorených dát [11]. Po nahratí sa dátová s a d a k a t a l o g i z u j e . Portál N K O D d i s p o n u j e f o r m u l á r o m v k t o r o m je nutné vyplniť údaje o dátovej sade a jej distri búcii. Taktiež ponúka aj možnosť nahratia samotnej dátovej sady, takže nie je j u nutné nahrávať n a úložisko. V prípade lokálneho katalógu sa dátová s a d a s p o l u s distribúciou d o N K O D načíta celá a u t o m a t i c k y . Týmto s p ô s o b o m sa v ý r a z n e šetrí a g e n d a spojená s katalogizáciou. N a prípadné nedostatky p r i katalogizácii je tvorca upozornený, a p r e ú s p e š n ý z á z n a m je p o t r e b n é i c h odstrániť. P u b l i k o v a n e j sade treba zabezpečiť p o d o b u jej p l a t n o s t i dostupnosť. 3. 4.4. Udržiavanie dát. Dátovej sade treba zaistiť aktualizácie podľa definovanej p e r i o d i c i t y . V ä č š i n o u d o c h á d z a k p u b l i k o v a n i u prírastkových dát alebo z m i e n v d á t u m o c h . A j p r i aktualizácii treba venovať pozornosť k v a l i t e dát, aby nedochádzalo k n e p r e s n o s t i a m a neúplnostiam. Dáta stále o d p o vedajú p r v o t n ý m n á v r h o m , ktoré sa m ô ž u prispôsobiť n a špecifické požiadavky pre potrebné obdobie. Katalogizačný záznam je potrebné aktualizovať tiež, n a j m ä d á t u m p o s l e d n e j aktualizácie a o d k a z n a aktuálne dáta. Všetky z m e n y v lokálnom katalógu sa d o N K O D auto m a t i c k y načítavajú. Pre hladký c h o d poskytovatelia dát dodržujú komunikačnú straté g i u . V p r i e b e h u d o b y b y m a l a v h o d n e reagovať n a aktuálne z m e n y v rámci komunikácie.. 3.. https://data.gov.cz/formulář/registrace-datové-sady. 20.
(31) 4- M E T O D I K A P U B L I K Á C I E O T V O R E N Ý C H DÁT. 4.4.1. Z á n i k dát. P o istej d o b e m ô ž u dáta tratit n a v ý z n a m e , n a p r . v d ô s l e d k u z m e n y legislatívy, ktorá ďalej n e u m o ž ň u j e zbierať určité dáta, alebo z á n i k u a postupného u p a d a n i a o d v e t v i a z ktorého pochádzajú. Pokiaľ dôjde k u k o n č e n i u z b e r u dát, a n i e je z a k á z a n é publikovať už v o p r e d z o zbierané dáta, m ô ž e orgán verejnej správy r o z h o d n ú ť o p o n e c h a n í publikovanej dátovej sady. Tým sa zabezpečí funkčnosť služieb, ktoré j u stále požívajú. Ďalej je nutné rozhodnúť o udržovaní dátovej sady, t.j. aby sa o p r a v o v a l i p r í p a d n é n e d o s t a t k y n á j d e n é v dátovej sade alebo n i e . Túto skutočnosť treba aktualizovať v katalogizačnom zázname. V prípade že sa n a h r a d í dátová s a d a s u k o n č e n o u ú d r ž b o u n o v o u , je v h o d n é túto informáciu tiež uviesť v katalogizačnom z á z n a m e a odkázať n a novú dátovú s a d u . O d m o m e n t u , keď n i e je m o ž n é ďalej poskytovať dátovú s a d u , dochádza k ukončeniu jej p o s k y t o v a n i a . N a v r h n e sa plán n a riadený z á n i k p u b l i k á c i e dát. Pokiaľ n i e je dovolené p u b l i k á c i u n a z á k l a d e legislatívy naďalej sprístupňovať, je potrebné zrušiť jej p u b l i k o v a n i e d o stanoveného d á t u m u . V o b o c h p r í p a d o c h b u d e aj naďalej evidovaná v k a t a l ó g u , avšak už b u d e o z n a č e n á a k o s a d a s v y p r š a n o u l e h o t o u sprístupnenia.. 21.
(32) 5 Praktická časť: Publikácia dátovej sady Táto praktická k a p i t o l a sa zaoberá p o s t u p o m a prípravou už v o p r e d pozbieraných dát n a dátovú s a d u určenú k publikácii. Motiváciou k v y t v o r e n i u tejto dátovej sady b o l o prepojenie d v o c h samostatných číselníkov, používaných v d v o c h rôznych inštitúciách ve rejnej správy. Následné spojenie v novo vytvorenej dátovej sade uľahčí prácu týmto inštitúciám p r i práci s o b c a m i s rozšírenou pôsobnosťou.. 5.1. Dátová sada a jej význam. Dátová sada obsahuje číselníky obcí s rozšírenou pôsobnosťou a i c h názvami n a území Českej r e p u b l i k y . U Z I S používa p r e obce s rozšíre n o u p ô s o b n o s ť o u vlastný číselník, ktorý n i e je totožný s číselníkom Českého štatistického úradu ( Č S Ú ) . Táto dátová sada obsahuje p r i a m u v ä z b u m e d z i o b o m a číselníkmi. R o v n a k o obsahuje aj identifikátory daných okresov a krajov, a doplňujúci údaj o poslednej zmene daného okresu. Obrázok popisuje prvotný návrh schémy pre dátovú s a d u . Schéma je znázornená p o m o c o u d i a g r a m u tried v j a z y k u U M L . H l a v n o u myš l i e n k o u b o l o prepojenie d v o c h číselníkových entít p o m o c o u väzobnej tabuľky.. Obec v ČR - zkrácený název : string - plný název : string. ÚZIS ČR - kód obce : int. *. 1. 1. > - id_kraj: string. 1. ČSÚ. 1. - kód obce : int. - id_okres : string - změna : string. Obr. 5.1: D i a g r a m t r i e d p r e číselníky. 22.
(33) 5- P R A K T I C K Á Č A S Ť P U B L I K Á C I A DÁTOVEJ S A D Y. 5.2. Prevod dát do formátu CSV. Z o z b i e r a n é dáta sú v o f o r m á t e X L S X , t.j. štandardná tabuľka (napr. vytvorená v tabuľkovom softvéri M i c r o s o f t E x c e l ) . Publikované dáta v tomto formáte nie sú najvhodnejšie vzhľadom n a čas potrebný p r i i c h s t r o j o v o m spracovávaní. B e ž n e sa s tabuľkovým f o r m á t o m m ô ž e m e stretnúť, nakoľko nie všetky zverejnené dátové s a d y je potrebné ďalej strojovo spracovávať. Najbližší m o ž n ý formát, ktorý spĺňa túto p o d m i e n k u je formát C S V . V y t v o r i l s o m nasledujúci j e d n o d u c h ý skript v j a z y k u P y t h o n , slúži n a p r e v o d dát d o koncového formátu. S k r i p t je súčasťou prílohy. import import. xlrd csv. d e f c s v _ f r o m _ e x c e l () : workbook = x l r d . o p e n _ w o r k b o o k ( " o r p precislovani.xlsx") sheet = w o r k b o o k . s h e e t _ b y _ n a m e ( ' L i s t í ' ) s h e e t . c e l l _ v a l u e ( 0 , 0) output_csv = n ( " o r p - p r e c i s l o v a n i . csv" , for i for. "w"). in range(sheet.nrows): j in range(sheet.ncols):. text = s h e e t . c e l l _ v a l u e ( i , j) if e ( s h e e t . c e l l _ v a l u e ( i , j) , it) : text = str(in1 (sheet.cell_value (i , j))) if. j != sheet.ncols-1: text = text + ' , ' output_csv.write(text) o u t p u t _ c s v . w r i t e ( ' \ n ') output_csv.close(). 23.
(34) 5- P R A K T I C K Á Č A S Ť P U B L I K Á C I A DÁTOVEJ S A D Y. 5.3. Vytvorenie dátovej schémy pre dátovú sadu. P r i publikácií dátovej s a d y sa m u s í vytvoriť súbor, k t o r ý dáta nále žité vysvetľuje, t.j. katalogizačný záznam vo forme metadát. Metadáta existujú v o f o r m e J S O N d o k u m e n t u , obsahujúce objekt n a najvyššej úrovni popisujúci tabuľku [12]. Katalogizačný záznam m ô ž e byť zve rejnený v o viacerých katalógoch, zvýši sa tým informácia o existencii dátovej s a d y a dostupnosť p r e čo najväčší o k r u h užívateľov. Štruktúra m e t a d á t o d p o v e d á e u r ó p s k e m u š t a n d a r d u D C A T - A P z a l o ž e n é h o n a slovníku dátového k a t a l ó g u ( D C A T ) o d spoločnosti World Wide Web Consortium. Hlavná výhoda D C A T - A P je zabezpečenie k o n z i s t e n t n o s t i p o s k y t n u t í m š t a n d a r d u n a o p i s metaúdajov, ktoré uverejňujú portály v celej E u r ó p e . O b s a h u j e tiež širokú škálu n á z v o v a využíva v ý r a z y z iných slovníkov, najmä Dublin Core Metadata Initiative [13]. Súbor s metadátami sa skladá z d v o c h častí. V prvej sa nachádzajú informácie o dátovej sade zložené z : 1. • k o n t e x t u - obsahuje a d r e s u definície slovníka, v n a š o m prípade ešte predvolený j a z y k použitý v súbore s metadátami, • u r l - uvádza sa v nej U R L adresa súboru C S V , v k t o r o m je tabuľka u l o ž e n á , relatívne cesta k u m i e s t n e n i u s ú b o r u v z h ľ a d o m n a metadáta, • n á z v u dátovej s a d y - názov m u s í byť krátky a presný, aby b o l o jasné čo je o b s a h o m dátovej s a d y • p o p i s u dátovej s a d y - text, ktorý detailnejšie p o p i s u j e o b s a h dátovej sady, o č o m dáta vypovedajú, • z d r o j a - vypovedá o z d r o j i , z ktorého dáta pochádzajú, • kľúčových slov - kľúčové slová alebo značky popisujúce dátovú s a d u , zdroj..., • vydavateľa - subjekt z o d p o v e d n ý z a sprístupnenie z d r o j a , ty p i c k y zahŕňa m e n o autora, organizácie..., 1. K o m p l e t n á š p e c i f i k á c i a je d o s t u p n á n a oficiálnej dublincore.org/specifications/dublin-core/. stránke. https://www.. 24.
(35) 5- P R A K T I C K Á Č A S Ť P U B L I K Á C I A DÁTOVEJ S A D Y. • licencie - d o k u m e n t poskytujúci oficiálne povolenie n a prácu so z d r o j o m , štandardne o d k a z u j e n a licenčný d o k u m e n t , • dátumu z m e n y - dátum poslednej z m e n y s p o l u s príslušným formátom. V druhej časti sa n a c h á d z a p o p i s schémy p r e dátový súbor. P o p i suje štruktúru tabuľky. K a ž d ý stĺpec musí mať jedinečný názov, t y p a náležitý p o p i s .. 25.
(36) 6 Záver Cieľom tejto p r á c e b o l o p r e d s t a v e n i e p r o b l e m a t i k y otvorených dát, pochopiť i c h základné princípy a r o z d e l e n i e . V prvých d v o c h k a p i t o lách sa z a m e r i a v a n a v š e o b e c n ý p o p i s otvorených dát, i c h u k o t v e n i e v zákone o poskytovaní s p o l u s o c h r a n o u osobných údajov a opisuje aktuálne situáciu v Českej r e p u b l i k e so zdravotníckymi dátami. S a m i sme b o l i s v e d k a m i , a k o sa z a p o s l e d n ý r o k stali otvorené dáta p o p u lárnejšími kvôli p a n d e m i i koronavírusu. N a stranu štátu b o l vyvíjaný veľký tlak, a b y dáta b o l i správne a m a l i s v o j u v ý p o v e d n ú h o d n o t u . To b y však nebolo možné vďaka spolupráci množstva zdravotníckych inštitúcií s prepracovanými p l á n m i o d z b e r u až p o publikáciu dát. V tretej a štvrtej k a p i t o l e sa z r e k a p i t u l o v a l i d v a podstatné t u z e m ské katalógy s otvorenými dátami, aj s obrázkovým príkladom. B o l a predostretá a zhrnutá m e t o d i k a p r e publikáciu otvorených dát. P o p i sujú sa v nej p o t r e b n é k r o k y p r e v y t v o r e n i e otvorenej dátovej s a d y určenej k publikácii. V p r a k t i c k e j časti b o l a n a v r h n u t á a v y k o n a n á časť p r o c e s o v n e v y h n u t n á p r e prípravu dátovej s a d y k z v e r e j n e n i u . B o l p o c h o p e n ý charakter a v ý z n a m zozbieraných dát. N a v r h o l sa príslušný d i a g r a m , logické z h r n u t i e dát v o forme grafu. Dáta sa p r e v i e d l i d o formátu C S V , použil sa n a to s k r i p t v j a z y k u P y t h o n . Následne sa v y t v o r i l a dátová schéma popisujúca dátovú s a d u . O t v o r e n é dáta sa publikujú v čoraz väčšej m i e r e , i c h v ý h o d o u je prístupnosť k verejnosti. Dáta sú relevantné, niektoré časom zaniknú a niektoré b u d ú naďalej aktualizované. K v a n t i t a a využiteľnosť dát m á k a ž d ý m r o k o m rastúcu t e n d e n c i u , č o je s v ý h ľ a d o m d o b u d ú c n o s t i pozitívny ukazovateľ.. 26.
(37) Bibliografia 1.. B O Č E K , J á n ; Č E P I Č K Y , J á c h y m ; M R Á Č E K , J a k u b . Jak otevírat data? P r a h a : F o n d O t a k a r a M o t e j l a , 2014. I S B N 978-80-87725-15-3. D o s t u p n é tiež z : h t t p s : //osf . c z / p u b l i k a c e / j a k - o t e v i r a t data/.. 2.. C H I G N A R D , S i m o n . A brief history of Open Data [ o n l i n e ] . Paris I n n o v a t i o n R e v i e w , 2013 [cit. 2020-12-05]. D o s t u p n é z : h t t p : // parisinnovatiorireview. com/articles-en/a-brief-historyof-open-data.. 3.. B E R N E R S - L E E , T i m . 5 Star Open Data [ o n l i n e ] . 2015 [cit. 202012-10]. Dostupné z : h t t p s : / / 5 s t a r d a t a . i n f o/en/.. 4.. M Í Š E K , Jakub. Právní aspekty otevřených dat [ o n l i n e ] . B r n o , 2018 [cit. 2020-12-15]. D o s t u p n é z : h t t p s : / / i s .muni . c z / t h / s q e 7 a / rigo_opendata_f i n a l .pdf. D i z . pr. Právnická fakulta, M a s a r y kova Univerzita.. 5.. MÍŠEK, Jakub. Ochrana osobních údajů a poskytování otevřených dat [online]. 2020 [cit. 2021-01-12]. Dostupné z : h t t p s : //opendata. gov . cz/dokumenty : ochrana-osobn°/ C3°/ ADch-°/ C3°/ BAdaj °/C5°/ AF-a-gdpr. 0. 6.. 0. 0. 0. 0. 0. Ústav zdravotnických informácia statistiky ČR [ o n l i n e ] . W i k i p e d i a [cit. 2021-01-15]. D o s t u p n é z : h t t p s : / / c s . w i k i p e d i a . o r g / w i k i / % C 3 % 9 A s t a v _ z d r a v o t n i c k y C 3 y o B D c h _ i n f ormacy C3y AD_a_ statistiky_y C4y 8CR. o. 0. 0. 0. 0. 7.. O Ústavu zdravotnických informací a statistiky ČR [ o n l i n e ] . Ú Z I S Č R [cit. 2021-04-12]. D o s t u p n é z : h t t p s : //www.uzis . c z / i n d e x . php?pg=o-nas.. 8.. K O M E N D A , M a r t i n ; B U L H A R T , Vojtěch; KAROĽYI, Matěj; J A R KOVSKÝ, Jiří; M U Ž Í K , Jan; M Á J E K , Ondřej; ŠNAJDROVÁ, L e n k a ; RŮŽIČKOVÁ, Petra; RÁZOVÁ, Jarmila; P R Y M U L A , R o m a n ; M A C KOVÁ, Barbora; BREZOVSKÝ, Pavel; M A R O U N E K , Jan; Č E R N Ý , Vladimír; D U Š E K , L a d i s l a v . C o m p l e x R e p o r t i n g of the C O V I D 19 E p i d e m i c i n the C z e c h R e p u b l i c : U s e of a n Interactive W e b Based A p p i n Practice. /Med Internet Res [ o n l i n e ] . 2020, roc. 22,. 27.
Související dokumenty
Logické datové sady (logická seskupení tříd) mohou být umístěny v jedné (fyzické) datové sadě spolu s volně umístěnými třídami prvků. Výhodné je využití
Různorodost datové sady je potřebná zejména kvůli správnému vytvoření vzorů, nerůznorodá datová sada může způ- sobit, že vzor bude odpovídat jenom malé
Kromě pozitivního vlivu rozptýlených ocelových vláken na pevnostní charakteristiky, zejména ohybové pevnosti (viz úvodní sady vzorků a trámce sady B),
ČSN 27 4014 v platném znění, Bezpečnostní předpisy pro konstrukci a montáž výtahů - Zvláštní úpravy výtahů určených pro dopravu osob nebo osob a nákladů -
Bohužel u žádné datové sady nebyl neuronový model lepší než LDA model, avšak jeho výsledky nebyly špatné vezmeme-li v potaz, že architektura neuronové sítě (včetně
Užívateľ má taktiež na výber z atribútov dátovej sady, ktoré sú rozdelené do kategórií, zvoliť si môže ľubovoľný počet a hodnoty (použitý je ListView, atribúty
Navíc datové sady, které vznikly na základ ě postup ů popsaných v práci byly publikovány na univerzitním webu (viz mortality.vse.cz).. Text je rozd ě len do
Na projektu prototypového řešení – návrhu datové sady a reportu / dashboardu pro sledování plnění plánu a predikci budoucích výnosů podniku na základě dat získaných