Jako posledn´ı zdroj uv´ad´ım MusicBrainz[20], elektronickou datab´azi hudeb-n´ık˚u, nebo pˇresnˇeji ˇreˇceno vˇsech lid´ı, kteˇr´ı kdy mˇeli co do ˇcinˇen´ı s hudbou.
Najdeme zde informace jak o Johannu Sebastianu Bachovi, tak napˇr. o Jin-dˇrichu VIII. V´ysledkem hled´an´ı na MusicBrainz jsou ˇc´asteˇcnˇe strukturovan´a data. U kaˇzd´eho subjektu jsou vyplnˇeny z´aznamy jako jm´eno, typ, pohlav´ı, oblast p˚usoben´ı a zaˇc´atek a konec p˚usoben´ı. Souˇc´ast´ı z´aznamu je tak´e ne-strukturovan´y ˇcl´anek z Wikipedie. Data v MusicBrainz jsou pod licencemi Creative Commons - CC0 a Creative Commons Attribution-NonCommercial-ShareAlike 3.0.
V tabulce 3.1 je pˇrehled elektronick´ych zdroj˚u informac´ı.
N´azev URL Licence/spoleˇcnost
Wikipedie www.wikipedia.org CC BY-SA 3.0, GFDL
DBpedia www.dbpedia.org CC BY-SA 3.0, GFDL
YAGO
Who’s Who www.ukwhoswho.com CC BY-SA 3.0, GFDL
MusicBrainz https://musicbrainz.org CC0, CC BY-SA 3.0 Tabulka 3.1: Pˇrehled elektronick´ych zdroj˚u informac´ı
4 Wikipedie
Jako zdroj informac´ı jsem si zvolila Wikipedii kv˚uli velk´emu objemu dat a vysok´e pˇresnosti i ´uplnosti v porovn´an´ı s jin´ymi elektronick´ymi zdroji.
Obsah Wikipedie lze st´ahnout ve formˇe tzv. data dumps1 v 10 r˚uzn´ych ja-zyc´ıch: angliˇctinˇe, nˇemˇcinˇe, francouzˇstinˇe, italˇstinˇe, ˇc´ınˇstinˇe, japonˇstinˇe, pol-ˇstinˇe, portugalˇstinˇe, ruˇstinˇe a ˇspanˇelˇstinˇe.
Soubory, se kter´ymi chceme d´ale pracovat, jsou ty s n´azvem ve tvaruxx wiki-yyyyMMdd-pages-articles.xml.bz2, kdexx je zkratka jazyka dan´eho dum-pu ayyyyMMdd datum (napˇr.enwiki-20141106-pages-articles.xml.bz2).
Tyto soubory obsahuj´ı pouze aktu´aln´ı revize, ˇz´adn´e diskusn´ı nebo uˇzivatelsk´e str´anky. Nov´e verze vych´azej´ı asi jednou aˇz dvakr´at za mˇes´ıc.
Revize anglick´e Wikipedie z 6. 11. 2014 zab´ır´a v komprimovan´e formˇe 10,5 GiB pamˇeti, po rozbalen´ı dostaneme jeden XML soubor o velikosti 46,7 GiB a 800 milionech ˇr´adk˚u. V nˇekter´ych pˇr´ıpadech vˇsak lze pracovat i se samot-n´ym komprimovan´ym souborem. Soubor je moˇzn´e st´ahnout bˇeˇzn´ym zp˚ uso-bem nebo pˇres BitTorrent. D´ale lze st´ahnout n´asleduj´ıc´ı soubory:
• pages-meta-current.xml.bz2 – vˇsechny str´anky (vˇcetnˇe diskusn´ıch), jen aktu´aln´ı revize
• abstract.xml.gz – abstrakty str´anek
• all-titles-in-ns0.gz – jen titulky str´anek (s pˇresmˇerov´an´ım)
• SQL soubory pro str´anky, odkazy
• Latest Dumps - vˇsechny revize vˇsech str´anek – tyto soubory mohou m´ıt aˇz nˇekolik terabyt˚u textu
4.1 Prohl´ıˇ zen´ı obsahu offline
Pro prohl´ıˇzen´ı obsahu Wikipedie bez pˇr´ıstupu k internetu lze vyuˇz´ıt r˚uzn´ych prohl´ıˇzeˇc˚u.
1http://meta.wikimedia.org/wiki/Data dump torrents#enwiki
Wikipedie Prohl´ıˇzen´ı obsahu offline
4.1.1 BzReader
Hlavn´ı a z´aroveˇn jedin´y ´uˇcel aplikace BzReader[21] je prohl´ıˇzen´ı Wikipe-die bez pˇr´ıstupu k internetu. Pracuje pˇr´ımo s komprimovan´ym souborem typu pages-articles.xml.bz2, takˇze jednou z jeho v´yhod je ´uspora m´ısta na disku. Pˇrev´ad´ı text Wikipedie do HTML. BzReader je volnˇe k dispozici, je urˇcen prim´arnˇe pro operaˇcn´ı syst´em Windows.
Po jeho instalaci je tˇreba nejdˇr´ıve vytvoˇrit indexy pro rychl´y pˇr´ıstup k jed-notliv´ym str´ank´am. Tato operace zabere nˇekolik hodin. V´ysledkem je sloˇzka s n´azvem napˇr. enwiki-20141008-pages-articles.xml.idx, kter´a obsa-huje mimo jin´e soubor typu cfs (Compact File Set) o velikosti zhruba 1,33 GiB.
Dump Wikipedie pak lze prohl´ıˇzet ´uplnˇe stejnˇe jako jej´ı webovou verzi (viz obr. 4.1). Str´anky jsou opˇet prov´az´any odkazy, neobsahuj´ı vˇsak obr´azky a tabulky zvan´e infoboxy tak´e nejsou spr´avnˇe zobrazeny. BzReader je n´astroj urˇcen´y ˇcistˇe pro ˇcten´ı, neobsahuje ˇz´adn´e dalˇs´ı funkce pro pr´aci s nalezen´ymi v´ysledky.
Dostupn´y z: https://code.google.com/p/bzreader/
4.1.2 MzReader
MzReader je nadstavba BzReaderu, prov´ad´ı propracovanˇejˇs´ı renderov´an´ı textu do HTML, takˇze jsou j´ım vytvoˇren´e str´anky l´epe ˇciteln´e. Vyˇzaduje Microsoft Visual Basic 6.0 Runtime.
Dostupn´y z: http://homepage.ntlworld.com/bharat.vadera/MzReader/
4.1.3 Kiwix
Kiwix [22] je offline prohl´ıˇzeˇc obsahu webov´ych str´anek. Jeho p˚uvodn´ı ´uˇcel je zpˇr´ıstupnit Wikipedii pro pr´aci v reˇzimu offline, ale je moˇzn´e ho vyuˇz´ıt pro prohl´ıˇzen´ı jak´ychkoli HTML str´anek.
Wikipedie Prohl´ıˇzen´ı obsahu offline
Obr´azek 4.1: Prohl´ıˇzeˇc BzReader
Jedn´ım z rozd´ıl˚u oproti BzReaderu je form´at souboru, se kter´ym pracuje.
Kiwix pouˇz´ıv´a soubory ve form´atu ZIM[23] (Zeno IMproved), coˇz je vysoce komprimovan´y otevˇren´y form´at s doplˇnuj´ıc´ımi informacemi (metadaty).
Dalˇs´ım v´yznamn´ym rozd´ılem je fakt, ˇze Kiwix na rozd´ıl od BzReaderu po-skytuje nˇekter´e dalˇs´ı funkce pro pohodln´e pouˇz´ıv´an´ı:
• fulltextov´y vyhled´avaˇc
• z´aloˇzky a pozn´amky
• HTTP server
• export do PDF/HTML
• uˇzivatelsk´e rozhran´ı ve v´ıce neˇz 100 jazyc´ıch
• navigace
• integrovan´y spr´avce obsahu a n´astroj pro stahov´an´ı
Wikipedie Prohl´ıˇzen´ı obsahu offline
Potˇrebn´e soubory lze st´ahnout pˇr´ımo z ofici´aln´ıch str´anek Kiwix1.
Str´anky zobrazovan´e Kiwixem jsou nerozeznateln´e od webov´e Wikipedie (viz obr. 4.2). Kiwix je dostupn´y pro Windows, Mac OS X, Linux i Android.
Dostupn´y z: www.kiwix.org
Obr´azek 4.2: Prohl´ıˇzeˇc Kiwix [24]
4.1.4 WikiTaxi
WikiTaxi[25] je prohl´ıˇzeˇc pro vˇsechna data ve form´atu MediaWiki2. Umoˇ z-ˇ
nuje prohl´ıˇzen´ı str´anek, jako jsou Wikipedie, Wikiquote nebo WikiNews. Ne-podporuje prohl´ıˇzen´ı obr´azk˚u. Dovede pracovat s mnoha r˚uzn´ymi jazyky jako angliˇctinou, nˇemˇcinou ˇci tureˇctinou, probl´em nastav´a pˇri pr´aci s jazyky psa-n´ymi zprava doleva. Je urˇcen´y pro OS Windows.
Dostupn´y z: www.wikitaxi.org
1http://www.kiwix.org/wiki/Main Page#Wikipedia files nebo http://download.kiwix.org/zim/wikipedia/
2MediaWiki – engine vˇsech projekt˚u Wikipedia Foundation
Wikipedie Zpracov´an´ı textov´eho obsahu