• Nebyly nalezeny žádné výsledky

Jako posledn´ı zdroj uv´ad´ım MusicBrainz[20], elektronickou datab´azi hudeb-n´ık˚u, nebo pˇresnˇeji ˇreˇceno vˇsech lid´ı, kteˇr´ı kdy mˇeli co do ˇcinˇen´ı s hudbou.

Najdeme zde informace jak o Johannu Sebastianu Bachovi, tak napˇr. o Jin-dˇrichu VIII. V´ysledkem hled´an´ı na MusicBrainz jsou ˇc´asteˇcnˇe strukturovan´a data. U kaˇzd´eho subjektu jsou vyplnˇeny z´aznamy jako jm´eno, typ, pohlav´ı, oblast p˚usoben´ı a zaˇc´atek a konec p˚usoben´ı. Souˇc´ast´ı z´aznamu je tak´e ne-strukturovan´y ˇcl´anek z Wikipedie. Data v MusicBrainz jsou pod licencemi Creative Commons - CC0 a Creative Commons Attribution-NonCommercial-ShareAlike 3.0.

V tabulce 3.1 je pˇrehled elektronick´ych zdroj˚u informac´ı.

N´azev URL Licence/spoleˇcnost

Wikipedie www.wikipedia.org CC BY-SA 3.0, GFDL

DBpedia www.dbpedia.org CC BY-SA 3.0, GFDL

YAGO

Who’s Who www.ukwhoswho.com CC BY-SA 3.0, GFDL

MusicBrainz https://musicbrainz.org CC0, CC BY-SA 3.0 Tabulka 3.1: Pˇrehled elektronick´ych zdroj˚u informac´ı

4 Wikipedie

Jako zdroj informac´ı jsem si zvolila Wikipedii kv˚uli velk´emu objemu dat a vysok´e pˇresnosti i ´uplnosti v porovn´an´ı s jin´ymi elektronick´ymi zdroji.

Obsah Wikipedie lze st´ahnout ve formˇe tzv. data dumps1 v 10 r˚uzn´ych ja-zyc´ıch: angliˇctinˇe, nˇemˇcinˇe, francouzˇstinˇe, italˇstinˇe, ˇc´ınˇstinˇe, japonˇstinˇe, pol-ˇstinˇe, portugalˇstinˇe, ruˇstinˇe a ˇspanˇelˇstinˇe.

Soubory, se kter´ymi chceme d´ale pracovat, jsou ty s n´azvem ve tvaruxx wiki-yyyyMMdd-pages-articles.xml.bz2, kdexx je zkratka jazyka dan´eho dum-pu ayyyyMMdd datum (napˇr.enwiki-20141106-pages-articles.xml.bz2).

Tyto soubory obsahuj´ı pouze aktu´aln´ı revize, ˇz´adn´e diskusn´ı nebo uˇzivatelsk´e str´anky. Nov´e verze vych´azej´ı asi jednou aˇz dvakr´at za mˇes´ıc.

Revize anglick´e Wikipedie z 6. 11. 2014 zab´ır´a v komprimovan´e formˇe 10,5 GiB pamˇeti, po rozbalen´ı dostaneme jeden XML soubor o velikosti 46,7 GiB a 800 milionech ˇr´adk˚u. V nˇekter´ych pˇr´ıpadech vˇsak lze pracovat i se samot-n´ym komprimovan´ym souborem. Soubor je moˇzn´e st´ahnout bˇeˇzn´ym zp˚ uso-bem nebo pˇres BitTorrent. D´ale lze st´ahnout n´asleduj´ıc´ı soubory:

• pages-meta-current.xml.bz2 – vˇsechny str´anky (vˇcetnˇe diskusn´ıch), jen aktu´aln´ı revize

• abstract.xml.gz – abstrakty str´anek

• all-titles-in-ns0.gz – jen titulky str´anek (s pˇresmˇerov´an´ım)

• SQL soubory pro str´anky, odkazy

• Latest Dumps - vˇsechny revize vˇsech str´anek – tyto soubory mohou m´ıt aˇz nˇekolik terabyt˚u textu

4.1 Prohl´ıˇ zen´ı obsahu offline

Pro prohl´ıˇzen´ı obsahu Wikipedie bez pˇr´ıstupu k internetu lze vyuˇz´ıt r˚uzn´ych prohl´ıˇzeˇc˚u.

1http://meta.wikimedia.org/wiki/Data dump torrents#enwiki

Wikipedie Prohl´ıˇzen´ı obsahu offline

4.1.1 BzReader

Hlavn´ı a z´aroveˇn jedin´y ´uˇcel aplikace BzReader[21] je prohl´ıˇzen´ı Wikipe-die bez pˇr´ıstupu k internetu. Pracuje pˇr´ımo s komprimovan´ym souborem typu pages-articles.xml.bz2, takˇze jednou z jeho v´yhod je ´uspora m´ısta na disku. Pˇrev´ad´ı text Wikipedie do HTML. BzReader je volnˇe k dispozici, je urˇcen prim´arnˇe pro operaˇcn´ı syst´em Windows.

Po jeho instalaci je tˇreba nejdˇr´ıve vytvoˇrit indexy pro rychl´y pˇr´ıstup k jed-notliv´ym str´ank´am. Tato operace zabere nˇekolik hodin. V´ysledkem je sloˇzka s n´azvem napˇr. enwiki-20141008-pages-articles.xml.idx, kter´a obsa-huje mimo jin´e soubor typu cfs (Compact File Set) o velikosti zhruba 1,33 GiB.

Dump Wikipedie pak lze prohl´ıˇzet ´uplnˇe stejnˇe jako jej´ı webovou verzi (viz obr. 4.1). Str´anky jsou opˇet prov´az´any odkazy, neobsahuj´ı vˇsak obr´azky a tabulky zvan´e infoboxy tak´e nejsou spr´avnˇe zobrazeny. BzReader je n´astroj urˇcen´y ˇcistˇe pro ˇcten´ı, neobsahuje ˇz´adn´e dalˇs´ı funkce pro pr´aci s nalezen´ymi v´ysledky.

Dostupn´y z: https://code.google.com/p/bzreader/

4.1.2 MzReader

MzReader je nadstavba BzReaderu, prov´ad´ı propracovanˇejˇs´ı renderov´an´ı textu do HTML, takˇze jsou j´ım vytvoˇren´e str´anky l´epe ˇciteln´e. Vyˇzaduje Microsoft Visual Basic 6.0 Runtime.

Dostupn´y z: http://homepage.ntlworld.com/bharat.vadera/MzReader/

4.1.3 Kiwix

Kiwix [22] je offline prohl´ıˇzeˇc obsahu webov´ych str´anek. Jeho p˚uvodn´ı ´uˇcel je zpˇr´ıstupnit Wikipedii pro pr´aci v reˇzimu offline, ale je moˇzn´e ho vyuˇz´ıt pro prohl´ıˇzen´ı jak´ychkoli HTML str´anek.

Wikipedie Prohl´ıˇzen´ı obsahu offline

Obr´azek 4.1: Prohl´ıˇzeˇc BzReader

Jedn´ım z rozd´ıl˚u oproti BzReaderu je form´at souboru, se kter´ym pracuje.

Kiwix pouˇz´ıv´a soubory ve form´atu ZIM[23] (Zeno IMproved), coˇz je vysoce komprimovan´y otevˇren´y form´at s doplˇnuj´ıc´ımi informacemi (metadaty).

Dalˇs´ım v´yznamn´ym rozd´ılem je fakt, ˇze Kiwix na rozd´ıl od BzReaderu po-skytuje nˇekter´e dalˇs´ı funkce pro pohodln´e pouˇz´ıv´an´ı:

• fulltextov´y vyhled´avaˇc

• z´aloˇzky a pozn´amky

• HTTP server

• export do PDF/HTML

• uˇzivatelsk´e rozhran´ı ve v´ıce neˇz 100 jazyc´ıch

• navigace

• integrovan´y spr´avce obsahu a n´astroj pro stahov´an´ı

Wikipedie Prohl´ıˇzen´ı obsahu offline

Potˇrebn´e soubory lze st´ahnout pˇr´ımo z ofici´aln´ıch str´anek Kiwix1.

Str´anky zobrazovan´e Kiwixem jsou nerozeznateln´e od webov´e Wikipedie (viz obr. 4.2). Kiwix je dostupn´y pro Windows, Mac OS X, Linux i Android.

Dostupn´y z: www.kiwix.org

Obr´azek 4.2: Prohl´ıˇzeˇc Kiwix [24]

4.1.4 WikiTaxi

WikiTaxi[25] je prohl´ıˇzeˇc pro vˇsechna data ve form´atu MediaWiki2. Umoˇ z-ˇ

nuje prohl´ıˇzen´ı str´anek, jako jsou Wikipedie, Wikiquote nebo WikiNews. Ne-podporuje prohl´ıˇzen´ı obr´azk˚u. Dovede pracovat s mnoha r˚uzn´ymi jazyky jako angliˇctinou, nˇemˇcinou ˇci tureˇctinou, probl´em nastav´a pˇri pr´aci s jazyky psa-n´ymi zprava doleva. Je urˇcen´y pro OS Windows.

Dostupn´y z: www.wikitaxi.org

1http://www.kiwix.org/wiki/Main Page#Wikipedia files nebo http://download.kiwix.org/zim/wikipedia/

2MediaWiki – engine vˇsech projekt˚u Wikipedia Foundation

Wikipedie Zpracov´an´ı textov´eho obsahu