• Nebyly nalezeny žádné výsledky

Metody a nástroje OSINT

N/A
N/A
Protected

Academic year: 2022

Podíl "Metody a nástroje OSINT"

Copied!
101
0
0

Načítání.... (zobrazit plný text nyní)

Fulltext

(1)

Bankovní institut vysoká škola Praha

Katedra matematiky, statistiky a informačních technologií

Metody a nástroje OSINT

Diplomová práce

Autor: Bc. Petr Vondruška

Informační technologie a management

Vedoucí práce: Ing. Vladimír Beneš

Praha Duben, 2013

(2)

Prohlášení:

Prohlašuji, ţe jsem diplomovou práci zpracoval samostatně a v seznamu uvedl veškerou pouţitou literaturu.

Svým podpisem stvrzuji, ţe odevzdaná elektronická podoba práce je identická s její tištěnou verzí, a jsem seznámen/ se skutečností, ţe se práce bude archivovat v knihovně BIVŠ a dále bude zpřístupněna třetím osobám prostřednictvím interní databáze elektronických vysokoškolských prací.

podpis autora

V Praze, dne 25. 4. 2013 Petr Vondruška

(3)

Poděkování

Děkuji Ing. Vladimírovi Benešovi za ochotu a cenné připomínky při vedení této práce.

Rád bych také poděkoval mé rodině, která mě podporovala nejen v průběhu tvorby této diplomové práce, ale i během celého studia.

(4)

Anotace

Tato diplomová práce je zaměřena na komplexní popis problematiky OSINT, tedy Open Source Intelligence neboli zpravodajství z otevřených zdrojů. Jedná se o oblast zabývající se sběrem, zpracováním a analyzováním údajů a informací z volně dostupných (především internetových) zdrojů. Práce je zaměřena především na popis metod a nástrojů používaných v rámci OSINT analýzy. V závěru práce je popsán doporučený postup provedení OSINT analýzy vybraného firemního subjektu.

Klíčová slova: OSINT, Competitive Intelligence, zpravodajský cyklus, vyhledávání informací na internetu, sociální média

Annotation

This thesis is focused on comprehensive description of OSINT (Open Source Intelligence). This field consists of collecting, processing and analyzing data and information from publicly available (mostly online) sources. The thesis is mainly focused on the description of the methods and tools used in the OSINT analysis.

In conclusion, the paper describes the recommended steps of OSINT analysis of selected company.

Key words: OSINT, Competitive Intelligence, Intelligence cycle, Internet searching, Social media

(5)

Obsah

1 Úvod ... 8

2 Vymezení oblasti OSINT ... 9

2.1 Základní pojmy ... 10

2.2 Rozdílné přístupy k OSINT ... 12

2.2.1 Plošný OSINT ... 12

2.2.2 Cílený OSINT ... 12

2.3 Vyuţití OSINT dle účelu ... 13

2.3.1 Bezpečnostní a silové sloţky ... 13

2.3.2 Soukromé bezpečnostní agentury ... 13

2.3.3 Ţurnalistika ... 13

2.3.4 Operativní firemní vyuţití ... 13

2.3.5 Penetrační testování ... 14

2.4 Historický vývoj OSINT ... 15

2.5 Otevřené zdroje ... 16

2.6 Deep Web... 17

2.7 Uniklé zdroje a databáze ... 18

2.7.1 Dokumenty ... 18

2.7.2 SQL databáze ... 19

2.7.3 E-maily ... 19

2.7.4 Databáze ... 19

2.7.5 Osobní údaje ... 19

2.7.6 Příklad zneuţití ... 20

3 Existující projekty v oblasti OSINT ... 21

3.1 Společné výzkumné centrum Evropské Komise (JRC) ... 21

3.1.1 EMM Media Monitoring and Open Source Intelligence Tools ... 22

3.1.2 Newsbrief ... 22

3.1.3 Newswxplorer ... 23

3.1.4 Medisys ... 23

3.1.5 Labs ... 23

3.2 FRONTEX ... 24

3.3 Counterterrorism Research Lab ... 25

3.4 EUROSINT ... 26

3.5 IHS a Jane’s Information Group ... 26

4 Metody OSINT ... 27

4.1 Zpravodajský cyklus ... 27

4.2 Zpracování a analýza informací ... 29

(6)

6

4.3.1 Přesnost ... 30

4.3.2 Kredibilita a váha ... 30

4.3.3 Aktuálnost ... 30

4.3.4 Objektivita ... 31

4.3.5 Relevance ... 31

4.3.6 Škála pro vyhodnocení kredibility ... 31

5 Nástroje OSINT ... 32

5.1 Vyhledávače a metavyhledávače ... 33

5.1.1 Google Alerts ... 34

5.1.2 Google hacking ... 34

5.2 Archivní zobrazení webových stránek ... 37

5.2.1 Google Cache ... 37

5.2.2 Wayback Machine ... 37

5.2.3 WebArchiv ... 37

5.2.4 Srovnání ... 38

5.3 Kopírování webových stránek ... 39

5.3.1 HTTrack Web Site Copier ... 39

5.3.2 Website Ripper Copier ... 40

5.3.3 Srovnání ... 41

5.4 Síťová infrastruktura ... 42

5.4.1 DNS dotazování ... 43

5.4.2 Whois záznamy... 43

5.4.3 Sam Spade ... 44

5.4.4 Knock ... 45

5.4.5 Srovnání ... 46

5.5 Metadata ... 47

5.5.1 Foca Free ... 48

5.5.2 Metagoofil ... 50

5.5.3 ExifTool ... 51

5.5.4 Creepy ... 52

5.5.5 Srovnání ... 54

5.6 Údaje o uţivatelích ... 56

5.6.1 Scythe: Account enumerator ... 56

5.6.2 The Harvester ... 60

5.6.3 Web Data Extractor ... 61

5.6.4 Link Extractor ... 62

5.6.5 Zjištění IP uţivatele Skype ... 63

5.6.6 Srovnání ... 64

5.7 Monitoring sociálních médií ... 66

(7)

5.7.1 Recorded Future ... 69

5.7.2 SiloBreaker ... 71

5.7.3 Spicy Mango ... 72

5.7.4 Srovnání ... 73

5.8 Komplexní nástroje pro OSINT ... 74

5.8.1 Paterva Maltego ... 74

5.8.2 Netglub ... 76

5.8.3 Srovnání ... 77

5.9 Pokročilá analýza textu ... 79

5.9.1 Copernic Summarizer ... 79

5.9.2 Tovek Tools ... 80

5.9.3 Cogito semantic technology ... 82

5.9.4 Basis Technology ... 84

5.9.5 Srovnání ... 85

5.10 Vizuální analýza dat ... 86

5.10.1 Paterva CaseFile ... 86

5.10.2 IBM i2 Analyst´s Notebook ... 87

5.10.3 Srovnání ... 88

6 Modelová OSINT analýza vybraného subjektu ... 89

7 Závěr ... 93

8 Slovník Pojmů ... 94

9 Použitá literatura ... 96

10 Seznam obrázků ... 100

11 Seznam tabulek ... 101

(8)

8

1 Úvod

Tato diplomová práce volně navazuje na bakalářskou práci „Nástroje pro vyhledávání informací o osobách na internetu“, kterou jsem v roce 2011 úspěšně obhájil na Vysoké škole ekonomické v Praze a jejímţ vedoucím byl Ing. Luboš Pavlíček a oponentem prof. Ing. Zdeněk Molnár, CSc.

Problematika vyhledávání informací o osobách na internetu tvoří součást oblasti OSINT, která je však mnohem obsáhlejší. Některé vybrané pasáţe této diplomové práce (jako například některé základní definice, popis zpravodajského cyklu nebo některé vybrané metody a nástroje), byly zmíněny jiţ v uvedené bakalářské práci a jsou částečně převzaty a případně doplněny a aktualizovány také v této diplomové práci.

Hlavním cílem této práce je komplexní a shrnující pohled na problematiku oblasti zpravodajství z otevřených zdrojů neboli OSINT (Open Source Intelligence). V době psaní této práce mi není známa existence jiné podobně rozsáhlé práce týkající se OSINT v českém jazyce. Dalším cílem této práce je poskytnutí přehledu existujících metod a nástrojů vhodných pro tvorbu OSINT analýzy, včetně jejich praktického otestování a dílčího srovnání nástrojů v rámci dané kategorie nástrojů. Srovnání všech nástrojů není moţné z důvodu jejich nesourodosti. Nástroje z jednotlivých kategorií se však vzájemně doplňují a umoţňují tak tvorbu výsledné OSINT analýzy. Posledním cílem je návrh modelového postupu pro OSINT analýzu vybraného firemního subjektu.

Se všemi uvedenými nástroji jsem se setkal v praxi a při jejich výběru a popisu jsem vycházel především z osobní zkušenosti práce s těmito nástroji. Problematikou pokročilých metod vyhledávání a zpracování informací se dlouhodobě zabývám. Jde o téma, které se především s rostoucím vyuţitím internetu rychle rozvíjí a v současné době stojí v popředí zájmu mnoha společností a institucí.

Problematikou pokročilých metod vyhledávání a zpracování informací se dlouhodobě zabývám. V roce 2010 jsem navštívil mezinárodní konferenci ASONAM (Advances in Social Networks Analysis and Mining) v Dánsku, jejíţ součástí bylo také symposium OSINT-WM (International Symposium on Open Source Intelligence and Web Mining).

V roce 2011 jsem navštívil konferenci EISIC (European Intelligence and Security Informatics Conference) v Řecku, rovněţ ve spojení s OSINT-WM Symposium.

(9)

2 Vymezení oblasti OSINT

Pojem OSINT (Open Source Intelligence) neboli Zpravodajství z otevřených zdrojů je oblast zabývající se sběrem, zpracováním a analyzováním údajů a informací z volně dostupných zdrojů.

V rámci zdrojů dostupných v českém jazyce je oblast OSINT výstiţně popsána na webových stránkách ÚZSI:

„Otevřené zdroje nejsou jen obvyklé komerčně dostupné tištěné a elektronické sdělovací prostředky, ale celá škála sofistikovaných, málo známých postupů, v nichž jsou často

"ukryta" cenná data, o nichž často dopředu nemáme tušení.

S nástupem internetu (a po pádu mnoha diktatur ve světě) se staly otevřené zdroje ještě významnějšími. Data z otevřených zdrojů tvoří v databázích - informačních fondech zpravodajských služeb obrovský podíl. Na některá témata a při vyšším stupni obecnosti analýz mohou otevřené zdroje poskytnout uspokojivé odpovědi. OSINT je téměř bez rizik, ale hrozí utopení v množství dat.“ [1]

Definice dle terminologického slovníku vojenského názvosloví amerického Ministerstva obrany (DoD)1:

„Informace s potencionální zpravodajskou hodnotou, které jsou dostupné široké veřejnosti.

Také nazýváno jako OSINT.“ [2]

Výše uvedené definice a popisy oblasti OSINT tedy mají několik společných znaků:

jedná se o vyhledávání, sběr a zpracování informací, informace pocházejí výhradně z otevřených zdrojů,

nejsou pouţity ţádné nelegální metody získávání informací, jde o relativně rychlý a levný způsob získávání informací, nejde o špionáţ.

(10)

10

O významnosti a praktické vyuţitelnosti OSINT svědčí i vyjádření, dle kterého pochází 80 % všech informací CIA z vyhledávače Google. [3] Podobná čísla se objevují také například u příbuzné oblasti Competitive Intelligence (Konkurenční zpravodajství):

„Až 95 % informací potřebných pro oblast Competitive intelligence je dostupných z veřejně dostupných otevřených zdrojů a z toho 80 % prostřednictvím veřejně dostupných prostředků.“ [4]

2.1 Základní pojmy

Mezi základní pojmy související s oblastí OSINT patří zejména OSD (Open Source Data), OSIF/OSINF (Open Source Information) a OSINT-V (Validated OSINT), které byly popsány v dokumentu NATO Open Source Intelligence Handbook vydaném v listopadu 2001. [5]

Open Source Data (OSD)

OSD označuje syrová nezpracovaná data z primárních zdrojů. Mezi OSD patří tištěné i elektronické dokumenty, rozhlas, audio a video záznamy, fotografie apod.

Open Source Information (OSIF / OSINF)

OSINF označuje informace z otevřených zdrojů. Jedná se o libovolné informace v tištěné či digitální podobě, které lze získat legální cestou. Proces třídění, zpracování a analyzování takových informací se nazývá OSINT.

Open Source Intelligence (OSINT)

OSINT označuje proces zpracování informací z otevřených zdrojů (OSIF / OSINF).

Zpracování zahrnuje analýzu, třídění a ověřování informací. Pro zpracování dat v rámci OSINT je pouţíván zpravodajský, resp. OSINT cyklus. Výstupem OSINT analýzy je výstup s významnou přidanou hodnotou (např. analýza určité situace, hledání trendů, objevování vazeb mezi subjekty apod.)

Validated OSINT (OSINT-V)

OSINT-V dle definice NATO označuje ověřené informace, kterým lze přisoudit velmi vysoký stupeň určitosti. Tyto informace jsou produkovány informačními specialisty, kteří mají přístup k utajovaným informacím. OSINT-V tedy označuje takový typ informací z otevřených zdrojů, které jsou v souladu s dalšími (především utajovanými informacemi) a jsou nezpochybnitelné. Jak jiţ bylo zmíněno, jedná se o pojem pouţívaný v rámci NATO.

(11)

SOCMINT (Social Media Intelligence)

SOCMINT označuje podoblast OSINT zaměřenou na monitorování a vytěţování sociálních médi, která v současné době zaţívá velmi výrazný rozvoj. To je dáno především rychle rostoucím mnoţstvím aktivních uţivatelů SNS (Social Networking Sites) či jiných sociálních médií. Uţivatelé sociálních sítí dobrovolně poskytují mnoţství svých osobních údajů, ale také fotografií či příspěvků týkajících se nejrůznějších společenských témat.

Existují také nejrůznější metody sledování preferencí uţivatelů pro obchodní a marketingové účely. Vţdy je nutno respektovat obchodní podmínky jednotlivých sociálních médií, aby nedošlo k jejich porušení případným vytěţováním těchto médií.

Jedná se o jeden z nejobsáhlejších informačních zdrojů současnosti. Například na síti Facebook je měsíčně přihlášeno 845 milionů aktivních uţivatelů (MAUs – monthly active users), kteří denně vloţí celkem 2,7 miliardy příspěvků nebo kliknutí na tlačítko „to se mi líbí“. Denně je také vloţeno 250 milionů fotografií. Celkem jiţ vzniklo 100 miliard uzavřených přátelství. [6]

Obdobná je situace i v případě dalších sociálních médií – například na síti Twitter je vloţeno denně 400 [7] - 500 [8] milionů příspěvků („tweetů“). Na serveru Youtube je denně shlédnuto 4 miliardy videí. Sociální média představují významný zdroj informací a dostávají se do popředí zájmu oblasti sběru a analýzy údajů z otevřených zdrojů. Zároveň se jedná o velmi cenná data, se kterými je dnes běţně obchodováno.

Doxing

Doxing označuje cílené vyhledávání a sběr informací o osobě a jejích osobních údajích.

Doxing se můţe týkat také zveřejnění údajů o některé společnosti. Pojem Doxing vznikl fonetickým přepisem anglického slova „documents“, resp. zkráceného tvaru „docs“.

Doxing zahrnuje také přiřazování internetových přezdívek a identit k identitě reálných osob. Výsledky mnoha výstupů doxingu je moţno nalézt například na serveru Pastebin.com nebo v rámci specializovaného necenzurovaného projektu Doxbin v rámci Tor hidden service.

(12)

12

2.2 Rozdílné přístupy k OSINT

Pouţití OSINT v praxi existuje na několika různých úrovních, lišících se dle účelu a pouţití. Existují dva základní rozdíly v přístupu k OSINT. Pro účely této práce jsou tyto přístupy pojmenovány jako plošný OSINT a cílený OSINT. Zatímco plošný OSINT se zaměřuje na automatizovaný plošný sběr dat, cílený OSINT je zaměřen na vyhledání konkrétní informace.

2.2.1 Plošný OSINT

Jednou z moţností pouţití OSINT je automatizované vyhledávání a zpracování velmi rozsáhlého objemu dat, která jsou následně analyzována. Můţe jít například o monitoring médií, blogosféry či sociálních médiích. Tyto informace mohou poslouţit například k monitorování vývoje v některé zemi či pro tvorbu systémů pro včasné varování. Spadá sem také podoblast SOCMINT (vytěţování informací ze sociálních médií). Patří sem také analýza sociálních sítí (ve smyslu analýzy vztahů prvků určité sociální sítě).

Typické vyuţití pro plošný OSINT:

systémy pro monitoring médií, systémy včasného varování, analýza sociálních sítí.

2.2.2 Cílený OSINT

Dále můţe být OSINT pouţit pro vyhledávání konkrétních informací, kdy nejde o široce zaměřené monitorování dostupných médií, ale o vyhledání konkrétních relevantních informací v libovolných otevřených zdrojích. Do této oblasti spadají zejména rešerše, vyhledávání informací o osobách, či úvodní fáze penetračního testování, kdy jsou zjišťovány základní informace o společnosti a její technické a síťové infrastruktury.

Typické vyuţití pro cílený OSINT:

tvorba rešerší,

vyhledávání informací o osobách, vyhledávání informací o firmách, úvodní fáze penetračního testování, Competitive intelligence

doxing.

(13)

2.3 Využití OSINT dle účelu

2.3.1 Bezpečnostní a silové složky

Vyuţití OSINT v rámci bezpečnostních a silových sloţek zastává významnou roli. OSINT je zde moţno vyuţít na několika úrovních. V první řadě jde o monitoring médií a dalších (nejen internetových) zdrojů. Další významnou oblastí je vyhledávání informací o osobách a v širším kontextu také prevence internetové i jiné kriminality či boj proti terorismu.

Předpokládá se pouţití velmi sofistikovaných metod, postupů a nástrojů. Velmi důleţitá je zde fáze verifikace a analýzy získaných údajů a informací. Bezpečnostní a silové sloţky mají z hlediska legislativy širší moţnosti ve srovnání s jinými subjekty. OSINT tedy slouţí jako rychlý a především bezpečný způsob získávání informací a jde o významný doplňující zdroj k dalším informacím, kterými dané subjekty disponují.

2.3.2 Soukromé bezpečnostní agentury

Jednou z oblastí, které se věnují soukromé bezpečnostní agentury, je pátrání po osobách, či vyhledávání informací o osobách a firmách nebo vyhledávání vazeb mezi těmito subjekty. Dále můţe jít o monitorování vazeb mezi osobami či jinými subjekty. Také společnosti pro vymáhání pohledávek vyuţívají internet pro získání informací o dluţnících.

2.3.3 Žurnalistika

Práce s otevřenými zdroji je důleţitou součástí ţurnalistické činnosti. V této oblasti jsou často vyhledávány informace o osobách (např. politici, podnikatelé, vědci, celebrity, pachatelé trestné činnosti) nebo o společnostech či dalších subjektech a jejich vzájemných vztahů. V rámci ţurnalistiky lze OSINT vyuţít k monitorování vývoje v některé zemi a k monitorování vývoje určitých událostí. Důleţitá je zde především práce s jiţ existujícími zdroji informací. Výstupem je zveřejnění prostřednictvím tištěných či audiovizuálních médií.

2.3.4 Operativní firemní využití

Firemní vyuţití OSINT spadá spíše do oblasti Competitive Intelligence, avšak většina pouţitých metod, postupů či nástrojů je velmi podobná či shodná. Jde o součást strategické analýzy podniku. Příkladem vyuţití můţe být analýza trhu nebo určitého odvětví,

(14)

14

vyhledávání obchodních příleţitostí či informací o současných i budoucích obchodních partnerech. Je předpokládáno vyuţití sofistikovaných metod a nástrojů. Důleţitá je nejen samotná fáze vyhledávání, ale také analýza získaných údajů. Součástí můţe být i analýza vztahů mezi osobami či dalšími subjekty.

2.3.5 Penetrační testování

Penetrační testování je součástí etického hackingu a označuje souhrn metod a postupů umoţňujících k odhalení existujících zranitelností informačního systému. Metody OSINT jsou vyuţívány v úvodních fázích penetračního testování, kdy jsou zjišťovány základní informace o společnosti, jejích systémech a dalších technických údajích či o zaměstnancích. Tato přípravná fáze se nazývá Reconnaissance. Cílem je komplexní sběr informací o daném subjektu (zahrnuje systémy, sítě, zaměstnance či případně klienty).

Reconnaissance se rozděluje na pasivní a aktivní. Pasivní Reconnaissance zahrnuje získávání informací bez přímé interakce s daným cílem. Příkladem zdrojů takových informací jsou internetová média, veřejně dostupné databáze nebo vyhledávání pomocí vyhledávačů. Aktivní Reconnaissance zahrnuje přímou interakci s cílem. Jedná se například o zjišťování síťové architektury zkoumaného subjektu, skenování portů, Ping, Traceroute nebo zjišťování verzí OS či aplikačního SW. Zahrnuty jsou také metody sociálního inţenýrství (například telefonický rozhovor s cílem zjistit konkrétní informace - zejména takové, které nejsou z ostatních otevřených zdrojů běţně dostupné).

Obrázek 1 - znázornění jednotlivých fází Reconnaissance zdroj: http://www.ecqurity.com/wp/footprinting-encored.pdf

(15)

2.4 Historický vývoj OSINT

Informace měly vţdy zásadní význam pro společnost - při rozvoji států, vědy a techniky, stejně tak jako mohly mít zásadní vliv na výsledky válečných konfliktů.

Počátek sofistikovaného přístupu ke zpracování informací z otevřených zdrojů souvisel s druhou světovou válkou, kdy došlo v USA v roce 1941 k zaloţení FBIS (Foreign Broadcast Information Service), jakoţto součásti CIA zaměřené na zpracování informací z otevřených zdrojů týkajících se druhé světové války.

Mezi nejvýznamnější faktory následujícího rozvoje OSINT patří především masivní nárůst informací ve všech podobách a s tím související potřeba tyto informace třídit, zpracovávat a uchovávat. Dalším zásadním milníkem je vznik osobního počítače a následně internetu, coţ umoţnilo přístup k informacím (ale také jejich vytváření a šíření) převáţné části populace civilizovaného světa.

Konec studené války a nárůst globalizace znamenal potřebu získávání a zpracování informací z mnoha různých jazyků, coţ kladlo nové poţadavky na rozvoj OSINT.

Významný rozvoj získávání informací z otevřených zdrojů a oblasti OSINT se objevil v době po teroristickém útoku 11. září 2001, který byl v médiích mnohdy označován jako selhání práce zpravodajských sluţeb. V této souvislosti se objevila potřeba získávat informace v co nejkratším čase z co největšího mnoţství informačních zdrojů a jejich analyzováním získat cenné informace s vysokou přidanou hodnotou. Jedním z výstupů vyšetřovací komise k útokům z 11. září 2001 bylo doporučení pro zaloţení specializovaného oddělení, které by se této činnosti věnovalo. [9] Na základě tohoto doporučení vzniklo v roce 2005 DNI Open Source Center.

Oblast OSINT je tedy v současném chápání poměrně mladou disciplínou zaţívající významný rozvoj. Mezi lety 1994 a 2011 vznikl některý typ organizace věnující se OSINT ve více neţ 40 zemích světa, ve většině případů pro vojenské vyuţití. [10]

V současnosti je oblast OSINT uznávána jako jeden z plnohodnotných způsobů zpravodajské činnosti.

(16)

16

2.5 Otevřené zdroje

Otevřené zdroje označuje jakékoliv údaje a informace, které lze získat legální cestou, ať uţ zdarma nebo za poplatek.

Takto jsou otevřené zdroje definovány dle BIS:

„Do otevřených zdrojů patří např. noviny a časopisy, rozhlasové a televizní vysílání, Internet, různé publikace, knihy apod. Otevřenými zdroji mohou být i různé přednášky, sympózia, konference a jakékoliv jiné aktivity, které jsou zdrojem informací a odehrávají se ve veřejném, volně přístupném prostoru.“ [11]

V minulosti se získávání informací týkalo především tištěných zdrojů či dalších klasických médií (rozhlas, televize). V současnosti je hlavní pozornost zaměřena na elektronická média (především internet). Základním a zcela zásadním rozdílem oproti jiným oblastem věnujícím se získávání informací je práce se všemi dostupnými informačními zdroji - tedy i s takovými, které nejsou označovány jako relevantní ve vědecké sféře. V rámci OSINT jsou běţně vytěţovány například i takové informační zdroje jako jsou blogy, diskusní fóra, newsgroups nebo (zejména v poslední době) sociální média. Tyto zdroje mohou poskytnout velmi aktuální a cenné údaje a informace. Zároveň však vzniká problém s velkým objemem takových dat a jejich problematickým zpracováním v reálném čase.

Dále tyto informační zdroje kladou vysoké nároky na následnou analýzu a ověření, přičemţ můţe snadno dojít k dezinterpretaci takových informací.

Dle původnosti obsahu tedy OSINT zahrnuje primární, sekundární i terciární informační prameny a bílé (publikované), šedé (polopublikované) a za určitých okolností i černé (nepublikované) informační zdroje.

(17)

Otevřené internetové zdroje zahrnují zejména:

média a jejich digitalizovaná podoba (noviny, časopisy, rozhlas, televize, apod.), literatura a další publikace (knihy, sborníky, ţurnály, apod.),

webové stránky a sluţby všech typů, o osobní a firemní stránky,

o SNS (Social Networking Sites) a další sociální média, o diskuzní fóra,

o chatovací sluţby (online chat, IRC), o wiki,

o blogosféra, audiovizuální obsah,

o fotografie a grafické soubory,

o video a weby pro online sdílení videa, o zvuk,

katalogy, databáze,

soubory ke staţení (prostřednictvím internetových odkazů, P2P sítí, Torrent apod.), mapy (resp. GIS),

alternativní webové sluţby jako Tor Hidden Service či Freenet apod.

veškeré další údaje, informace a soubory, které lze na internetu legálně získat.

2.6 Deep Web

Hluboký web (v češtině téţ označovaný jako neviditelný, skrytý, hlubinný; v anglickém jazyce Deep Web, Invisible Web, Hidden Web) je část internetu, kterou nedokáţí vyhledávací stroje indexovat a tudíţ takový obsah nelze vyhledat pomocí běţných vyhledávačů. Přesto však Deep Web spadá do kategorie otevřených zdrojů.

Poprvé se pojmenování pro tento typ obsahu objevilo v roce 1994, kdy Jill Ellsworth pouţil termín „Invisible Web“. Toto někdy stále pouţívané označení "neviditelný web"

není zcela přesné, neboť problém nespočívá ve viditelnosti daného obsahu, ale v technikách, jakými dokáţou běţné vyhledávače obsah internetu procházet a indexovat.

Tomu také odpovídá odhad, ţe aţ 95 % obsahu hlubokého webu je veřejně dostupných [12]. Odhaduje se, ţe objem hlubokého webu je mnohanásobně větší neţ v případě tzv. povrchového webu (Surface Web). Nejčastěji je přejímán údaj o 400-550krát větším objemu hlubokého webu, tak jak jej jiţ v roce 2001 uvedla společnost Brightplanet.com v pravděpodobně první rozsáhlé studii na téma hlubokého webu. Dnešní rozsah hlubokého webu je pravděpodobně ještě mnohonásobně vyšší, ale konkrétní rozsah není současnými metodami přesně měřitelný.

(18)

18

Důvody, proč nemohou vyhledávací stroje některé stránky indexovat: [13]

na stránku nevedou ţádné odkazy a zároveň sama ţádné neobsahuje, dynamicky generovaný obsah stránek,

databáze,

obsah souborů některých formátů (např. doc, pdf, postscript, komprimované soubory apod.),

stránky s autorizovaným přístupem (chráněné heslem), stránky nepovolující indexaci,

omezení počtu indexovaných stránek v rámci jedné domény,

kontextuální web – stránky s obsahem lišícím se dle způsobu přístupu (např. dle IP adresy nebo dle předchozího pohybu na stránce),

skriptový obsah – stránky přístupné pouze přes odkazy vytvořené Java skriptem nebo obsah přístupný přes Flash nebo Ajax,

alternativní webové sluţby jako Tor Hidden Service či Freenet apod.

2.7 Uniklé zdroje a databáze

Obtíţně zařaditelným typem otevřených zdrojů jsou původně neveřejná či utajovaná data, informace, dokumenty, databáze nebo soubory, u nichţ došlo k úniku a následnému zveřejnění na internetu.

Přesto, ţe se jedná o údaje získané mnohdy nelegálním způsobem, jsou následně tyto údaje zveřejňovány a přístup k nim je velmi snadný. Kromě velmi známých příkladů serverů Cryptome.org či Wikileaks existuje stále více spíše drobnějších zdrojů zabývajících se podobnou aktivitou. Můţe jít o jednotlivce i o organizované skupiny (Anonymous, Team Ghost Shell apod.). V mnoha případech se jedná o hacktivistickou aktivitu.

2.7.1 Dokumenty

Typickým příkladem je známý server Wikileaks, který byl zaměřen na zveřejňování utajovaných dokumentů. V českých podmínkách vznikl podobný projekt pod názvem Pirateleaks. Dalším příkladem zveřejňování uniklých dokumentů je projekt Par-anoia.net.

Na webových stránkách www.par-anoia.net jsou k dispozici odkazy na uniklé dokumenty zahrnující například 14 GB dat Bank of America, 1,5 GB dat ministerstva komunikací a IT Ázerbajdţánu nebo 2,7 GB dat německé obchodní komory.

(19)

2.7.2 SQL databáze

Další podobné případy jsou úniky a zveřejnění kompletních SQL databází diskuzních fór.

V srpnu 2008 se tímto způsobem na internetu objevila databáze diskuzního fóra www.bloodandhonour.com, sdruţujícího především příznivce extrémní pravice, mezi nimiţ bylo i mnoho uţivatelů z ČR. Případů podobných úniků bylo více, například v roce 2009 únik německého hackerského fóra www.1337-crew.to nebo v roce 2010 únik databází německých hackerských diskuzních fór www.dream-crew.com a www.carders.cc7. Uniklé databáze umoţnily přístup k veškerému obsahu diskuzních fór, tedy včetně všech uţivatelských jmen, otisků hesel, e-mailových adres, IP adres přístupů nebo soukromé pošty jednotlivých uţivatelů.

2.7.3 E-maily

Příkladem úniku e-mailů je zveřejnění více neţ 70 000 e-mailů zaměstnanců firmy HBGary v únoru 2011. Tyto e-maily jsou k dispozici ke staţení nebo je lze procházet a vyhledávat v nich přímo online.

2.7.4 Databáze

Jako příklad z českého prostředí lze uvést únik a zveřejnění databáze členů ODS z února [14], resp. dubna 2012 [15]:

„V databázi se nachází 65 295 záznamů a 27 727 je označeno jako „člen ODS“. Podle obsahu databáze jsou ostatní záznamy (neoznačené jako „člen ODS“) buďto zájemci o zasílání informací o ODS nebo bývalými členy ODS.

Databáze ods_intranet obsahující tabulku s dalšími údaji o členech ODS – pohlaví, rodné číslo, datum narození, jméno a příjmení, tituly, oblast, profese, vzdělání, sektor, povolání, telefon, dva e-maily, členství v KSČ, údaje o členství a řadu dalších údajů (včetně přihlašovacího jména a hesla v MD5 podobě).“ [15]

2.7.5 Osobní údaje

Dalším zajímavým únikem soukromých osobních údajů je případ z roku 2006, kdy došlo ke zveřejnění přibliţně 36 miliónů dotazů, které za období tří měsíců hledalo přes 650 tisíc vybraných uţivatelů na portálu AOL. Tyto údaje byly anonymizovány, resp. IP adresy uţivatelů byly nahrazeny čísly. Přesto lze v mnoha případech dohledat konkrétní identitu

(20)

20 2.7.6 Příklad zneužití

V některých případech vede zveřejnění podobných údajů k jejich následnému zneuţití.

Příkladem je útok na stránky České televize ze dne 17. 3. 2012, ke kterému se přihlásil uţivatel s přezdívkou „p1r@t3z'sec“ [16]. Dne 10. 3. 2012 byly na serveru pastebin.com zveřejněny přístupové údaje celkem 189 uţivatelských účtů ČT. Databáze obsahovala uţivatelské ID, uţivatelské jméno a heslo (heslo nebylo zveřejněno v otevřené podobě, ale jako MD5 hash). Ke dni útoku na ČT (17. 3. 2012) bylo u této databáze umístěné na pastebin.com uvedeno pouze 60 zobrazení. Je velmi pravděpodobné, ţe v případě napadení ČT se nejednalo o sofistikovaný útok, ale právě o vyuţití údajů z výše zmíněné databáze.

Podobných útoků se objevuje velké mnoţství. Existují také projekty agregující tyto databáze – jedním z příkladů byla databáze OZ Data Centa na www.ozdc.net obsahující přes 4200 uniklých databází nebo odkazů na ně. Tento projekt byl dne 21. 2. 2013 ukončen.

(21)

3 Existující projekty v oblasti OSINT

3.1 Společné výzkumné centrum Evropské Komise (JRC)

Společné výzkumné centrum Evropské Komise neboli Joint Research Centre (JRC) sestává ze sedmi výzkumných institucí rozmístěných v pěti členských státech (Belgii, Německu, Itálii, Nizozemí a Španělsku).

„Posláním JRC je poskytovat cílenou vědeckou a technickou podporu pro koncepci, rozvoj, implementaci a sledování politik Evropské unie. Tento útvar nacházející se v těsné blízkosti rozhodovacích procesů slouží společným zájmům členských států nezávisle na komerčních a národních zájmech.“ [17]

Seznam výzkumných institucí při JRC:

The Institute for Reference Materials and Measurements (IRMM), The Institute for Transuranium Elements (ITU),

The Institute for Energy and Transport (IET),

The Institute for the Protection and Security of the Citizen (IPSC), The Institute for Environment and Sustainability (IES),

The Institute for Health and Consumer Protection (IHCP), The Institute for Prospective Technological Studies (IPTS).

Vyuţitím OSINT v praxi se v rámci JRC zabývá výzkumná skupina OPTIMA (Open Source Text Information Mining and Analysis) spadající pod GlobeSec (Global Security and Crisis Management Unit) při IPSC (Institute for the Protection and Security of the Citizen).

Nejvýznamnějším projektem OPTIMA je EMM (European Media Monitor), skládající se ze 4 částí:

NewsBrief, NewsExplorer, MediSys, Labs.

(22)

22

3.1.1 EMM Media Monitoring and Open Source Intelligence Tools EMM poskytuje sadu nástrojů pro automatizovaný monitoring a analýzu online médií (včetně sociálních médií), které jsou určeny pro informační specialisty z jednotlivých členských zemí EU. [18]

Monitorováno je přes 10000 RSS zdrojů a webových stránek, dále 3750 klíčových zpravodajských serverů z celého světa a 20 dalších komerčních zpravodajských databází.

Denně je zpracováno přes 150 000 zpráv v 60 různých jazycích.

Při zpracování jsou příspěvky nejprve extrahovány, dojde k detekci jazyka, rozpoznání entit, zjištění geografických údajů, nalezení duplikátů a následně k tvorbě výstupů, varování a reportů.

Obrázek 2 - schéma automatizované extrakce zpráv v rámci EMM zdroj: http://videolectures.net/wapa2010_goot_emm

3.1.2 Newsbrief

Webové stránky: www.emm.newsbrief.eu/NewsBrief/clusteredition/cs/latest.html

NewsBrief je veřejně dostupná webová aplikace zobrazující nejvýznamnější, resp. nejvíce diskutované události získané z lokálních zpravodajských serverů v celkem 60 různých jazycích. K aktualizaci dochází kaţdých deset minut. Zprávy jsou kategorizovány dle témat a lokality.

(23)

3.1.3 Newswxplorer

Webové stránky: www.emm.newsexplorer.eu/NewsExplorer/home/en/latest.html

Na konci kaţdého dne jsou získané zprávy získané pomocí EMM seskupeny do různých kategorií (pokud informují o stejné události nebo jsou tematicky příbuzné). Dále jsou z textu extrahovány osoby, organizace a lokality, které jsou nejčastěji v získaných zprávách zmíněny. Nástroj umoţňuje nalézt informace o osobách nezávisle na pouţitém tvaru jména

a detekuje citací od osob a o osobách. Součástí je mapa, zobrazující události dle lokality, a kalendář pro zobrazení článků z minulosti.

3.1.4 Medisys

Webové stránky: www.medisys.newsbrief.eu/medisys/homeedition/cs/home.html

MediSys byl vyvinut ve spolupráci JRC s EC Directorate General SANCO. Jedná se o webovou sluţbu agregující články týkající se zdravotnictví. Na základě automatického sběru dat a jejich analýzy jsou generována varování a reporty. Pro analýzu dat jsou pouţity všechny zdroje projektu EMM a navíc dalších 400 specializovaných zdrojů týkajících se oblasti veřejného zdraví a zdravotnictví. Nástroj umoţňuje pokročilé filtrování, analýzu a vizualizaci informací. Pro detekování relevantních zpráv jsou pouţity tisíce vyhledávacích dotazů ve všech dostupných jazycích. Upozornění jsou generována kaţdých 20 minut a společně s pravidelnými reporty jsou poskytovány mnoha veřejným zdravotnickým organizacím.

3.1.5 Labs

Webové stránky: www.emm-labs.jrc.it/

EMM-Labs je webová sluţba poskytující přístup k pokročilým analytickým systémům vycházejících z dat získaných v rámci projektu EMM. V rámci Labs jsou automaticky generovány statistiky o zprávách extrahovaných v rámci EMM (konkrétně o tématech a zemích, kterých se zprávy týkají). Součástí je vizualizace těchto informací prostřednictvím map, grafů a tabulek. Labs umoţňuje monitorování automaticky extrahovaných násilných událostí a katastrof a zobrazení těchto událostí prostřednictvím mapy (v prohlíţeči nebo v Google Earth). Nástroj dále umoţňuje vizualizaci automaticky

(24)

24

3.2 FRONTEX

Webové stránky: http://www.frontex.europa.eu/

Agentura FRONTEX neboli celým názvem European Agency for the Management of Operational Cooperation at the External Borders of the Member States of the European Union (v češtině Evropská agentura pro řízení operativní spolupráce na vnějších hranicích členských států EU) vznikla v roce 2004.

Jak vyplývá ze Zprávy o hodnocení a budoucím rozvoji Evropské agentury pro ochranu vnějších hranic (FRONTEX): „Cílem agentury FRONTEX je zlepšit integrované řízení vnějších hranic členských států Evropské unie zjednodušením a účinnějším uplatňováním stávajících i budoucích opatření Společenství týkajících se řízení vnějších hranic, tj. pozemních i námořních hranic členských států a jejich letišť a námořních přístavů, na které se vztahují právní předpisy Společenství o překračování vnějších hranic osobami.“

[19]

V rámci svého působení vyuţívá FRONTEX metody OSINT. Především se jedná o vícejazyčný systém pro extrahování událostí, který byl vybudován jako nadstavba nad EMM (European Media Monitor) spojením se systémy NEXUS (který je vyvíjen v JRC) a PULS (vyvíjen na Helsinské univerzitě). Systém umoţňuje automatickou extrakci a analýzu článků z online tisku (vyuţívány jsou pouze otevřené zdroje s cílem získat informace o určitých typech událostí (nelegální migrace, pašování, katastrofy způsobené člověkem, přírodní katastrofy, násilí, ozbrojené konflikty, zdravotní rizika, únosy). Systém umoţňuje automaticky extrahovat typ události, čas, lokalitu, počet zadrţených osob, jména, případně popis zadrţení. V současné době systém funguje v plném rozsahu v angličtině, španělštině a italštině a v omezeném rozsahu ve francouzštině, portugalštině, arabštině a ruštině. Výstup je zobrazen v aplikaci Google Earth za pomoci sady ikon označujících konkrétní typ události s moţností zobrazení podrobných informací o dané události.

(25)

3.3 Counterterrorism Research Lab

Webové stránky: webové stránky nejsou k dispozici (provoz CTR byl ukončen)

V roce 2009 vzniklo na The Maersk Mc-Kinney Moller Institute při University of Southern Denmark oddělení The Counterterrorism Research Lab (CTR). Cílem CTR byl výzkum pokročilých matematických modelů, nových algoritmů a technik a vývoji softwarových nástrojů pro získávání informací z otevřených zdrojů. Dalším cílem byla analýza, vizualizace, dolování, předpovídání a simulování teroristických sítí s cílem předejít teroristickým úkolům. Vzniku CTR předcházel jiţ od roku 2003 vývoj nástroje iMiner, který byl určen pro investigativní dolování dat. Nástroj iMiner umoţňoval prostřednictvím matematických modelů určit klíčové osoby v rámci teroristické sítě. Dle jednoho z autorů tohoto nástroje provily o iMiner zájem zpravodajské sluţby Dánska i dalších zemí. [20]

Vývoj tohoto nástroje byl ukončen v roce 2009, kdy na něj navázal vývoj sady nástrojů pod názvem CrimeFighter Toolbox.

Od roku 2009 byl vyvíjen nástroj CrimeFighter Toolbox. Tento nástroj se skládá ze znalostní databáze a sady nástrojů, které podporují různé aktivity v rámci kriminálního vyšetřování: nástroje pro získávání dat prostřednictvím web harvestingu, nástroje pro podporu informační analýzy, nástroje pro vyhledávání v rámci znalostní databáze a dále algoritmy pro data mining, matematické modelování, analýzu sociálních sítí, teorii grafů, analýzu vztahů a znalostní management. Dle autorů nástroje se v době vzniku jednalo o nejkomplexnější nástroj (resp. sadu nástrojů a technik) pro protiteroristické pouţití. [21]

CTR pořádala či spolupořádala několik konferencí na téma OSINT, CT-OSINT Workshop 2009

International Workshop on Counterterrorism and OSINT, OSINT-WM 2010 - 2012

International Symposium on Open Source Intelligence & Web Mining, ASONAM 2010 - 2011

International Conference on Advances in Social Networks Analysis and Mining, EISIC 2011 - 2012

European Intelligence and Security Informatics Conference.

CTR v současné době jiţ neexistuje, ale většina jejích aktivit přešla pod Laboratoř informačního a znalostního managementu (Information and Knowledge Management Lab – IKM) spadající taktéţ pod the Maersk Mc-Kinney Moller Institute, University of Southern Denmark.

(26)

26

3.4 EUROSINT

Webové stránky EUROSINT: https://www.eurosint.eu/

The EUROSINT Forum je belgická nezisková asociace věnující se evropské spolupráci a pouţití OSINT pro sníţení rizik a hrozeb pro mír a bezpečnost. EUROSINT Forum vzniklo v roce 2006 s podporou Justice, Liberty and Security Directorate (JLS) při Evropské komisi. Cílem EUROSINT Forum je identifikovat potřeby v rámci procesu, metodologie a nástrojích OSINT a vytvořit platformu pro komunikaci a sdílení myšlenek mezi informačními specialisty, vývojáři a uţivateli.

Mezi členy EUROSINT patří významné evropské instituce a organizace zabývající se OSINT v praxi – například FRONTEX nebo JRC.

3.5 IHS a Jane’s Information Group

Webové stránky IHS: http://www.ihs.com/

Webové stránky Jane’s: http://www.janes.com/

Společnost IHS (Information Handling Services, Inc.) je úspěšným příkladem vyuţití OSINT v soukromé sféře. IHS zaměstnává přes 6500 osob v celkem 31 zemích celého světa a patří mezi nejvýznamnější společnosti věnující se zpracování informací. Společnost IHS poskytuje informace, analýzy a predikce týkající se širokého spektra průmyslových odvětví. V roce 2007 zakoupila IHS britskou společnost Jane’s information group, která se rovněţ věnuje tvorbě OSINT analýz v oblasti vojenství, obrany, bezpečnosti, dopravy a další témata zaměřena na potřeby orgánů vynucujících právo. Konzultační odnoţ s názvem Jane's Strategic Advisory Services pořádá vícedenní komplexní školení v oblasti OSINT.

(27)

4 Metody OSINT

Tato kapitola popisuje metody pouţívané v rámci vyhledávání a zpracování otevřených informací na internetu. Cílem této kapitoly není podrobný podpis metod vyhledávání informací z různých informačních zdrojů, neboť této problematice byla věnována část bakalářské práce, na kterou tato diplomová práce navazuje.

4.1 Zpravodajský cyklus

Jedná se o tradiční ustálený teoretický koncept obecné zpravodajské činnosti. Přeneseně se tento koncept pouţívá také v dalších oblastech a to zejména v oblasti OSINT nebo Competitive Intelligence. Zpravodajský cyklus označuje na sebe navazující fáze při získávání a zpracování informací a tvorbě výstupů. Jde o transformaci původního velkého mnoţství nestrukturovaných dat do srozumitelné podoby. V novější literatuře se tento cyklus označuje téţ jako zpravodajský proces nebo produkční proces.

Zpravodajský cyklus vychází z konceptu rozhodovacího cyklu (Decision making cycle), který je znám pod označením OODA a skládá se z fází Observe, Orient, Decide a Act (pozoruj, orientuj se, rozhodni, čiň). Na rozdíl od OODA cyklu jsou ve zpravodajském cyklu důsledně rozlišováni producenti a konzumenti produktu. [22]

Zpravodajský cyklus zahrnuje několik na sebe navazujících fází, jejichţ počet není pevně stanoven, ale nejčastěji se pohybuje od čtyř do osmi fází. Příkladem je zpravodajský cyklus sestávající z pěti částí, tak jak je definován dle CIA [23]. Se zpravodajským cyklem v tomto rozsahu se lze v literatuře setkat také pod názvem OSINT Cycle:

plánování a řízení (Planning and Direction), sběr (Collection),

zpracování (Processing),

analýza a produkce (Analysis and Production), šíření (Dissemination).

(28)

28

Obrázek 3 - zpravodajský cyklus pro oblast OSINT

zdroj: http://langtech.jrc.ec.europa.eu/mmdss2007/htdocs/Presentations/Docs/MMDSS_Best.pdf

(29)

4.2 Zpracování a analýza informací

Ve fázích zpracování a analýzy informací je stěţejním úkolem zorientovat se ve velkém mnoţství nalezených informací a vyhodnotit jejich relevanci. Otevřené zdroje ze své podstaty nezajišťují vţdy objektivní nebo pravdivé informace, coţ činí jejich zpracování mnohdy velmi náročné. Riziko tedy spočívá ve vyuţití neověřených informací, či informací z méně důvěryhodných zdrojů. OSINT proces se tedy skládá z několika kroků, které umoţňují interpretaci získaných informací a vyhodnocení jejich spolehlivosti.

Níţe je popsán obecný postup OSINT procesu v kontextu zpravodajského, resp. OSINT cyklu:

plánování a řízení (Planning and Direction)

o orientace v zadání a definování konkrétního cíle, o identifikace moţných zdrojů a postupů,

sběr (Collection) o vyhledávání, o sběr,

o odpovídající ukládání dat, zpracování (Processing)

o extrahování dat, o čištění dat,

analýza a produkce (Analysis and Production) o čtení a pochopení nalezených zdrojů, o evaluace zdrojů,

o syntéza nalezených informací,

o začlenění informací do širšího geoprostorového a časového kontextu, o strukturování informací,

o pečlivá tvorba analytického shrnutí / anotace, šíření (Dissemination)

o tvorba odpovídajícího výstupu ve formě srozumitelné (obsahově i formálně) cílovému čtenáři.

(30)

30

4.3 Vyhodnocení kredibility informací

Správné vyhodnocení kredibility informací je v oblasti OSINT velmi důleţitý a zároveň obtíţný úkol. Vzhledem k povaze získaných informací (například v případě monitorování příspěvků v rámci sociálních médií, blogosféry, diskusních fór nebo komentářů pod články apod.) se velmi často jedná o neověřené a (především z vědeckého hlediska) nerelevantní informace. Aby bylo moţné rozlišit, které z takto získaných informací mohou mít pro dané téma informační hodnotu, je nutné tyto informace podrobit procesu vyhodnocení.

Kritéria vyhodnocení jsou následující:

Přesnost (Accuracy),

Kredibilita a váha (Credibility & Authority), Aktuálnost (Currency),

Objektivita (Objectivity), Relevance (Relevancy).

Výše uvedená kritéria lze vyhodnotit na základě následujících znaků:

4.3.1 Přesnost

počet informačních zdrojů, na kterých se informace vyskytuje,

ověření nezávislosti informačních zdrojů, ze kterých informace pochází, ověření konzistence informací nalezené na více informačních zdrojích,

obecné ověření důvěryhodnosti nalezených informačních zdrojů (zda jsou ostatní informace z daného zdroje důvěryhodné).

4.3.2 Kredibilita a váha

ověření, zda je moţná jednoznačná identifikace daného informačního zdroje (nejčastěji webové stránky),

zjištění údajů o provozovateli webové stránky nebo autorovi konkrétní informace, ověření, zda nalezený zdroj vykazuje známky moţného ovlivnění (názorové skupiny, vlastník konkrétních médií apod.),

zjištění návštěvnosti webových stránek nebo citovanosti daného zdroje,

v případě webových stránek ověření, zda se v minulosti staly terčem kybernetického útoku.

4.3.3 Aktuálnost

zjištění, zda je daný informační zdroj, resp. konkrétní informace aktuální,

u některých zdrojů lze dohledat datum a čas (např. u článků, v diskusních fórech apod.), případně ověření, zda existuje alternativní moţnost zjištění (např. z metadat dokumentů nebo pomocí The wayback machine apod.).

(31)

4.3.4 Objektivita

ověření, zda nalezený zdroj zastupuje názory jednotlivce či nějaké organizace, ověření, zda dané informace odpovídají myšlenkám některé známé názorové skupiny,

ověření, zda se v případě webových stránek jedná o oficiální webové stránky, ověření, zda se jedná o hlavní webovou stránku, či o některou podstránku (např.

„microsite“),

zjištění na jaké další zdroje stránka odkazuje či zda je k dispozici seznam doporučených odkazů nebo odkazů na příbuzné organizace nebo podobná témata.

4.3.5 Relevance

posouzení, zda nalezené informace odpovídají předmětu vyhledávání a zda poskytují odpovědi na stanovené otázky.

4.3.6 Škála pro vyhodnocení kredibility

Pro rozlišení důvěryhodnosti (kredibility) zdroje nebo konkrétní informace lze pouţít číselnou škálu.

Škála pouţitelná pro hodnocení důvěryhodnosti (kredibility) konkrétní informace [22]:

1. pravdivá informace = verifikována i z jiných nezávislých zdrojů,

2. pravděpodobně pravdivá = logicky skloubena s jinými, zapadá do kontextu, odjinud ale potvrzena není,

3. asi pravdivá = není potvrzena, ale ani vyvrácena, je logická, ale nezpůsobilá pro závěr, protoţe např. příliš obecná nebo fragmentární, nebo naopak vybočující, pochybná, ale moţná pravdivá = nyní nepravděpodobná, ale není nelogická, tj.

nemůţeme přijmout ani zamítnout, nelze vyloučit, ţe získá v dalším vývoji platnost,

4. nepravděpodobná = je popřena jinými informacemi, nelogická, neodpovídá kontextu,

5. nelze posoudit = v současnosti chybí data ke srovnání.

(32)

32

5 Nástroje OSINT

Cílem této kapitoly je poskytnout přehled nástrojů vhodných pro oblast OSINT včetně jejich stručného popisu a srovnání. Smyslem je tedy především uvést stručné zhodnocení potenciálního přínosu daných nástrojů pro oblast OSINT.

Testované nástroje byly rozděleny do několika kategorií dle účelu jejich pouţití. Z důvodu nesourodosti nástrojů nelze provést přímé srovnání všech uvedených nástrojů. V závěru kaţdé podkapitoly je provedeno dílčí srovnání nástrojů formou tabulky nebo formou stručného slovního hodnocení, pokud nejde o přímo srovnatelné nástroje. Jednotlivé nástroje mají své konkrétní místo v rámci OSINT procesu, resp. zpravodajského cyklu.

V současné době však není k dispozici komplexní komerční nástroj, který by umoţňoval pouţití pro všechny fáze OSINT procesu. Proto je velmi důleţité rozpoznat a vhodně vyuţít určitou kombinaci těchto nástrojů pro konkrétní pouţití.

Cílem není podrobný popis všech funkcí uvedených nástrojů, neboť to rozsah této práce neumoţňuje. V případě většiny nástrojů je k dispozici dokumentace, která podrobněji popisuje instalaci i samotnou práci s daným nástrojem. Všechny uvedené nástroje (s výjimkou nástrojů zaloţených na Cogito semantic technology a Basis Technology) byly autorem práce testovány v praxi. Výše uvedené nástroje nebyly pro tuto práci zapůjčeny se zdůvodněním, ţe se jedná o nástroje, jejichţ pořizovací náklady daleko přesahují moţnosti akademické sféry; v obou případech byly společnostmi poskytnuty propagační materiály, ze kterých bylo při popisu a srovnávání nástrojů vycházeno.

Srovnávané kategorie nástrojů:

vyhledávače a metavyhledávače, archivní zobrazení webových stránek kopírování webových stránek,

síťová a technická infrastruktura, metadata,

údaje o uţivatelích, monitoring sociálních sítí, komplexní nástroje pro OSINT, pokročilá analýza textu,

vizuální analýza dat.

(33)

5.1 Vyhledávače a metavyhledávače

Základní vyhledávání probíhá prostřednictvím vyhledávačů (např. Google) nebo metavyhledávačů, které umoţňují vyhledávání ve více vyhledávačích zároveň (např.

Copernic Agent nebo český nástroj Professional Web Orchestra). Pro přesnější výsledky je nutné pouţít vyhledávací operátory.

Výhodou běţných vyhledávačů je velmi snadná práce s nimi a mnohdy jsou nejlepší volbou pro základní vyhledávání k danému tématu, společnosti či osobě. Na základě výsledků z vyhledávačů lze dále směřovat další způsoby vyhledávání a sběru informací.

Obecnou nevýhodou vyhledávačů je nemoţnost vyhledávání v neindexovaném obsahu internetu.

V současnosti je celosvětově nejpouţívanějším vyhledávačem Google, ale existuje velmi mnoho dalších vyhledávačů. Dalšími typickými příklady jsou Bing, Yahoo či Seznam.

Mezi typické zástupce metavyhledávačů patří desktopová aplikace Copernic Agent. Pro přesnější výsledky vyhledávání je vhodné pouţívat vyhledávací operátory (booleovské operátory či zpřesňující parametry, tzv. „Google Dorks“ – více viz kapitola Google Hacking).

Tato kapitola si neklade za cíl podrobný popis postupu vyhledávání pomocí vyhledávačů, neboť jde o základní metodu vyhledávání informací, jejíţ znalost je v dnešní době samozřejmostí. Protoţe se však jedná o velmi důleţitou metodu internetového vyhledávání, je zde pro úplnost tato moţnost alespoň zmíněna.

Dále je vhodné vyhledávat v těchto internetových zdrojích:

internetové katalogy (Web Directories), databáze,

specializované nástroje pro vyhledávání informací o osobách, sociální média,

blogosféra, diskuzní fóra,

chat, IRC, Instant Messaging, Usenet/Newsgroups,

mapy,

vyhledávání souborů, Deep web.

(34)

34 5.1.1 Google Alerts

Google Alerts (Upozornění Google) je sluţba monitorující obsah nově indexovaný vyhledávačem Google (Web, Zprávy, blogy, video, diskusní skupiny) dle nastavených klíčových slov. V případě, ţe se objeví nově indexovaný obsah s daným klíčovým slovem, je uţivateli automaticky zaslána notifikace. Tato sluţba je velmi vhodná pro průběţné monitorování odkazů týkajících se určitého tématu. Uţivatel zadá e-mailovou adresu, na kterou jsou příspěvky zasílány (moţné frekvence zasílání jsou průběţně, jednou denně a jednou týdně). Jedná se o jednoduchý, ale zároveň účinný nástroj pro průběţné sledování výsledků vyhledávání pro libovolná klíčová slova.

Sluţba Google Alerts (Upozornění Google) umoţňuje zejména:

sledovat vývoj události,

drţet krok s konkurencí nebo vývojem v oboru,

získávat nejnovější informace o celebritách a událostech, vést si tabulky o oblíbených sportovních týmech. [24]

5.1.2 Google hacking

Google hacking označuje metodu vyhledávání prostřednictvím vyhledávače Google za pouţití pokročilých operátorů (tzv. „Google dorks“) s cílem vyhledat specifické textové řetězce.

Pomocí Google hackingu lze nalézt například stránky obsahující přihlašovací rozhraní, soubory obsahující přihlašovací údaje a hesla, chybové hlášky webových aplikací obsahující citlivá data, stránky obsahující známé zranitelnosti, síťová zařízení a datová úloţiště na síti, tiskárny nebo IP kamery.

V rámci projektu Google Hacking Database dostupného na www.exploit-db.com/google- dorks/ jsou zveřejňovány vybrané zajímavé řetězce umoţňující pouţití Google dorks pro vyhledání odkazů například s následujícím obsahem:

soubory obsahující uţivatelská jména nebo hesla, detekce webových serverů,

vyhledávání známých zranitelností, vyhledávání chybových hlášek, stránky obsahující přihlašovací okna, online zařízení.

(35)

Zneužívání Google hackingu

Vzhledem k vzrůstajícímu zneuţívání moţností, které pouţití pokročilých operátorů při vyhledávání na Goolge nabízí, byly ze strany Google některé dotazy zakázány a není moţné je nadále pouţívat. V případě pouţití takového dotazu se objeví chybová hláška informující o pouţití nepovoleného vyhledávacího řetězce (zároveň dojde k monitorování IP adresy). Jedná se především o typ dotazů, které vedou k moţnému zneuţití, tedy především odhalování některých zranitelností. Oficiální seznam nepovolených dotazů však neexistuje.

Zneuţití Google hackingu by mohlo vést k protiprávnímu jednání dle následujících paragrafů Trestního zákoníku:„Jednání pachatele trestného činu podle § 257a TrZ spočívá v získání přístupu k nosiči informací a zároveň: v neoprávněném užití informací (§ 257a odst. 1a); ve zničení, poškození nebo učinění informací neupotřebitelnými (§ 257a odst.

1b); v zásahu do technického nebo programového vybavení počítače (§ 257a odst. 1c).“

[25]

(36)

36

Tabulka operátorů pro Google hacking, včetně příkladu jejich použití: [26]

Operátor Určení Příklad použití

site omezuje výsledek na strany nacházející se v zadané doméně

site:google.com fox najde všechny strany obsahující v textu výraz fox, které se nacházejí v doméně *.google.com

intitle omezuje výsledky na dokumenty obsahující zadaný výraz ve jméně

intitle:fox fire najde všechny strany obsahující výraz fox ve jméně a fire v textu allintitle

omezuje výsledky na dokumenty obsahující všechny zadané řetězce v titulku

allintitle:fox fire najde všechny strany obsahující v titulku výrazy fox a fire; funguje podobně jako intitle:fox intitle:fire

inurl omezuje výsledky na strany bsahující zadaný řetězec v URL adrese

inurl:fox fire najde strany obsahující v textu výraz firea fox v URL adrese

allinurl

omezuje výsledky na strany obsahující všechny zadané výrazy v URL adrese

allinurl:fox fire najde strany obsahující v URL adrese výrazy fox a fire; funguje podobně jako inurl:fox inurl:fire

filetype, ext

omezuje výsledky na dokumenty zadaného typu

filetype:pdf fire vrátí dokumenty PDF obsahující výraz fire a filetype:xls fox vrátí dokumenty tabulkového kalkulátoru Excel obsahující fox

numrange

omezí výsledky na dokumenty obsahující ve svém obsahu číslo ze zadaného rozsahu

numrange:1-100 fire vrátí strany

obsahující hodnotu z rozsahu od 1 do 100 a výraz fire. Stejný efekt je možno získat dotazem: 1..100 fire

link omezí výsledky na strany obsahující odkazy na zadané umístění

link:www.google.com vrátí dokumenty obsahující nejméně jeden odkaz na stranu www.google.com

inanchor

omezí výsledky na strany s odkazy obsahující v popise zadaný výraz

inanchor:fire vrátí dokumenty obsahující odkazy, které mají v popisu výraz fire (ne v URL adrese, na kterou odkazují, ale v podtržené části textu)

allintext

omezí výsledky na dokumenty obsahující zadaný výraz v textu a současně neobsahující jej v popise, odkazech a URL adrese

allintext:"fire fox" vrátí dokumenty, které obsahují výraz fire fox pouze v textu

+ vynutí častý výskyt zadaného výrazu ve výsledcích

+fire třídí výsledky dle počtu výskytů výrazu fire

- vynutí nevyskytování se

zadaného výrazu ve výsledcích -fire vrátí dokumenty neobsahující výraz fire

„ “ umožňuje hledat celé fráze, nejenom výrazy

"fire fox" vrátí dokumenty obsahující frázi fire fox

. je zástupcem jednoho znaku fire.fox vrátí dokumenty obsahující fráze fire fox, fireAfox, fire1fox, fire-fox apod.

* je zástupcem libovolného výrazu fire * fox vrátí dokumenty obsahující frázi fire the fox, fire in fox, fire or fox apod.

| logické OR "fire fox" | firefox vrátí dokumenty

obsahující frázi fire fox nebo výraz firefox Tabulka 1 - tabulka operátorů pro Google hacking, včetně příkladu jejich použití

zdroj: PIOTROWSKI, M. Nebezpečný Google – vyhledávání důvěrných informací. Hakin9: jak se bránit. Warszawa:

Software-Wydawnictwo Sp z o.o, 2005, č. 04. ISSN 1214-7710.

(37)

5.2 Archivní zobrazení webových stránek

5.2.1 Google Cache

Google umoţňuje vyhledávání pouze na stránkách, které jsou předem indexovány. Google v roce 2008 uvedl, ţe jejich vyhledávač prohledal a indexoval materiál z více neţ 1 trilionu unikátních URL adres. [27] Indexace webových stránek není moţná v případě existence dynamického obsahu nebo v případě nutnosti autorizovaného přístupu ke stránce, kdy uţivatel zadává své uţivatelské jméno a heslo (například diskuzní fóra). Přesto jsou k dispozici i výsledky zobrazující obsah některých diskuzních fór (či jiných stránek vyţadujících autentizaci) a to díky moţnosti zobrazení výsledků z vyrovnávací paměti vyhledávače výběrem odkazu „Archiv“. Pro zobrazení stránek z vyrovnávací paměti vyhledávače lze také přímo v poli pro vyhledávání pouţít rozšiřující operátor „cache:“, tedy například zadáním řetězce: „cache:bivs.cz“ lze získat pohled na stránku www.bivs.cz indexovanou v minulosti. Je však vţdy zobrazen pouze poslední indexovaný pohled na stánku a nelze se posouvat v čase dále zpět k dalším předchozím indexovaným verzím stránek.

5.2.2 Wayback Machine

Webové stránky: http://archive.org/web/web.php

Wayback Machine je sluţba, kterou provozuje organizace Internet Archive, umoţňující vyhledávání obsahu jiţ neexistujících stránek nebo zobrazení webové stránky v určitém okamţiku v minulosti. Wayback Machine nabízí archivní pohled na webové stránky zpět v minulosti aţ do roku 1996. Jedná se o nejrozsáhlejší archiv tohoto typu.

5.2.3 WebArchiv

Webové stránky: http://www.webarchiv.cz/

V ČR existuje obdobná sluţba WebArchiv, kterou od roku 2000 zajišťuje Národní knihovna ČR ve spolupráci s Moravskou zemskou knihovnou a Ústavem výpočetní techniky Masarykovy univerzity. Pro archivaci webového obsahu je pouţívána technologie vyvinutá organizací Internet Archive (jde o stejnou technologii jako v případě Wayback Machine). Nevýhodou projektu WebAarchiv je indexace pouze obsahu, s jehoţ indexací autor souhlasí. Některé další zdroje, u kterých provozovatel nedal souhlas s archivací, lze

(38)

38

celkem 3707 smluv s poskytovateli obsahu o jeho zařazení k indexaci. WebArchiv obsahoval 60,3 TB dat k 1. 6. 2012. První dokument byl archivován 3. 9. 2001. [28]

5.2.4 Srovnání

Sluţby Google Cache, Wayback Machine a WebArchiv umoţňují archivní pohled na stránky, tak jak byly v minulosti indexovány. Pouţití kaţdého nástroje je však odlišné.

Google Cache umoţňuje pohled na poslední indexovanou verzi webových stránek, coţ je výrazný rozdíl oproti dalším zmíněným sluţbám, které umoţňují pohled na kaţdou indexovanou verzi zpět v minulosti (indexace probíhá nepravidelně; obecně ale platí, ţe čím je stránka více navštěvována, tím častěji dochází k její indexaci). Výhodou Google Cache je moţnost získat v určitých případech pohled na stránku (nejčastěji diskuzní fórum) vyţadující k přístupu autentizaci.

Wayback Machine i Webarchive pouţívají stejnou metodu sběru dat i indexace.

Technologicky jde tedy o velmi podobné sluţby. Výhodou sluţby Webarchive je cílení na obsah českého internetu a zaměření především na kvalitní zdroje informací. Nevýhodou je indexace pouze obsahu, s jehoţ archivací majitel autorských práv souhlasí (v souladu se Zákonem č. 121/2000 Sb.).

Wayback Machine není omezen autorskými právy a zaměřuje se na libovolný internetový obsah. Výhodou je dále indexace obsahu jiţ od roku 1996 (oproti Webarchiv, který začal s indexací aţ v roce 2001).

Odkazy

Související dokumenty

To v jaké míře se bude controlling podílet na řízení závisí na velikosti podniku, vývoji controllingu v podniku a samozřejmě na osobách, které stojí v čele vedení a

Personální řízení je systémem strategicky řízených procesů. Jedním z procesů, při kterém jsou využívány metody a nástroje personálního řízení, je získávání

Normy jsou uvedeny převážně v podobě tabulek pro jednotlivé vzory, případně stupně (úrovně) Grassiho testu a uplatňují zejména percentuální vyjádření

 záznam odpovědi také může vyvolat zkreslení – může narušit přirozený charakter interakce.  pro respondenta může být nepřijatelné vyslovit nepříjemnou

 Nástroje tvořící rámec (nástroje politiky řádu/systémotvorné; nelze je zřejmě kvantifikovat)- určují/mění:..  rámec

Průkazné negativní změny půdních vlastností bude nutné v nejkratším termínu odstranit, v opačném případě bude vyčíslena finanční kompenzace odvíjející se

V rámci rozhovorů jsem zkoumala především face validitu nástrojů, nakolik respondenti hodnotili jejich výsledky jako odpovídající, tedy nakolik jsou tyto nástroje

git diff --cached Compares your staged changes to your last commit... Ignoring files and