• Nebyly nalezeny žádné výsledky

Vybrané nástroje pro realizaci

4 Tvorba datových skladů

4.1 Vybrané nástroje pro realizaci

Poskytovatelé služeb datové virtualizace jako jsou Denodo, IBM, Informatica, Microsoft, Oracle, SAP nebo TIBCO jsou kladně hodnoceny i v dalších výzkumech (29) (30) (31), výběr nástroje pro vytvoření datového skladu byl tedy zúžen na tento soubor nástrojů.

Kritéria pro konečný výběr dvou nástrojů byla poté následující –

• Atraktivita práce s nástrojem

• Dostupnost bezplatné licence

• Možnost integrace požadovaných zdrojů dat

• Dostupnost návodů pro práci s nástrojem a integrace dat v nástroji

• Popularita nástroje

• Potenciál vývoje nástroje

Vybírané byly pouze dva nástroje pro dvě různé realizace, které braly v potaz i různorodost druhů datové virtualizace probírané v předešlé části práce. Některé nástroje datové virtualizace (např. IBM Cloud Pak for Data) vyžadují pro správnou funkčnost instalaci jiných technologií a nasazení na cloudový systém, který musí být zpoplatněný. Jiné nástroje (jako např. TIBCO Data Virtualization) pak nenabízí zájemcům žádnou zkušební verzi pro testovací účely. Tyto typy nástrojů tudíž nemohly při výběru být brány v potaz.

Prvním z vybraných nástrojů je platforma určena čistě pro datovou virtualizaci – Denodo Express. Tato platforma je bezplatnou a omezenou verzí Denodo Platform, splňuje ovšem všechna kritéria předem stanovená. Denodo je považováno za hlavního popularizátora technologie datové virtualizaci a firma Denodo Technologies má tuto platformu jako svůj hlavní produkt, je tudíž možné předpokládat, že tento nástroj bude nadále vyvíjen a vylepšován, aby dosahoval co nejvyšších kvalit a uměl co nejefektivněji využít všechny přednosti datové virtualizace. Nástroj jako takový je komplexní a má velké množství funkcionalit, které budou detailněji probrané v další části práce. Její omezená verze také obsahuje většinu vyžadovaných možných datových zdrojů, které budou v rámci této práce integrovány. Je tedy celkově zajímavým kandidátem pro vyzkoušení datové virtualizace ve své ryzí formě.

Druhým vybraným nástrojem byla extenze většího databázového systému SQL Server, tj.

PolyBase. Tento nástroj není žádným významným hráčem v poli datové virtualizace, ovšem SQL Server jako takový je jedním z nejpopulárnějších databázových systémů na světě, proto je možnost vyzkoušet její novou technologii pro datovou virtualizaci zajímavá. Celý systém i s PolyBase je také dostupný zdarma ve formě lokální instalace SQL Server Developer Edition pro neprodukční využití. PolyBase je mladá technologie, vývojáři Microsoftu ovšem u ní jen v roce 2020 udělali velký pokrok co se týče vývoje nových funkcionalit a celkové funkčnosti v rozhraní nástroji Azure Data Studio, tudíž je potenciál dalšího vylepšování velký. Nástroj sice

48

v současnosti neobsahuje velké množství datových zdrojů, ke kterým je schopno přistupovat, její možnosti integrace datových zdrojů jsou ovšem dostatečné pro účely této práce. A vzhledem k tomu, že se jedná o extenzi systému SQL Server, který je známý velice kvalitně zpracovanou dokumentací, tak se u PolyBase dá očekávat, že za sebou bude mít hodnotný materiál pro studium technologie.

Oba tyto nástroje a jejich funkcionality se v následujících kapitolách rozeberou detailněji.

4.1.1 Denodo Platform

V současnosti je vlajkovým produktem firmy Denodo Technologies její řešení datové virtualizace zvané Denodo Platform a její současná verze 7.0.

Denodo Platform přináší kompletní řešení podnikové datové virtualizace i s možnostmi: (32)

• Paralelního zpracování přímo v paměti, které dále zrychluje přístup k datům

• Dynamické optimalizace dotazů, které určuje nejvýhodnější dotazovací strategie pro každé zpracování dotazů a zrychluje tím proces přístupu k datům

• Grafický interface zaměřený k řešení potřeb IT i byznys stakeholderů

• Jednoduché řešení bezpečnosti a governance pomocí otevření cesty k celé organizační datové sféře jedním bodem přístupu kontroly a administrace

• Dostupnost na předních cloudových řešení jako jsou Amazon Web Services, Microsoft Azure nebo Docker

• Datový katalog, který poskytuje přehledný náhled do dat pomocí kontextového rozhraní s možností vyhledávání v datech

Obrázek 12 Komponenty Denodo Platform 7.0 (zdroj: (33))

49

Denodo také podporuje konektivitu s širokým množstvím různých datových zdrojů od známých i méně známých poskytovatelů, celý souhrn datových zdrojů je následovný:

Obrázek 13 Všechny dostupné datové zdroje Denodo Platform 7.0 (zdroj: (33))

Je ovšem nutné dodat, že některé možnosti „zlepšení“ pohybu dat (jako jsou možnosti cachingu, masivně paralelního zpracování nebo způsoby zveřejnění) v Denodo nejsou dostupné pro všechny datové zdroje a jsou vázány možnostmi datových zdrojů.

Denodo kromě hlavního rozhraní pro vývoj, datového katalogu pro hledání dat datovými analytiky také poskytuje nástroj pro monitoring a diagnostiku, který umožňuje monitorovat server datové virtualizace a řešit případné problémy.

V celé platformě dotazy píšeme pomocí nadstavby dotazovacího jazyka SQL, které se zde nazývá VQL (Virtual Query Language). Tento jazyk rozšiřuje klasické SQL o své vlastní definice pohledů, obalů a různých funkcí.

50 4.1.2 PolyBase

PolyBase je rozšíření relačního databázového systému SQL Server od společnosti Microsoft, který umožňuje číst data z externích zdrojů pomocí jejího jazyka T-SQL. Rozšíření PolyBase přišlo spolu s verzí SQL Server 2016, primárně pro podporu připojení k Hadoop clusterům. Od té doby je ale PolyBase kontinuálně vyvíjen a zlepšován. PolyBase je v současnosti podporováno následujícími SQL produkty Microsoftu:

• SQL Server 2016 a novější verze (2017, 2019)

• Analytics Platform System (dříve Parallel Data Warehouse)

• Azure Synapse Analytics (dříve Azure SQL Data Warehouse)

V současnosti PolyBase umožňuje napřímo se dotazovat na data uložená v systémech Hadoop, Oracle, Teradata, MongoDB, CosmosDB, Azure Blob Storage a SQL Server. Umožňuje také možnost napojit se na zdroje pomocí ODBC konektorů, a tím rozšiřuje možnosti PolyBase spojit se i např. na CSV soubory, Excel soubory, databáze Cassandra, SAP HANA systém a jiné.

Tato možnost je ale současně omezena pouze na Windows operační systémy. ODBC drivery, pomocí kterých je možné se propojit na dané zdroje, zajišťuje společnost CData, jejíž drivery jsou doporučované přímo Microsoftem. (34) (35) (36)

SQL Server již dlouho předtím měl možnost tzv. linkovaných serverů, což byl způsob, jakým SQL Server četl data ze vzdálených datových zdrojů a spouštěl nad nimi různé příkazy. Její funkcionalita se může na pohled zdát totožná k novému PolyBase, ovšem určité rozdíly zde jsou, a to následující: (37)

1. PolyBase používá ODBC drivery, linkované servery používají OLE DB poskytovatele 2. PolyBase je database scoped, kdy vytvořené objekty „žijí“ v databázi a je s nimi

manipulováno vně databáze. Linkované servery jsou oproti tomu instance-scoped, což znamená, že se musí nakonfigurovat na každé instanci SQL Serveru, na kterém chceme linkované servery používat, a dají se také používat přes celý server.

3. PolyBase se používá pro analytické dotazy, které potřebují vracet vyšší počet záznámů.

Linkované servery jsou primárně používané pro OLTP workloady s menším počtem zpracovaných záznamů.

4. PolyBase využívá možnosti distribuce výpočetních zdrojů na samotné datové zdroje, linkované servery tuto možnost nemají.