Technologie datových skladů

Ke správnému rozhodování podnikového managementu a minimalizaci rizika špatných rozhodnutí je nutné rychle vyhodnocovat velké množství nesourodých informací z mnoha zdrojů. K tomuto úkolu byl stvořen datový sklad.

Datový sklad (data warehouse) představuje ucelené řešení poskytující nejen prostředky pro ukládání dat, ale rovněž sadu nástrojů pro jejich analýzu. Jeho stěžejním úkolem je podpora plánování a řízení firmy, a to nejen na strategické úrovni.

Uvnitř tepe databáze

Datový sklad je postaven na relační databázi. Její vlastnosti a fungování ovlivňují chod celého řešení. Relační databáze hrají v datových skladech klíčovou roli, podstatně důležitější než tomu je například v ERP systémech. OLTP databáze jsou optimalizovány pro zpracování velkého množství malých transakcí a uchovávají pouze aktuální data, kdežto databáze v datových skladech analyzují historická data a jsou neustále rozšiřovány bez jakékoli redukce jejího obsahu. Zvyšuje se důraz na stabilitu výkonu, administraci a škálovatelnost databáze. Značná část funkcionality multidimenzionálních datových struktur OLAP aplikací i aplikací dolování dat se přesouvá do relační databáze. Další vlastností, kterou by databáze měla mít, je otevřenost neboli schopnost spolupracovat s komponentami jiných výrobců v jakékoli oblasti řešení datových skladů.

Datová pumpa

Datové pumpy, nebo-li ETL nástroje se starají o plnění dat do databáze. Tyto nástroje získávají data ze vzájemně nekompatibilních zdrojů, kterými jsou provozní systémy podniku a jiné externí zdroje, a také je transformují do nových odpovídajících struktur a následně ukládají do datového skladu. Data jsou tak připravena k pozdějším analýzám. Celý proces zabezpečuje také "čištění" dat, což představuje nejdůležitější úkol. Kvalita ETL nástrojů tedy přímo ovlivňuje kvalitu dat uložených v datovém skladu, a tím pádem také kvalitu informací, které z něj můžeme získat. Z výše uvedených důvodů je nutné této problematice věnovat velkou pozornost, neboť vynaložené náklady (někdy až 3/4 nákladů) se v krátkém časovém horizontu vrátí.

Uživatelské rozhraní tvoří OLAP nástroje. Tyto nástroje umožňují analyzovat velké množství historických dat a poskytují jedinečný pohled na data, z jiných systémů nedostupný. Jejich analýzy pak na základě historického srovnávání nabývají smysl. Díky systematickému budování lze také nalézat vztahy mezi daty z různých zdrojů, které bychom jinak nikdy neodhalili. Datový sklad obsahuje data na různých úrovních podrobnosti (granularity). Ta bezprostředně ovlivňuje podrobnost získaných informací a výkonnost celého skladu. Čím podrobnější data obhospodařuje, tím výrazněji se snižuje jeho výkonnost.

Metadata

Nesmíme ovšem zapomínat na údržbu těchto rozdílných nástrojů, které v podstatě sdílejí stejná data (přidání atributu v OLTP systému se projeví v datové pumpě, databázi, OLAP nástrojích i v datových tržištích). Pokud mají jiné aplikace využívat služeb datového skladu, musí být přesně popsáno, co přesně datový sklad obsahuje. Každý z těchto nástrojů obsahuje vlastní způsob popisu dat (databáze - systémový katalog, ETL nástroje - popisy vstupních a výstupních polí a popisy transformací, OLAP nástroje - popisy dimenzí a faktů), tím jsou právě metadata.

Datová tržiště

V každém podniku by měl být pouze jeden datový sklad, který tvoří informační základnu pro všechny analytické aplikace. Podmnožinou datového skladu mohou být tzv. datová tržiště (Data Marts), která slouží ke specializovaným analýzám obohacujícím data o hodnotu (např. ziskovost zákazníků), jež má význam při rozhodování o dílčích strategiích firemního byznysu (zaměření na klíčové skupiny zákazníků). Tržiště jsou například určena profesní oblastí jednotlivých uživatelů (finančnictví, prodej, personalistika atd.). Samotná datová tržiště tvoří autonomní jednotky obsahující odlišná data a využívající jiné druhy algoritmů pro analýzy. Data je tedy třeba agregovat pro každé tržiště zvlášť. S růstem počtu jednotlivých tržišť pak samozřejmě klesá i celkový výkon datového skladu.

Komu jsou datové sklady určeny?

Relativně vysoké náklady na vybudování rozsáhlé datové základny a s tím související návratnost investic zužuje okruh firem pouze na ty velké, které se mohou pustit do budování unikátního řešení. Právě na tento segment se soustředí nabídka velkých dodavatelů. Ovšem technologie datových skladů nemusí být výsadou pouze těchto společností. I malé a střední podniky musí znát a hodnotit své podnikání a postavení na trhu. Jaké možnosti se nabízejí firmám, které se nemohou pustit do budování unikátního řešení? Podnikům z těchto segmentů se nabízí dostupné řešení využívající přednastavených balíčků a standardních nástrojů, což značným způsobem snižuje náklady a také urychluje nasazení.

Zatím ještě neexistují hotové univerzální softwarové balíky s plnohodnotným datovým skladem pro určitou oblast průmyslu, které by bylo potřeba jen správně nakonfigurovat. Vždy se jedná o unikátní řešení pro konkrétního zákazníka respektující jeho stávající informační prostředí, způsob řízení a požadavky na dostupnost informací atd. Míra podobnosti jednotlivých řešení kolísá co se týče poskytovaného informačního obsahu tak i vlastní funkcionality, a to i pro zdánlivě velice podobné zákazníky. Přesto má většina dodavatelů předpřipravené balíčky, neboť stále více zákaznických firem je bude upřednostňovat před nákladným na míru budovaným datovým skladem.

Přínosy a rizika

Nasazení a dlouhodobé budování datových skladů přináší především zvýšení produktivity v oblasti analýz podnikových dat, což bezprostředně podporuje strategické řízení podniku. Nezanedbatelná je ovšem i podpora taktického a operativního řízení, zejména pak prostřednictvím ODS (Operational Data Store). Ta se uplatňuje především formou automatizace rozhodovacích procesů, jako např. při řízení dodavatelsko-odběratelských vztahů u supermarketových řetězců.

Implementace datového skladu má také svá úskalí a rizika, kterých je třeba se vyvarovat. S hlavními faktory neúspěchu vás seznámí odborníci z dodavatelských firem.

Jaká jsou hlavní obecná rizika neúspěchu při realizaci DW projektu, s nimiž se v praxi nejčastěji setkáváte?

Michal Tomek
Obchodní ředitel
InterSystems B.V. ČR

Rizik je hned několik a nejvážnější jsou prakticky vždy spojena s chybně definovanými očekáváními. Běžný zákazník si jen velmi obtížně dokáže představit, co vše mu technologie datových skladů přinesou. V dobrém i špatném slova smyslu. Například v současné době již není velký problém přesně spočítat náklady na vybudování kvalitního datového skladu, obdobně lze poměrně snadno odhadnout celkové náklady na vlastnictví analytických technologií. Nicméně definování přínosu je stále velmi obtížné. A domnívám se, že do budoucna se nic v této oblasti nezmění. Stejně jako v budoucnu pravděpodobně nikdy nepřestane platit přirovnání datového skladu k čistému čelnímu sklu automobilu. Tam také nemůžeme finančně předem ohodnotit význam čistoty před špínou. Nikdo přitom ale nepochybuje, že čisté sklo je pro řízení automobilu přínosem.

Blanka Pechová
Obchodní manažerka
Compekon

Velké riziko při realizaci DW projektu spatřuji zejména ve správně navrženém rozsahu a struktuře datového skladu. Při vstupních analýzách se může stát, že uživatel chce do datového skladu zahrnout pokud možno veškeré informace, které "možná" někdy využije. Výsledkem takového postupu je, že z datového skladu se stane obrovský moloch, který je svou rozsáhlostí vlastně nepoužitelný a nesrozumitelný. Mnohem lepší je začít s minimální variantou, na kterou se po určité době užívání a zažití této technologie naváže s podrobnějším sledování daných ukazatelů. S tímto úzce souvisí i další riziko. Datový sklad je o tom, aby byl používán. Je nutné přesvědčit manažery a analytiky, aby ho přijali a začali rutinně využívat. Pokud dodavatelská firma DW projektu nenabídne srozumitelné a přesné řešení, se kterým se uživatelé ztotožní, je projekt většinou odsouzen k neúspěchu.

Pavel Ferina
Programátor
M-line

Příčin možného neúspěchu při realizaci DW projektu může být mnoho, počínaje špatnou analýzou potřeby DW, přes výběr nesprávného řešení až po neschopnost implementačního týmu dovést projekt do zdárného konce. Nesprávným řešením nemyslím řešení poskytující nesprávná data nebo nestabilní software, jde spíše o řešení dimenzované na jiný rozsah zpracovávaných dat. To je buď příliš zjednodušující, nebo naopak pro dané potřeby příliš komplikované a obecné, jenž zdaleka nebude plně implementováno, protože to zkrátka nebude v daném případě potřeba.


14.01.2004 - Jaromír Habáň