Co je datový sklad? Typy
⚡ Chytré shrnutí
Datový sklad definuje centralizované úložiště, které konsoliduje informace z mnoha zdrojů pro účely analýzy, reportingu a podpory rozhodování. Tento tutoriál vysvětluje historii, pracovní model, typy, fáze, komponenty, implementační kroky, výhody, nevýhody a významné nástroje, díky nimž je datový sklad základem moderní Business Intelligence.

Co je to Data Warehousing?
Datové sklady (DW) je proces shromažďování a správy dat z různých zdrojů za účelem poskytování smysluplných obchodních poznatků. Datový sklad se obvykle používá k propojení a analýze obchodních dat z heterogenních zdrojů a je jádrem jakéhokoli systému Business Intelligence (BI) vytvořeného pro analýzu dat a reporting.
Datový sklad je kombinací technologií a komponent, které podporují strategické využití dat. Jedná se o elektronické ukládání velkého množství obchodních informací určené pro dotazy a analýzy, nikoli pro zpracování transakcí. Datový sklad transformuje nezpracovaná data na použitelné informace a dodává je uživatelům včas, aby mohli činit důležitá rozhodnutí.
Databáze pro podporu rozhodování (datový sklad) je udržována odděleně od provozní databáze organizace. Datový sklad není produkt, ale prostředí – architektonická konstrukce informačního systému, která uživatelům poskytuje aktuální a historické informace pro podporu rozhodování, ke kterým je obtížné přistupovat nebo je prezentovat v tradičním provozním datovém úložišti.
Možná víte, že databáze navržená pomocí 3NF pro systém správy zásob má obvykle mnoho vzájemně propojených tabulek. Například sestava o aktuálním stavu zásob může vyžadovat více než 12 spojených podmínek, což zpomaluje dobu odezvy dotazů a sestav. Datový sklad poskytuje denormalizovaný návrh, který zkracuje dobu odezvy a zlepšuje výkon pro sestavování a analýzy.
Systém datového skladu je také známý pod následujícími názvy:
- Systém podpory rozhodování (DSS)
- Výkonný informační systém
- Manažerský informační systém
- Řešení Business Intelligence
- Analytická aplikace
- Datový sklad
Historie datového skladu
Datový sklad pomáhá uživatelům pochopit a zlepšit výkonnost jejich organizace. Potřeba ukládat data se vyvíjela s tím, jak se počítačové systémy stávaly složitějšími a zpracovávaly stále rostoucí objemy informací. Datové sklady nejsou novým konceptem – mají dlouhou evoluční historii.
Zde jsou některé klíčové události ve vývoji datového skladu:
- 1960 — Dartmouth a General Mills ve společném výzkumném projektu rozvíjejí pojmy „dimenze“ a „fakta“.
- 1970 — AC Nielsen a IRI zavádějí dimenzionální datové trhy pro maloobchodní prodej.
- 1983 — Společnost Teradata Corporation představuje systém správy databází speciálně navržený pro podporu rozhodování.
- Pozdní čtyřicátá léta - IBM Výzkumníci Paul Murphy a Barry Devlin vyvinuli koncept datového skladu pro firmy (Business Data Warehouse).
- Moderní vize datového skladu se připisuje Bill Inmon, často nazývaný „otcem datového skladu“. Je autorem základních prací o budování, používání a údržbě datového skladu a firemní informační továrny.
Jak funguje datový sklad?
Datový sklad funguje jako centrální úložiště, kam informace přicházejí z jednoho nebo více datových zdrojů. Data do skladu proudí z transakčních systémů a dalších relačních databází.
Vstupní data mohou být:
- Strukturované
- Polostrukturované
- Nestrukturované
Data jsou zpracovávána, transformována a ingestována, aby uživatelé mohli přistupovat k upravené datové sadě prostřednictvím nástrojů Business Intelligence, klientů SQL a tabulek. Datový sklad slučuje informace z různých zdrojů do jedné komplexní databáze.
Konsolidací všech těchto informací na jednom místě může organizace holisticky analyzovat své zákazníky a potvrdit, že zvážila každý dostupný datový bod. Datové sklady umožňují dolování dat – dolování dat hledá v datech vzory, které vedou k vyšším prodejům, nižším nákladům a lepším prognózám.
Typy datových skladů
Tři hlavní typy datových skladů (DWH) jsou:
1. Enterprise Data Warehouse (EDW):
Podnikový datový sklad (Enterprise Data Warehouse) je centralizovaný sklad, který poskytuje služby podpory rozhodování v celé organizaci. Nabízí jednotný přístup k organizaci a reprezentaci dat a umožňuje klasifikovat data podle tématu a udělovat přístup podle těchto divizí.
2. Operanárodní úložiště dat (ODS):
An OperaDatové úložiště (ODS) je datové úložiště používané v případech, kdy ani datový sklad, ani OLTP systémy nemohou uspokojit potřeby organizace v oblasti reportingu. V ODS se data obnovují v reálném čase, což je ideální pro rutinní činnosti, jako je ukládání aktuálních záznamů o zaměstnancích.
3. Data Mart:
A Data Mart je podmnožinou datového skladu navrženou pro specifickou oblast podnikání, jako je prodej, finance nebo marketing. V nezávislém datovém skladu lze data shromažďovat přímo ze zdrojových systémů.
Obecné fáze datového skladu
Zpočátku organizace zaváděly relativně jednoduché způsoby využití datových skladů. Postupem času se objevily sofistikovanější vzorce. Následují obecné fáze používání datových skladů (DWH):
Offline Operanárodní databáze:
Data jsou kopírována z operačního systému na jiný server. Načítání, zpracování a vytváření sestav na základě kopie nemá vliv na výkon operačního systému.
Offline datový sklad:
Data v datovém skladu jsou pravidelně aktualizována z provozní databáze. Data jsou mapována a transformována tak, aby splňovala cíle datového skladu.
Datový sklad v reálném čase:
Datové sklady se aktualizují vždy, když v provozní databázi proběhne transakce. Klasickým příkladem jsou rezervační systémy leteckých společností a železnic.
Integrovaný datový sklad:
Datové sklady jsou průběžně aktualizovány, když operační systémy provádějí transakce. Datový sklad poté generuje transakce, které jsou předávány zpět do operačního systému.
Komponenty datového skladu
Čtyři komponenty datového skladu jsou:
Správce zátěže: Správce zátěže, nazývaný také přední komponenta, zpracovává všechny operace spojené s extracnačítání dat do datového skladu. Tyto operace zahrnují transformace, které připravují data pro vstup do datového skladu.
Manažer skladu: Správce skladu provádí operace spojené se správou dat uvnitř skladu. Analyzuje data za účelem zajištění konzistence, vytváří indexy a zobrazení, generuje denormalizace a agregace, transformuje a slučuje zdrojová data a archivuje nebo zálohuje data.
Správce dotazů: Správce dotazů, známý také jako backendová komponenta, zpracovává operace související s uživatelskými dotazy. Směruje dotazy do příslušných tabulek a plánuje jejich spuštění.
Nástroje pro přístup koncových uživatelů:
Tyto nástroje spadají do pěti skupin: 1) Reporting dat, 2) Dotazovací nástroje, 3) Nástroje pro vývoj aplikací, 4) Nástroje EIS a 5) Nástroje OLAP a Nástroje pro dolování dat.
Kdo potřebuje datový sklad?
Datový sklad (DWH) je potřebný pro všechny typy uživatelů, včetně:
- Osoby s rozhodovací pravomocí, které se spoléhají na velké objemy dat.
- Uživatelé, kteří spouštějí přizpůsobené, složité procesy pro kombinování informací z více zdrojů.
- Lidé, kteří chtějí jednoduchou technologii pro přístup k datům s nízkým třením.
- Týmy, které chtějí systematický a opakovatelný přístup k rozhodování.
- Uživatelé, kteří potřebují rychlý výkon s rozsáhlými datovými sadami pro reporty, dashboardy, mřížky nebo grafy.
- Analytici, kteří se snaží objevit skryté vzorce v datových tocích a skupinách.pings.
K čemu slouží datový sklad?
Níže jsou uvedeny nejběžnější sektory, kde se datové sklady používají:
Letecká linka:
V leteckém průmyslu datové sklady podporují přidělování posádek, analýzu ziskovosti tras, propagaci v rámci programu pro časté letce a podobná provozní rozhodnutí.
Bankovnictví:
Datové sklady se v bankovnictví široce používají k efektivní správě zdrojů. Několik bank je také používá pro průzkum trhu, analýzu výkonnosti produktů a plánování provozu.
Zdravotní péče:
Zdravotní sektor využívá datové sklady k plánování strategií a predikci výsledků, generování zpráv o léčbě pacientů a sdílení dat s pojišťovacími partnery a službami lékařské pomoci.
Veřejný sektor:
Ve veřejném sektoru datové sklady podporují shromažďování informací a pomáhají vládním agenturám udržovat a analyzovat daňové záznamy a záznamy o zdravotní politice pro každého jednotlivce.
Investice a pojištění:
V tomto sektoru se sklady používají k analýze datových vzorců, trendů u zákazníků a pohybů na trhu.
Maloobchodní řetězce:
Maloobchodní řetězce využívají datové sklady pro distribuci a marketing, aby track položek a nákupních vzorců zákazníků, plánovat propagační akce a určovat cenovou politiku.
Telekomunikace:
Telekomunikační společnosti používají datové sklady pro propagaci produktů, prodejní rozhodnutí a distribuční rozhodnutí.
Pohostinství:
Pohostinství využívá datové sklady k navrhování a odhadování reklamních a propagačních kampaní, které cílí na klienty na základě zpětné vazby a cestovních vzorců.
Kroky k implementaci datového skladu
Nejlepším způsobem, jak řídit obchodní rizika spojená s implementací datového skladu, je dodržovat tříbodovou strategii:
- Podniková strategie: Identifikujte aktuální technickou architekturu a nástroje a také fakta, dimenze a atributy, které musí sklad podporovat. Datová mapaping a transformace jsou součástí této fáze.
- Postupné dodání: Implementujte datový sklad ve fázích podle tematických oblastí. Nejprve by měly být dodány související obchodní entity, jako jsou rezervace a fakturace, a poté by měly být integrovány.
- Iterativní prototypping: Spíše než razantní implementace by měl být datový sklad vyvíjen, testován a iterativním způsobem zdokonalován.
Zde jsou klíčové kroky implementace datového skladu spolu s jejich výstupy:
| Krok | Úkoly | Dodávky |
|---|---|---|
| 1 | Definujte rozsah projektu | Definice rozsahu |
| 2 | Určete obchodní potřeby | Logický datový model |
| 3 | Definovat OperaPožadavky na národní datové úložiště | Operamodel národního úložiště dat |
| 4 | Získejte nebo rozvíjejte bývalétracnástroje pro ce | ExtracNástroje a software |
| 5 | Definování požadavků na data datového skladu | Přechodový datový model |
| 6 | V dokumentu chybí data | Seznam úkolů |
| 7 | Mapa Operaz národního úložiště dat do datového skladu | Mapa integrace dat DW |
| 8 | Vývoj návrhu databáze datového skladu | Návrh databáze DW |
| 9 | Extract data z Operanárodní úložiště dat | Integrovaný DW Data Extracts |
| 10 | Načtení datového skladu | Počáteční načtení dat |
| 11 | Udržujte datový sklad | Průběžný přístup k datům a následná načítání |
Nejlepší postupy pro implementaci datového skladu
- Definujte plán pro testování konzistence, přesnosti a integrity dat.
- Datový sklad musí být dobře integrovaný, dobře definovaný a časově ohraničený.
- Při návrhu datového skladu používejte správný nástroj, sledujte jeho životní cyklus, včas řešte konflikty dat a poučte se z chyb.
- Nikdy nenahrazujte operační systémy a provozní zprávy skladem.
- Netrávte s bývalým partnerem příliš mnoho času.traczpracování, čištění a načítání dat – automatizujte, kde je to možné.
- Zapojte do implementace datového skladu všechny zúčastněné strany, včetně obchodních týmů. S datovým skladem zacházejte jako se společným projektem, aby zůstal užitečný pro koncové uživatele.
- Připravte tréninkový plán pro koncové uživatele.
Výhody a nevýhody datového skladu
Výhody datového skladu (DWH):
- Firemní uživatelé mohou rychle přistupovat ke kritickým datům z mnoha zdrojů na jednom místě.
- Poskytuje konzistentní informace napříč mezifunkčními aktivitami a podporuje ad-hoc reporting a dotazy.
- Integruje více datových zdrojů, což snižuje zátěž produkčních systémů.
- Zkracuje celkovou dobu potřebnou k analýze a reportingu.
- Restrukturalizace a integrace usnadňují koncovému uživateli vytváření reportů a analýz.
- Šetří uživateli čas tím, že odstraňuje nutnost načítání dat z více zdrojů.
- Ukládá velké objemy historických dat, což umožňuje analýzu trendů a budoucí předpovědi.
Nevýhody datového skladu:
- Není to ideální volba pro nestrukturovaná data.
- Vytvoření a implementace je časově náročná.
- Datové sklady mohou bez aktivní údržby relativně rychle zastarat.
- Změny datových typů, rozsahů, zdrojových schémat, indexů nebo dotazů jsou obtížné.
- Datový sklad se může na první pohled zdát jednoduchý, ale pro průměrného uživatele je složitý.
- I přes veškerou snahu má rozsah projektu tendenci se během realizace rozšiřovat.
- Různé obchodní jednotky si někdy vytvářejí protichůdná obchodní pravidla.
- Organizace musí vyčlenit značné zdroje na školení a zavádění.
Budoucnost datových skladů
- Regulační omezení může omezit schopnost kombinovat zdroje různorodých dat, včetně nestrukturovaných dat, která se obtížněji ukládají a spravují.
- Vzhledem k tomu, velikost S rostoucím počtem databází se to, co se považuje za velmi rozsáhlou databázi, neustále posouvá nahoru a budování a provoz skladů v tomto měřítku je stále složitější.
- Multimediální data nelze manipulovat tak snadno jako s textem. Relační software zpracovává textové informace dobře, ale bohatá média zůstávají aktivní oblastí výzkumu.
Nástroje datového skladu
Na trhu je k dispozici mnoho nástrojů pro datové sklady. Zde jsou některé z nejvýznamnějších:
1. MarkLogic:
MarkLogic je řešení datového skladu, které zjednodušuje a urychluje integraci dat pomocí bohaté sady podnikových funkcí. Provádí komplexní vyhledávací operace a dokáže dotazovat dokumenty, vztahy a metadata.
2. Oracle:
Oracle je přední databáze v oboru. Nabízí širokou škálu řešení datového skladu pro lokální i cloudová nasazení a pomáhá optimalizovat zákaznickou zkušenost zlepšením provozní efektivity.
3. Amazon Rudý posuv:
Amazon Redshift je služba datového skladu, která je jednoduchá a cenově výhodná pro analýzu dat se standardními SQL a stávající nástroje BI. Spouští komplexní dotazy na petabajtech strukturovaných dat pomocí technik optimalizace dotazů.
Zde je kompletní seznam užitečných Nástroje datového skladu.

