Stocarea datelor este un sistem conceput pentru a stoca și organiza date în depozitele centrale, inclusiv date din alte surse. Este un concept de bază al inteligenței de afaceri în modele de baze de date relaționale care utilizează tehnici analitice pentru a integra datele de afaceri într-o bază de date centrală.
Există două modele arhitecturale comune utilizate în depozitarea datelor:
Ambele sunt modelele uzuale de baze de date multidimensionale utilizate pentru a răspunde nevoilor bazelor de date mari în scopuri analitice în depozitele de date reale.
Prezentăm o comparație imparțială între cei doi pentru a înțelege mai bine care dintre ele este mai bună decât cealaltă.
Acesta este modelul cel mai comun și larg acceptat de arhitectură folosit pentru a dezvolta depozite de date și marturi de date în care datele sunt organizate în fapte și dimensiuni. Este cel mai simplu model arhitectural în care o tabelă de fapt este folosită pentru a se referi la mai multe tabele de dimensiuni, imitând un model de stea.
După cum sugerează și numele, diagrama seamănă cu o stea cu tabelul de fapt din centru și cu mai multe tabele de dimensiuni care o radiază, creând un model asemănător stelei.
Este, de asemenea, cunoscut sub numele de Star Join Schema și stochează toate atributele unei dimensiuni într-o tabelă cu fise denormalizate pentru a naviga rapid prin seturi de date multidimensionale mari care contează timpii rapizi de răspuns al interogării.
Este o extensie a schemei stea cu funcționalități adăugate. Spre deosebire de schema stea, tabelele de dimensiuni din schema de zăpadă sunt normalizate în mai multe tabele conexe.
Modelul arhitectural reprezintă un aranjament logic al tabelelor într-o ierarhie de relații multe-la-unu, unde mai multe tabele de dimensiuni sunt normalizate în tabele de sub-dimensiuni, asemănătoare cu un model de tip float de zăpadă, de unde și numele.
Este o versiune mai complexă a schemei stea, cu mai multe conexiuni între tabelele de dimensiuni care contează timpul de procesare lent pentru a prelua datele, ceea ce înseamnă timpi de răspuns lent al interogărilor. Reduce redundanța datelor, ceea ce la rândul său îmbunătățește performanța interogării.
În bazele de date relaționale, schema stea este cel mai simplu model arhitectural utilizat pentru dezvoltarea depozitelor de date și a datelor multidimensionale. După cum sugerează și numele, modelul seamănă cu o stea cu puncte care radiază din centru, ceea ce înseamnă că tabelul de fapt este centrul și punctele sunt tabelele de dimensiuni. Ca și alte modele dimensionale, ea constă în date sub formă de fapte și dimensiuni. Schema de zăpadă de zăpadă, pe de altă parte, este modelul arhitectural mai complex care se referă la o bază de date multidimensională cu aranjare logică a meselor în formă de fulg de zăpadă.
Schema cu fulg de zăpadă este destul de similară cu schema stea, cu excepția faptului că poate avea mai multe tabele de dimensiuni care sunt normalizate în mai multe tabele conexe, denumite tabele de subdimensiuni. Acesta reprezintă mai multe niveluri de relații care se extind într-un model de fulg de zăpadă. Cu toate acestea, schema stea stochează toate atributele asociate unei dimensiuni într-o singură tabelă de dimensiuni denormalizate, ceea ce face ușor de înțeles și de tratat interogările simple.
O tabelă de dimensiuni nu poate conține rânduri duplicate în modele de baze de date relaționale pentru simplul fapt că ar putea crea ambiguități în recuperare. Fiecare tabel ar trebui să aibă o coloană sau o combinație de coloane numită cheia primară care identifică în mod unic toate înregistrările tabelului. O cheie străină este o coloană sau un grup de coloane care oferă o legătură între două tabele. În schema stea, fiecare tabelă de dimensiuni are o cheie primară care este legată de o cheie străină în tabelul de fapte. Ierarhia de afaceri într-o schemă de fulgi de zăpadă este reprezentată de o relație cheie cheie / cheie străină între tabelele de dimensiuni.
Diferența cheie între cele două modele de baze de date relaționale este normalizarea. Tabelele de dimensiuni din schema stea nu sunt normalizate, ceea ce înseamnă că modelul de afaceri va utiliza un spațiu relativ mai mare pentru a stoca tabele de dimensiuni, iar mai mult spațiu înseamnă mai multe înregistrări redundante care, în cele din urmă, ar cauza incoerență. Schema Snowflake, pe de altă parte, minimizează redundanța datelor, deoarece tabelele de dimensiuni sunt normalizate, ceea ce reprezintă înregistrări redundante mult mai mici. Ierarhia de afaceri și dimensiunile acesteia sunt păstrate prin integritate referențială, ceea ce înseamnă că relațiile pot fi actualizate independent în depozitele de date.
Schema stea are mai puține legături între tabelul de dimensiuni și tabelul cu fapte comparativ cu schema de zăpadă care are mai multe îmbinări, ceea ce reprezintă o complexitate mai mică a interogării. Deoarece dimensiunile dintr-o schemă stea sunt legate printr-o tabelă de factură centrală, aceasta are căi de conectare clare, ceea ce înseamnă că timpii de răspuns rapid ai interogare și timpul de răspuns rapid înseamnă performanță mai bună. Schema Snowflake are un număr mai mare de conexiuni, astfel încât timpii de răspuns ai interogării, care au ca rezultat interogări mai complexe, ceea ce compromite în cele din urmă performanța.
Ambele sunt modelele cele mai comune și pe scară largă adoptate, folosite pentru a dezvolta depozite de date și martori de date. Cu toate acestea, fiecare model de afacere are o parte echitabilă a argumentelor pro și contra. În timp ce schema stea este cel mai simplu model multidimensional folosit pentru a organiza datele în fapte și dimensiuni, este ideal pentru dezvoltarea de martori de date care implică relații mai puțin complexe. Schema de zăpadă este o reprezentare logică a tabelelor într-o bază de date multidimensională în care dimensiunile sunt stocate în tabele de sub-dimensiuni. Principala diferență dintre cele două este normalizarea. Tabelele de dimensiuni dintr-o schemă de fulgi de zăpadă sunt complet normalizate în mai multe tabele de căutare, în timp ce într-o schemă stea, tabelele de dimensiuni sunt denormalizate într-o tabelă de fapt centrală.