Care este diferența dintre integrarea datelor și ETL

principala diferență între integrarea datelor și ETL este că integrarea datelor este procesul de combinare a datelor din diferite surse pentru a oferi o vizualizare unificată utilizatorilor, în timp ce ETL este procesul de extragere, transformare și încărcare a datelor într-un mediu de depozit de date.

Integrarea datelor se referă la combinarea datelor din surse disparate cu informații semnificative și valoroase. Prin urmare, o soluție completă de integrare a datelor oferă date de încredere din diferite surse. Este un proces important atunci când se îmbină mai multe sisteme și se consolidă aplicațiile pentru a oferi o imagine unificată a datelor. Pe de altă parte, ETL este un proces care este urmat înainte de stocarea datelor într-un depozit de date. Aceasta implică extragerea, transformarea și încărcarea datelor.

Domenii cheie acoperite

1. Ce este integrarea datelor?
      - Definiție, funcționalitate
2. Ce este ETL
     - Definiție, funcționalitate
3. Care este diferența dintre integrarea datelor și ETL
     - Compararea diferențelor cheie

Termeni cheie

Date mari, integrarea datelor, depozitul de date, ETL

Ce este integrarea datelor?

Integrarea datelor este procesul de combinare a datelor aflate în diferite surse pentru a oferi utilizatorilor o viziune unificată. Cu toate acestea, integrarea datelor variază de la aplicație la aplicație. Într-o aplicație comercială, două organizații își pot îmbina bazele de date. Într-o aplicație științifică, cum ar fi într-un proiect de bioinformatică, rezultatele cercetărilor din diferite depozite pot fi combinate într-o singură unitate.

Figura 1: Integrarea datelor

De asemenea, o utilizare obișnuită a integrării datelor este de a analiza datele mari care necesită partajarea seturilor mari de date în depozitele de date. În ansamblu, integrarea datelor este un proces dificil. Mai mult decât atât, aceasta necesită o generalizare suficientă pentru a găzdui diferite sisteme de integrare, cum ar fi baze de date relaționale, baze de date XML etc.

Ce este ETL

Un depozit de date este un sistem care vă ajută să analizați date, să creați rapoarte și să le vizualizați. Managerii, analiștii de date, analiștii de afaceri pot analiza aceste date pentru a lua decizii de afaceri. Există trei etape de urmat înainte de a stoca datele într-un depozit de date. Se numește ETL. Aceasta implică extragerea datelor, transformarea și încărcarea în depozitul de date.

Există diferite surse de date într-o organizație. Primul pas este extragerea datelor din aceste surse diferite. Cu toate acestea, extragerea datelor nu ar trebui să afecteze performanța sau timpul de răspuns al sursei originale de date. Extracția completă și extracția parțială sunt două metode de extragere a datelor.

A doua etapă este transformarea. Aici, datele extrase sunt curățate, cartografiate și transformate într-un mod util. Selecția datelor, cartografiere și curățarea datelor sunt câteva tehnici de transformare de bază. În plus, există și câteva tehnici avansate de transformare a datelor. Acestea sunt standardizarea, conversia setului de caractere și manipularea codificării, divizarea și combinarea câmpurilor, sumarizarea și de-duplicarea.

Pasul final este de a prelua datele pregătite și de a le depozita în depozitul de date. Se numește încărcare. Aici, încărcarea poate fi o sarcină inițială, o sarcină incrementală sau o reîmprospătare completă. Încărcarea inițială este pentru încărcarea bazei de date pentru prima dată. Încărcarea incrementală este de a aplica modificările necesare în mod periodic, în timp ce reîmprospătarea completă este de a șterge datele într-unul sau mai multe tabele și de a reîncărca date noi.  

Diferența dintre integrarea datelor și ETL

Definiție

Integrarea datelor este procesul de combinare a datelor care se găsesc în diferite surse și oferă utilizatorilor o imagine unificată a acestora. ETL este o funcție în trei etape de extragere, transformare și încărcare care are loc înainte de stocarea datelor în depozitul de date. prin urmare, aceasta este diferența principală dintre integrarea datelor și ETL.

folosire

Aplicațiile științifice și comerciale utilizează integrarea datelor, în timp ce depozitarea datelor este o aplicație care utilizează ETL. Aceasta este o altă diferență între integrarea datelor și ETL.

Concluzie

Diferența dintre integrarea datelor și ETL este că integrarea datelor este procesul de combinare a datelor din diferite surse pentru a oferi o vedere unificată utilizatorilor, în timp ce ETL este procesul de extragere, transformare și încărcare a datelor într-un mediu de depozit de date.

Referinţă:

1. "Integrarea datelor" Wikipedia, Fundația Wikimedia, 4 octombrie 2018, disponibil aici.
2. "Integrarea datelor". Integrarea datelor Informații despre integrarea datelor, disponibil aici.
3. vtakkar. 3 - Tutorial ETL Transformare și încărcare de extracție, Vikram Takkar, 8 septembrie 2015, disponibil aici.

Datorită fotografiei:

1. "Integrarea datelor (KAFKA) (Cazul 3)" De Carlos.Franco2018 - Activitate proprie (CC BY-SA 4.0) prin Wikimedia Commons
2. "Arhitectura de referință a Datawarehouse" De către DataZoomers - (CC BY-SA 4.0) prin Wikimedia Commons