principala diferență între ETL și Data Warehouse este faptul că ETL este procesul de extragere, transformare și încărcare a datelor pentru a fi stocat într-un depozit de date, în timp ce depozitul de date este o locație centrală care este utilizată pentru a stoca date consolidate din mai multe surse de date.
Un depozit de date este un sistem care vă ajută să analizați datele, să le raportați și să le vizualizați pentru a lua decizii de afaceri. Este orientată spre subiect, varianta integrată, temporală și nonvolatilă. Cu toate acestea, există mai mulți pași de urmat înainte de stocarea datelor într-un depozit de date. Acest proces se numește ETL. Aceasta implică Extragerea datelor, Transformarea și, în final, Încărcarea acestora într-un depozit de date. Prin urmare, diferența dintre ETL și Data Warehouse rezultă din aceste concepte de bază.
1. Ce este ETL
- Definiție, funcționalitate
2. Ce este un depozit de date
- Definiție, funcționalitate
3. Care este diferența dintre ETL și Data Warehouse
- Compararea diferențelor cheie
Warehouse de date, ETL
ETL înseamnă Extrageți, transformați și încărcați. În acest proces, în primul rând, datele sunt extrase din mai multe surse de date. Apoi, acesta este transformat și încărcat în depozitul de date. ETL desemnează întregul proces. Stadiile IBM Data, Informatica și serviciile de integrare Microsoft sunt niște instrumente ETL la nivel de întreprindere. Să analizăm mai detaliat fiecare pas al ETL.
Extracția este primul pas. Aceasta implică extragerea datelor din diverse surse de date, cum ar fi bazele de date. Un fapt important de observat în timpul efectuării extragerii este că nu ar trebui să afecteze performanța sau timpul de răspuns al sursei originale de date. Prin urmare, există diferite strategii de extragere a datelor.
Extracție completă - Aceasta implică extragerea tuturor datelor din toate sursele de date. Utilizarea principală a acestei strategii este de a încărca depozitul de date în stadiul inițial sau de ao încărca atunci când este dificil să se identifice datele modificate.
Extracția parțială (cu notificare de actualizare) - Această strategie este mai ușoară și mai rapidă decât extragerea completă. Aceasta implică extragerea datelor modificate.
Extracția parțială (fără notificare de actualizare) - Aceasta presupune extragerea datelor bazate pe anumite caracteristici cheie. De exemplu, dacă există deja date extrase până ieri, este posibil să extrageți datele de astăzi și să identificați modificările din ele.
Datele extrase sunt date brute, deci nu este foarte util. Prin urmare, transformarea datelor are loc în etapa următoare. Aceasta implică curățarea, maparea și conversia datelor. Sarcinile de transformare de bază sunt următoarele:
Selecţie - Selectarea datelor solicitate
Cartografierea - Căutarea datelor din diferite fișiere de căutare și potrivirea datelor care necesită transformare
Curățarea datelor -Curățarea datelor pentru a le standardiza
sumarizării - Agregarea și consolidarea datelor
Principalele sarcini de transformare a datelor sunt următoarele.
uniformizarea - Deoarece datele provin din diverse surse, este necesară standardizarea
Conversia setului de caractere și manipularea codificării - Conversia datelor într-o codificare definită
Calculul valorilor - Calcularea și extragerea de coloane noi din coloanele existente.
Amplasate și îmbinate câmpuri - Împărțirea unui câmp în mai multe câmpuri sau combinarea câtorva câmpuri într-un câmp unic pe baza cerințelor.
Conversia unităților de măsură - Implicarea conversiilor de date de date, etc.
sumarizării - Agregarea și consolidarea datelor.
Ștergerea duplicării - Ștergerea datelor duplicate primite din mai multe surse.
Acesta este procesul de preluare a datelor pregătite și stocarea în depozitul de date. Există diferite tehnici de încărcare.
Incarcare initiala - Încărcarea depozitului de date pentru prima dată.
Încărcare incrementală - Aplicarea modificărilor continue în funcție de necesități într-o manieră periodică.
Reîmprospătare completă - Ștergerea completă a conținutului unuia sau mai multor tabele și reîncărcarea datelor noi.
Depozitul de date este un sistem care acceptă procesul de business intelligence. Convertește datele în informații semnificative pentru analizarea afacerii. Prin urmare, este o resursă valoroasă pentru gestionarea unei organizații în luarea deciziilor.
Mai mult, o organizație are diverse baze de date, cum ar fi MySQL și MSSQL. Toate aceste date sunt extrase, transformate și încărcate în depozitul de date. Apoi, datele sunt integrate și procesate. În cele din urmă, analiștii de date, oamenii de știință și managerii de date folosesc aceste date pentru a obține informații despre afaceri.
Mai mult, datele dintr-un depozit de date sunt împărțite în date marts. Fiecare dintre ele conține date pentru anumiți utilizatori. Ele îmbunătățesc securitatea și integritatea datelor. De obicei, un depozit de date este situat într-o locație separată de bazele de date normale operaționale.
ETL este procesul de extragere, transformare și încărcare a datelor într-un mediu de stocare a datelor. În schimb, un depozit de date este un depozit federalizat pentru toate datele colectate de diferitele sisteme operaționale ale unei întreprinderi. Astfel, aceasta este diferența de bază dintre ETL și depozitul de date.
ETL este un proces care este folosit pentru a modifica datele înainte de a le depozita în depozitul de date. Un depozit de date este folosit pentru a lua decizii de afaceri. Mai mult, îmbunătățește calitatea și coerența datelor și îmbunătățește inteligența afacerilor. Prin urmare, există o diferență între ETL și depozitul de date pe baza utilizării individuale.
În breif, diferența de bază dintre ETL și depozitul de date este că ETL este procesul de extragere, transformare și încărcare a datelor pentru ao memora într-un depozit de date, în timp ce un depozit de date este o locație centrală care este utilizată pentru stocarea datelor consolidate de la mai multe surse de date.
1. "3 - Tutorial ETL Extras Transform and Load ", Vikram Takkar, 8 septembrie 2015, disponibil aici.
2. "Ce este depozitul de date? - Definiție de la WhatIs.com. "SearchDataManagement, disponibil aici.
1. "KrisangelChap2-ETL" de Kkristangel - munca proprie (CC BY-SA 4.0) prin Wikimedia Commons
2. "Prezentare generală a depozitului de date" de Hhultgren - Activitate proprie (Domeniul Public) prin Wikimedia Commons