Exploatarea datelor vs. Depozitarea datelor
Mineritul de date și stocarea datelor sunt atât tehnici foarte puternice, cât și populare pentru analizarea datelor. Utilizatorii care sunt înclinați spre statistici folosesc Data Mining. Ei folosesc modele statistice pentru a căuta modele ascunse în date. Minerii de date sunt interesați să găsească relații utile între diferite elemente de date, ceea ce este în cele din urmă profitabil pentru companii. Dar, pe de altă parte, experții în date care analizează dimensiunile afacerii tind să utilizeze depozitele de date.
Extracția de date este, de asemenea, cunoscută sub numele de Discovery de cunoștințe în date (KDD). După cum sa menționat mai sus, este vorba despre un domeniu de informatică, care se ocupă cu extragerea informațiilor necunoscute anterior și interesante din datele brute. Datorită creșterii exponențiale a datelor, în special în domenii precum afacerile, extracția de date a devenit un instrument foarte important pentru a transforma această bogăție de date în informații de business, deoarece extracția manuală a modelelor a devenit aparent imposibilă în ultimele decenii. De exemplu, în prezent este folosit pentru diverse aplicații, cum ar fi analiza rețelelor sociale, detectarea fraudelor și marketingul. Extracția datelor se referă de obicei la următoarele patru sarcini: gruparea, clasificarea, regresia și asocierea. Clustering-ul identifică grupuri similare din datele nestructurate. Clasificarea este o regulă de învățare care poate fi aplicată datelor noi și va include, în mod obișnuit, următorii pași: preprocesarea datelor, proiectarea modelării, selectarea elementelor de învățare / caracteristici și evaluarea / validarea. Regresia constă în găsirea de funcții cu erori minime la modelul de date. Asociația caută relații între variabile. Exploatarea de date este de obicei folosită pentru a răspunde la întrebări cum ar fi principalele produse care ar putea ajuta la obținerea profitului ridicat anul viitor la Wal-Mart?
După cum sa menționat mai sus, depozitarea datelor este de asemenea folosită pentru analizarea datelor, dar prin seturi diferite de utilizatori și având în vedere un obiectiv ușor diferit. De exemplu, când vine vorba de sectorul comerțului cu amănuntul, utilizatorii de depozitare a datelor sunt mai preocupați de ce fel de achiziții sunt populare în rândul clienților, astfel încât rezultatele analizei pot ajuta clientul prin îmbunătățirea experienței clienților. Dar minerii de date întâlnesc mai întâi o ipoteză cum ar fi clienții care cumpără un anumit tip de produs și analizează datele pentru a testa ipoteza. Depozitarea datelor ar putea fi efectuată de un comerciant cu amănuntul majoritar care își stochează inițial magazinele cu aceleași dimensiuni de produse pentru a afla mai târziu că magazinele din New York vinde inventar de dimensiuni mai mici mult mai repede decât în magazinele din Chicago. Astfel, prin analizarea acestui rezultat, comerciantul cu amănuntul poate să stocheze magazinul din New York cu dimensiuni mai mici comparativ cu magazinele din Chicago.
Deci, după cum puteți vedea clar, aceste două tipuri de analize par a fi de aceeași natură cu ochiul liber. Ambele se preocupă de creșterea profiturilor pe baza datelor istorice. Dar, desigur, există diferențe-cheie. În termeni simpli, Data Mining și Data Warehousing sunt dedicate furnizării diferitelor tipuri de analize, dar cu siguranță pentru diferite tipuri de utilizatori. Cu alte cuvinte, Data Mining caută corelații, modele pentru a susține o ipoteză statistică. Dar, Data Warehousing răspunde la o întrebare mai largă, iar datele și datele din acel moment scot în evidență căile de îmbunătățire în viitor.