Data Mining vs. OLAP
Atât extracția de date cât și OLAP sunt două dintre tehnologiile comune de Business Intelligence (BI). Business intelligence se referă la metode bazate pe computer pentru identificarea și extragerea informațiilor utile din datele de afaceri. Mineritul de date este domeniul științei informaticii, care se ocupă cu extragerea de modele interesante din seturi de date mari. Combină multe metode de la inteligența artificială, cu statisticile și gestionarea bazelor de date. OLAP (procesarea analitică online) așa cum sugerează și numele, este o compilație de metode de interogare a bazelor de date multidimensionale.
Extracția de date este, de asemenea, cunoscută sub numele de Discovery de cunoștințe în date (KDD). După cum sa menționat mai sus, este vorba despre un domeniu de informatică, care se ocupă cu extragerea informațiilor necunoscute anterior și interesante din datele brute. Datorită creșterii exponențiale a datelor, în special în domenii precum afacerile, extracția de date a devenit un instrument foarte important pentru a transforma această bogăție de date în informații de business, deoarece extracția manuală a modelelor a devenit aparent imposibilă în ultimele decenii. De exemplu, în prezent este folosit pentru diverse aplicații, cum ar fi analiza rețelelor sociale, detectarea fraudelor și marketingul. Extracția datelor se referă de obicei la următoarele patru sarcini: gruparea, clasificarea, regresia și asocierea. Clustering-ul identifică grupuri similare din datele nestructurate. Clasificarea este o regulă de învățare care poate fi aplicată datelor noi și va include, în mod obișnuit, următorii pași: preprocesarea datelor, proiectarea modelarea, selecția de învățare / caracteristici și evaluarea / validarea. Regresia constă în găsirea de funcții cu erori minime la modelul de date. Asociația caută relații între variabile. Exploatarea de date este de obicei folosită pentru a răspunde la întrebări cum ar fi principalele produse care ar putea ajuta la obținerea profitului ridicat anul viitor la Wal-Mart.
OLAP este o clasă de sisteme care oferă răspunsuri la interogări multidimensionale. De obicei, OLAP este utilizat pentru marketing, bugetare, prognoză și aplicații similare. Este de la sine înțeles că bazele de date utilizate pentru OLAP sunt configurate pentru interogări complexe și ad-hoc cu o performanță rapidă în minte. De obicei, o matrice este utilizată pentru a afișa ieșirea unui OLAP. Rândurile și coloanele sunt formate din dimensiunile interogării. Ei folosesc adesea metode de agregare pe mai multe tabele pentru a obține rezumate. De exemplu, acesta poate fi folosit pentru a afla despre vânzările din acest an la Wal-Mart în comparație cu anul trecut? Care este prognoza privind vânzările în trimestrul următor? Ce se poate spune despre tendință prin analizarea procentului de schimbare?
Deși este evident că miningul de date și OLAP sunt similare deoarece funcționează pe date pentru a obține inteligență, principala diferență provine din modul în care funcționează pe date. Instrumentele OLAP oferă o analiză multidimensională a datelor și oferă rezumate ale datelor, dar în contrast, extragerea datelor se concentrează pe rapoarte, modele și influențe în setul de date. Aceasta este o înțelegere OLAP cu agregare, care se reduce la operarea datelor prin "adăugare", dar extragerea de date corespunde unei "divizări". O altă diferență notabilă este că, în timp ce datele de modelare a uneltelor de date și regulile de acțiune returnabile, OLAP va efectua tehnici de comparare și contrast de-a lungul dimensiunii de afaceri în timp real.