KDD vs. Exploatarea datelor
KDD (Knowledge Discovery in Databases) este un domeniu al informaticii, care include instrumentele si teoriile pentru a ajuta oamenii in extragerea informatiilor utile si necunoscute anterior (adica a cunostintelor) din colectii mari de date digitalizate. KDD este alcătuită din mai mulți pași, iar Data Mining este una dintre ele. Data Mining este aplicarea unui algoritm specific pentru a extrage modele din date. Cu toate acestea, KDD și Data Mining sunt folosite interschimbabil.
Ce este KDD?
După cum sa menționat mai sus, KDD este un domeniu de informatică, care se ocupă cu extragerea informațiilor necunoscute anterior și interesante din datele brute. KDD este întregul proces de încercare de a face sens de date prin dezvoltarea de metode sau tehnici adecvate. Acest proces se ocupă de cartografierea datelor de nivel inferior în alte forme, acestea fiind mai compacte, mai abstracte și utile. Acest lucru se realizează prin crearea de rapoarte scurte, modelarea procesului de generare a datelor și dezvoltarea de modele predictive care să prezică cazuri viitoare. Datorită creșterii exponențiale a datelor, în special în domenii precum afacerea, KDD a devenit un proces foarte important pentru a converti această bogăție de date în informații de business, deoarece extracția manuală a modelelor a devenit aparent imposibilă în ultimele decenii. De exemplu, în prezent este folosit pentru diverse aplicații, cum ar fi analiza rețelelor sociale, detectarea fraudelor, știința, investițiile, producția, telecomunicațiile, curățarea datelor, sportul, recuperarea informațiilor și în mare parte pentru marketing. KDD este de obicei folosit pentru a răspunde la întrebări cum ar fi principalele produse care ar putea ajuta la obținerea profitului ridicat anul viitor în Wal-Mart ?. Acest proces are câțiva pași. Începe cu dezvoltarea unei înțelegeri a domeniului de aplicare și a scopului și apoi crearea unui set de date țintă. Aceasta este urmată de curățarea, preprocesarea, reducerea și proiectarea datelor. Următorul pas este utilizarea funcției Data Mining (explicată mai jos) pentru a identifica modelul. În cele din urmă, cunoștințele descoperite se consolidează prin vizualizare și / sau interpretare.
Ce este Data Mining?
După cum sa menționat mai sus, Data Mining este doar un pas în cadrul procesului global KDD. Există două obiective majore de date minuțioase, definite de obiectivul aplicației, și anume verificarea sau descoperirea. Verificarea verifică ipoteza utilizatorului cu privire la date, în timp ce descoperirea identifică automat modele interesante. Există patru sarcini importante de extragere a datelor: gruparea, clasificarea, regresia și asocierea (sumarizare). Clustering-ul identifică grupuri similare din datele nestructurate. Clasificarea este o regulă de învățare care poate fi aplicată datelor noi. Regresia constă în găsirea de funcții cu erori minime la modelul de date. Asociația caută relații între variabile. Apoi, algoritmul de extragere a datelor specific trebuie selectat. În funcție de scop, pot fi selectați algoritmi diferite cum ar fi regresia liniară, regresia logistică, arborii de decizie și Naïve Bayes. Apoi sunt căutate modele de interes în una sau mai multe forme reprezentative. În cele din urmă, modelele sunt evaluate fie cu precizie predictivă, fie cu înțelegere.
Care este diferența dintre KDD și Data mining?
Cu toate acestea, cei doi termeni KDD și Data Mining sunt folosiți în mod interschimbabil, se referă la două concepte legate, dar ușor diferite. KDD este procesul general de extragere a cunoștințelor din date, în timp ce Data Mining este un pas în interiorul procesului KDD, care se ocupă cu identificarea modelelor din date. Cu alte cuvinte, Data Mining este doar aplicarea unui algoritm specific bazat pe obiectivul general al procesului KDD.