Diferența dintre arborele decizional și pădurea aleatorie

principala diferență între arborele de decizie și pădurea aleatoare este asta un arbore de decizie este un grafic care utilizează o metodă de ramificare pentru a ilustra fiecare rezultat posibil al unei decizii, în timp ce o pădure aleatoare este un set de arbori de decizie care dă rezultatul final bazat pe rezultatele tuturor arborilor de decizie.

Învățarea prin mașină este o aplicație a inteligenței artificiale, care oferă unui sistem capacitatea de a învăța și de a îmbunătăți pe baza experienței anterioare. Arborele de decizie și pădurile aleatoare sunt două tehnici de învățare în mașină. Un arbore de decizie stabilește posibilele rezultate ale unei serii de alegeri corelate. Este popular deoarece este simplu și mai ușor de înțeles. Când setul de date devine mult mai mare, un singur copac de decizie nu este suficient pentru a găsi predicția. O pădure aleatorie, care este o colecție de arbori de decizie, este o alternativă la această problemă. Producția pădurii aleatoare se bazează pe rezultatele tuturor arborilor de decizie.

Domenii cheie acoperite

1. Ce este un copac de decizie?
     - Definiție, funcționalitate, exemple
2. Ce este o pădure aleatoare?
     - Definiție, funcționalitate, exemple
3. Diferența dintre arborele decizional și pădurea aleatorie
     - Compararea diferențelor cheie

Termeni cheie

Arborele de decizie, învățarea mașinilor, pădurea aleatoare

Ce este Arborele de decizie

Un arbore de decizie este o diagramă a formei de copac care este utilizată pentru a determina un curs de acțiune. Fiecare ramură a copacului reprezintă o posibilă decizie, apariție sau reacție. 

Există mai mulți termeni asociați cu un arbore de decizie. Entropia este măsurarea imprevizibilității setului de date. După divizarea setului de date, nivelul de entropie scade, pe măsură ce scade imprevizibilitatea. Câștigul de informație este scăderea entropiei după scufundarea setului de date. Este important să împărțiți datele astfel încât câștigul de informații să devină mai mare. Deciziile finale sau clasificările se numesc nodurile frunzelor. Nodul principal sau principal se numește nodul rădăcină. Setul de date trebuie împărțit până când entropia finală devine zero.

Un arbore simplu de decizie este după cum urmează.

Figura 1: Arborele decizional

Deasupra copacului de decizie se clasifică un set de fructe. Există 4 struguri, 2 mere și 2 portocale. Când se ia în considerare diametrul mai mic de 5, strugurii sunt clasificați într-o parte, în timp ce portocalele și merele sunt în cealaltă parte. Strugurii nu pot fi clasificați în continuare deoarece au entropie zero. Atunci când se clasifică pe baza culorii, adică dacă fructul roșu este roșu sau nu, merele sunt clasificate într-o parte, în timp ce portocalele sunt clasificate în cealaltă parte. Astfel, acest copac de decizie clasifică un măr, struguri sau portocalii cu o precizie de 100%.

În general, un arbore de decizie este ușor de înțeles, mai ușor de interpretat și vizualizat. Nu necesită o mulțime de pregătire a datelor. Poate gestiona atât date numerice cât și categorice. Pe de altă parte, zgomotul din date poate cauza suprasolicitare. Mai mult decât atât, modelul poate deveni instabil din cauza variațiilor mici.

Ce este pădurea aleatoare?

Pădurea aleatoare este o metodă care operează prin construirea mai multor arbori de decizie în timpul fazei de formare. Deciziile majorității copacilor sunt decizia finală a pădurii aleatoare. Un exemplu simplu este după cum urmează.

Să presupunem că există un set de fructe (cireșe, mere și portocale). Următoarele sunt cele trei arbori de decizie care clasifică aceste trei tipuri de fructe.

Figura 2: Arborele de decizie 1

Figura 3: Arborele decizional 2

Figura 4: Arborele decizional 3

Un nou fruct al cărui diametru este 3 este dat modelului. Acest fruct este de culoare portocalie și crește în timpul verii. Primul arbore de decizie îl va clasifica ca pe o portocală. Al doilea arbore de decizie îl va clasifica ca pe o cireșă, în timp ce al treilea arbore de decizie îl va clasifica ca pe o portocală. Când luăm în considerare toți cei trei copaci, există două ieșiri pentru portocaliu. Prin urmare, producția finală a pădurii aleatoare este o portocalie.

În ansamblu, pădurea aleatoare furnizează rezultate precise pe un set mai mare de date. De asemenea, reduce riscul de suprapunere.

Diferența dintre arborele decizional și pădurea aleatorie

Definiție

Un arbore de decizie este un instrument de suport pentru decizii care folosește un grafic sau un model de decizii, precum și posibilele consecințe ale acestora, inclusiv rezultatele evenimentului, costurile resurselor și utilitatea. Pădurile aleatoare sunt o metodă de învățare a ansamblurilor care operează prin construirea unei multitudini de arbori de decizie în timpul antrenamentului și a ieșirii în clasă în funcție de arborii individuali.

overfitting

Există posibilitatea unei suprapuneri într-un arbore de decizie. Folosirea mai multor arbori în pădurile aleatoare reduce riscul de suprapunere.

Precizie

O pădure aleatorie oferă rezultate mai precise decât un arbore de decizie.

Complexitate

Un arbore de decizie este mai simplu și mai ușor de înțeles, interpretat și vizualizat decât o pădure aleatorie, care este relativ mai complexă.

Concluzie

Diferența dintre arborele de decizie și pădurile aleatoare este că un arbore de decizie este un grafic care utilizează o metodă de ramificare pentru a ilustra fiecare rezultat posibil al unei decizii, în timp ce o pădure aleatoare este un set de arbori de decizie care dă rezultatul final pe baza rezultatelor tuturor copacii săi de decizie.

Referinţă:

1. Algoritm forestier aleatoriu - pădure aleatoare explicată Pădurea aleatoare în învățarea mașinilor , Simplilearn, 12 martie 2018, disponibil aici.