Diferența dintre regresia liniară și regresia logistică

principala diferență între regresia liniară și regresia logistică este aceea că regresia liniară este folosită pentru a prezice o valoare continuă în timp ce regresia logistică este utilizată pentru a prezice o valoare discretă.

Sistemele de învățare automată pot prezice rezultatele viitoare pe baza formării unor intrări anterioare. Există două tipuri majore de învățare în mașină, numite învățare supravegheată și învățare nesupravegheată. Regresia și clasificarea intră sub incidența învățării supravegheate, în timp ce gruparea intră sub incidența învățării nesupravegheate. Algoritmii de învățare supravegheați utilizează date etichetate pentru a instrui setul de date. Regresia liniară și regresia logistică sunt două tipuri de algoritmi de învățare supravegheați. Regresia liniară este utilizată atunci când variabila dependentă este continuă, iar modelul este liniar. Regresia logistică este utilizată atunci când variabila dependentă este discretă, iar modelul este neliniar.

Domenii cheie acoperite

1. Ce este regresia liniară?
     - Definiție, funcționalitate
2. Ce este regresia logistică?
     - Definiție, funcționalitate
3. Diferența dintre regresia liniară și regresia logistică
     - Compararea diferențelor cheie

Termeni cheie

Regresia liniară, regresia logistică, învățarea în mașină

Ce este regresia liniară?

Regresia liniară găsește relația dintre variabilele independente și cele dependente. Ambele sunt învecinate. Variabila independentă este variabila care nu este modificată de celelalte variabile. Este notată cu x. De asemenea, pot exista mai multe variabile independente, cum ar fi x1, x2, x3, etc. Modificările variabilei dependente în funcție de variabila independentă și sunt notate cu y.

Când există o variabilă independentă, ecuația de regresie este după cum urmează.

y = b0 + b1x

De exemplu, presupunem că x reprezintă precipitații și y reprezintă randamentul culturii.

Figura 1: Regresie liniară

Setul de date va arăta mai sus. Apoi, este selectată o linie care acoperă majoritatea punctelor de date. Această linie reprezintă valorile prezise.

Figura 2: Distanța dintre punctele de date reale și valorile prezise

Apoi, distanța de la fiecare punct de date la linie se găsește după cum se arată în graficul de mai sus. Aceasta este distanța dintre valoarea reală și valoarea estimată. Această distanță este, de asemenea, cunoscută ca eroare sau reziduuri. Cea mai bună linie de potrivire ar trebui să aibă cel puțin suma de pătrate de erori. Când este dată noua valoare a precipitațiilor (x), este posibil să se găsească randamentul corespunzător al culturilor (y) folosind această linie.  

În lumea reală, pot exista mai multe variabile independente (x1, x2, x3 ...). Aceasta se numește regresie liniară multiplă. Ecuația de regresie liniară multiplă este după cum urmează.

Ce este regresia logistică?

Regresia logistică poate fi utilizată pentru a clasifica două clase. Este, de asemenea, cunoscut sub numele de binare.  Verificarea faptului dacă un e-mail este spam sau care nu prezice dacă un client va cumpăra un produs sau nu, prezicând dacă este posibilă obținerea unei promoții sau nu sunt alte exemple de regresie logistică.

Figura 3: Regresie logistică

Să presupunem că numărul de ore pe care un elev studiat pe zi este variabila independentă. În funcție de aceasta, se calculează probabilitatea de a trece un examen. Valoarea 0.5 este considerată drept prag. Când este dat noul număr de ore, este posibil să se găsească probabilitatea corespunzătoare de a trece examenul folosind acest grafic. Dacă probabilitatea este mai mare de 0,5, este considerată ca 1 sau trece. Dacă probabilitatea este mai mică de 0,5, atunci este considerată ca 0 sau nu.

Aplicarea ecuației de regresie liniară la funcția sigmoidă va da ecuația de regresie logistică.

Funcția sigmoidă este    

Un alt aspect important este acela că regresia logistică este aplicabilă numai pentru clasificarea a două clase. Nu este folosit pentru clasificarea multiclass.

Diferența dintre regresia liniară și regresia logistică

Definiție

Regresia liniară este o abordare liniară care modelează relația dintre o variabilă dependentă și una sau mai multe variabile independente. În contrast, regresia logistică este un model statistic care prezice probabilitatea unui rezultat care nu poate avea decât două valori.

folosire

În timp ce regresia liniară este utilizată pentru a rezolva problemele de regresie, regresia logistică este utilizată pentru a rezolva problemele de clasificare (clasificarea binară).

Metodologie

Regresia liniară estimează variabila dependentă atunci când există o modificare a variabilei independente. Regresia logistică calculează posibilitatea apariției unui eveniment. Aceasta este o diferență importantă între regresia liniară și regresia logistică.

Valoare de ieșire

De asemenea, în regresie liniară, valoarea de ieșire este continuă. În regresia logistică, valoarea de ieșire este discretă.

Model

Deși regresia liniară folosește o linie dreaptă, regresia logistică utilizează o curbă S sau o funcție sigmoidă. Aceasta este o altă diferență importantă între regresia liniară și regresia logistică.

Exemple

Prezicerea PIB-ului unei țări, prezicerea prețului produsului, prezicerea prețului de vânzare al casei, predicția punctajului sunt câteva exemple de regresie liniară. A prezice dacă un e-mail este spam sau nu, prezicând dacă tranzacția cu cardul de credit este fraudă sau nu, prezicând dacă un client va lua un împrumut sau nu sunt câteva exemple de regresie logistică.

Concluzie

Diferența dintre regresia liniară și regresia logistică este că regresia liniară este folosită pentru a prezice o valoare continuă, în timp ce regresia logistică este utilizată pentru a prezice o valoare discretă. Pe scurt, regresia liniară este utilizată pentru regresie, iar regresia logistică este utilizată pentru clasificare.

Referinţă:

1. Analiza regresiei liniare Regresie liniară în Python | Algoritmi de învățare a mașinilor Simplilearn, 26 martie 2018, disponibil aici.
2. Regresie logistică Regresie logistică în Python | Algoritmi de învățare a mașinilor Simplilearn, 22 martie 2018, disponibil aici.

Datorită fotografiei:

1. "Regresia liniară" de Sewaqu - munca proprie, domeniul public) prin Wikimedia Commons
2. "Residuals pentru regresia liniară" de Thomas.haslwanter - Muncă proprie (CC BY-SA 3.0) prin Wikimedia Commons
3. "Logistic-curve" de Qef (talk) - Creat de la zero cu gnuplot (Public Domain) prin Wikimedia Commons