Deviație standard și variație sunt mãsuri statistice de dispersie a datelor, adicã ele reprezintã cât variaþie existã din medie sau în ce mãsurã valorile "deviazã" în mod obișnuit faþã de media (medie). O variație sau deviația standard de zero indică faptul că toate valorile sunt identice.
Varianța este media pătratelor abaterilor (adică diferența de valori față de medie), iar deviația standard este rădăcina pătrată a varianței. Deviația standard este utilizată pentru a identifica valorile depășite ale datelor.
Deviație standard | variație | |
---|---|---|
Formula matematică | Rădăcina rădăcină a variației | Media pătratelor de abateri ale fiecărei valori față de media dintr-o probă. |
Simbol | Scrisoarea greacă sigma - σ | Nu există simbol dedicat; exprimată în termeni de deviație standard sau alte valori. |
Valori în raport cu setul de date dat | Aceeași scară ca valorile din setul de date dat; prin urmare, exprimate în aceleași unități. | Scară mai mare decât valorile din setul de date dat; care nu sunt exprimate în aceeași unitate ca și valorile. |
Valorile sunt negative sau pozitive? | Întotdeauna ne-negativ | Întotdeauna ne-negativ |
Real World Application | Eșantionarea populației; identificarea valorilor negative | Formule statistice, finanțe. |
Formula pentru abaterea și varianța standard este exprimată adesea utilizând:
Varianța unui set de n valori egale pot fi scrise ca:
Abaterea standard este rădăcina pătrată a varianței:
Formulele cu litere grecești au o modalitate de a privi descurajante, dar acest lucru este mai puțin complicat decât pare. Pentru a pune în pași simpli:
Asta dă varianța. Luați rădăcina pătrată a varianței pentru a găsi abaterea standard.
Acest video excelent de la Academia Khan explică conceptele de variație și deviație standard:
Să presupunem că un set de date include înălțimea a șase păpădia: 3 inci, 4 inci, 5 inci, 4 inci, 11 inci și 6 inci.
Mai întâi, găsiți media punctelor de date: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5
Deci, înălțimea medie este de 5,5 cm. Acum avem nevoie de deviații, deci găsim diferența dintre fiecare plantă din medie: -2.5, -1.5, -.5, -1.5, 5.5, 1.5
Acum pătrundem fiecare deviere și găsim suma lor: 6.25 + 2.25 + .25 + 2.25 + 30.25 + 2.25 = 43.5
Acum împărțiți suma pătratelor cu numărul de puncte de date, în acest caz plantele: 43,5 / 6 = 7,25
Variația acestui set de date este de 7,25, ceea ce reprezintă un număr destul de arbitrar. Pentru ao converti într-o măsurătoare din lumea reală, luați rădăcina pătrată de 7,25 pentru a găsi deviația standard în inci.
Abaterea standard este de aproximativ 2,69 inch. Asta înseamnă că pentru eșantion, orice păpădie în limita a 2,69 cm (5,5 țoli) este "normal".
Abaterile sunt pătrat pentru a împiedica valorile negative (abaterile sub media) să anuleze valorile pozitive. Aceasta funcționează deoarece un număr negativ pătrat devine o valoare pozitivă. Dacă ați avea un set de date simplu cu deviații de la +5, +2, -1 și -6, suma abaterilor va fi zero dacă valorile nu sunt pătrat (adică 5 + 2 - 1 - 6 = 0).
Varianța este exprimată ca o dispersie matematică. Deoarece este un număr arbitrar față de măsurătorile originale ale setului de date, este dificil să se vizualizeze și să se aplice într-un sens din lumea reală. Găsirea varianței este de obicei doar etapa finală înainte de a găsi deviația standard. Valorile de variație sunt uneori utilizate în formulele financiare și statistice.
Abaterea standard, care este exprimată în unitățile originale ale setului de date, este mult mai intuitivă și mai apropiată de valorile setului original de date. Acesta este cel mai adesea folosit pentru a analiza demografice sau de eșantioane de populație pentru a obține un sentiment de ceea ce este normal în populație.
Într-o distribuție normală, aproximativ 68% din populație (sau valori) se încadrează într-o deviație standard (1σ) din medie și aproximativ 94% se încadrează în 2σ. Valorile care diferă de media cu 1,7μ sau mai mult sunt, de obicei, considerate excesive.
În practică, sistemele de calitate cum ar fi Six Sigma încearcă să reducă rata erorilor, astfel încât erorile să devină mai mult. Termenul de "proces de șase sigma" provine din ideea că, dacă există șase deviații standard între media procesului și limita cea mai apropiată de specificații, practic niciun element nu va reuși să îndeplinească specificațiile.[1]
În aplicațiile din lumea reală, seturile de date utilizate reprezintă de obicei mostre de populație, mai degrabă decât populații întregi. O formulă ușor modificată este utilizată în cazul în care urmează să se tragă concluzii la nivel de populație dintr-o probă parțială.
O "abatere standard a eșantionului" este folosită dacă tot ce aveți este o mostră, dar doriți să faceți o declarație cu privire la deviația standard a populației de la care este extras eșantionul
Singurul mod de eșantionare a eșantionului standard diferit de formula de deviere standard este "-1" în numitor.
Folosind exemplul păpădie, această formulă ar fi necesară dacă am prelevat doar 6 păpădia, dar am vrut să folosim acea probă pentru a indica abaterea standard pentru întregul câmp cu sute de păpădeli.
Suma pătratelor ar fi acum împărțită cu 5 în loc de 6 (n - 1), ceea ce dă o variație de 8,7 (în loc de 7,25) și o deviație standard de 2,95 țoli, în loc de 2,69 inci pentru deviația standard inițială. Această modificare este utilizată pentru a găsi o marjă de eroare într-un eșantion (9% în acest caz).