Tendința centrală vs dispersia
În statisticile descriptive și inferențiale, mai mulți indici sunt folosiți pentru a descrie un set de date corespunzător tendinței sale centrale, dispersiei și șiretuirii: cele trei proprietăți importante care determină forma relativă a distribuției unui set de date.
Care este tendința centrală??
Tendința centrală se referă la și localizează centrul distribuției valorilor. Media, modul și mediana sunt indicii cei mai frecvent utilizați în descrierea tendinței centrale a unui set de date. Dacă un set de date este simetric, atunci atât media, cât și media setului de date coincid una cu cealaltă.
Dat fiind un set de date, media se calculează luându-se suma tuturor valorilor datelor și apoi împărțind-o cu numărul de date. De exemplu, greutatea a 10 persoane (în kilograme) este măsurată la 70, 62, 65, 72, 80, 70, 63, 72, 77 și 79. Apoi, greutatea medie a celor zece persoane (în kilograme) calculată după cum urmează. Suma greutăților este de 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Media = (sumă) / (număr de date) = 710/10 = 71 (în kilograme). Se înțelege că valorile negative (punctele de date care se abat de la tendința normală) tind să afecteze media. Astfel, în prezența unor valori excepționale înseamnă numai că nu vor da o imagine corectă despre centrul setului de date.
Mediana este punctul de date găsit la mijlocul exact al setului de date. O modalitate de a calcula mediana este de a ordona punctele de date în ordine ascendentă, apoi localizați punctul de date în mijloc. De exemplu, dacă ați comandat setul de date anterior, arata ca 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Prin urmare, (70 + 72) / 2 = 71 se află la mijloc. Din aceasta se vede că necesitatea mediană nu se află în setul de date. Medianul nu este afectat de prezența acestor valori. Prin urmare, mediana va servi drept o măsură mai bună a tendinței centrale în prezența unor valori excepționale.
Modul este cea mai frecvent întâlnită valoare din setul de date. În exemplul precedent, valorile 70 și 72 apar ambele și de aceea ambele sunt moduri. Acest lucru arată că, în unele distribuții, există mai mult de o valoare modală. Dacă există un singur mod, se spune că setul de date este unimodal, în acest caz setul de date este bimodal.
Ce este dispersia?
Dispersia este cantitatea de informații despre centrul distribuției. Intervalul și abaterea standard sunt cele mai frecvent utilizate măsuri de dispersie.
Intervalul este pur și simplu cea mai mare valoare minus cea mai mică valoare. În exemplul anterior, valoarea cea mai mare este de 80 și cea mai mică valoare este 62, astfel încât intervalul este 80-62 = 18. Dar intervalul nu oferă o imagine suficientă despre dispersie.
Pentru a calcula deviația standard, mai întâi se calculează deviațiile valorilor datelor din media. Media mediană a abaterilor rădăcină se numește deviația standard. În exemplul precedent, deviațiile respective față de medie sunt (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) (71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 și (79 - pătratele abaterii sunt (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-8)2 + 12 + 62 + 82 = 366. Abaterea standard este √ (366/10) = 6,05 (în kilograme). Cu excepția cazului în care setul de date este foarte înclinat, de aici se poate concluziona că majoritatea datelor se situează în intervalul 71 ± 6,05 și este într-adevăr așa în acest exemplu.
Care este diferența dintre tendința centrală și dispersia? • tendința centrală se referă la și localizează centrul distribuției valorilor • Dispersia este cantitatea de răspândire a datelor despre centrul unui set de date.
|