Tendance centrale vs dispersion
Dans des statistiques descriptives et inférentielles, plusieurs indices sont utilisés pour décrire un ensemble de données correspondant à sa tendance centrale, sa dispersion et son asymétrie: les trois propriétés les plus importantes qui déterminent la forme relative de la distribution d'un ensemble de données.
Quelle est la tendance centrale?
La tendance centrale fait référence et localise le centre de la distribution des valeurs. La moyenne, le mode et la médiane sont les indices les plus couramment utilisés pour décrire la tendance centrale d'un ensemble de données. Si un ensemble de données est symétrique, alors la médiane et la moyenne de l'ensemble de données coïncident les unes avec les autres.
Compte tenu d'un ensemble de données, la moyenne est calculée en prenant la somme de toutes les valeurs de données, puis en les divisant par le nombre de données. Par exemple, les poids de 10 personnes (en kilogrammes) sont mesurés à 70, 62, 65, 72, 80, 70, 63, 72, 77 et 79. Alors le poids moyen des dix personnes (en kilogrammes) peut être calculé comme suit. La somme des poids est de 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Moyenne = (sum) / (nombre de données) = 710/10 = 71 (en kilogrammes). Il est entendu que les valeurs aberrantes (points de données qui s'écartent de la tendance normale) ont tendance à affecter la moyenne. Ainsi, en présence de valeurs aberrantes, elle ne donnera pas une image correcte sur le centre de l'ensemble de données.
La médiane est le point de données trouvé au milieu exact de l'ensemble de données. Une façon de calculer la médiane est d'ordonner les points de données dans l'ordre croissant, puis de localiser le point de données au milieu. Par exemple, si une fois commandé, l'ensemble de données précédent ressemble à, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Par conséquent, (70 + 72) / 2 = 71 est au milieu. À partir de cela, on voit que la médiane n'a pas besoin d'être dans l'ensemble de données. La médiane n'est pas affectée par la présence des valeurs aberrantes. Par conséquent, la médiane servira de meilleure mesure de la tendance centrale en présence de valeurs aberrantes.
Le mode est la valeur la plus fréquente dans l'ensemble des données. Dans l'exemple précédent, la valeur 70 et 72 se produit deux fois et donc, les deux sont des modes. Cela montre que, dans certaines distributions, il y a plus d'une valeur modale. S'il n'y a qu'un seul mode, l'ensemble de données serait unimodal, dans ce cas, l'ensemble de données est bimodal.
Qu'est-ce que la dispersion?
La dispersion est la quantité de diffusion de données sur le centre de la distribution. La plage et l'écart type sont les mesures de dispersion les plus couramment utilisées.
La plage est simplement la valeur la plus élevée moins la valeur la plus basse. Dans l'exemple précédent, la valeur la plus élevée est de 80 et la valeur la plus basse est de 62, donc la plage est de 80-62 = 18. Mais la plage ne fournit pas une image suffisante sur la dispersion.
Pour calculer l'écart type, les écarts des valeurs de données par rapport à la moyenne sont d'abord calculés. La moyenne carrée racine des écarts est appelée l'écart type. Dans l'exemple précédent, les écarts respectifs par rapport à la moyenne sont (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 et (79 - 71) = 8. La somme des carrés de déviation est (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-8)2 + 12 + 62 + 82 = 366. L'écart type est √ (366/10) = 6.05 (en kilogrammes). À moins que l'ensemble de données ne soit grandement biaisé, il peut être conclu que la majorité des données se trouve dans l'intervalle 71 ± 6.05, et c'est en effet ainsi dans cet exemple particulier.
Quelle est la différence entre la tendance centrale et la dispersion? • La tendance centrale fait référence et localise le centre de la distribution des valeurs • La dispersion est la quantité de diffusion de données sur le centre d'un ensemble de données.
|