本ページには広告・プロモーションが含まれています。
目次
統計量とはデータの特徴を表す値のことです。
統計量にも種類がありますが、ここで説明する統計量は要約統計量や基本統計量と呼ばれます。
データを小さい順に並べたとき中央に位置する値。データが偶数個の場合は、中央に近い2つの値の算術平均をとる。
np.median(np.array([1,2,3,4,5]))
# 3.0
np.median(np.array([1,2,3,4,5,6,7,8]))
# 4.5
度数が最も多く現れるデータの値。
scipy.stats.mode(np.array([1,3,5,5]))
# (array([5]), array([ 2.]))
# 多次元配列
x = np.array([[1,3,5,5], [5,4,3,0]])
scipy.stats.mode(x, axis=None)
# (array([5]), array([ 3.]))
平均値からの「平均的な」ばらつき具合を示す値。 分散の平方根で、元のデータと同じ単位で扱える。
np.std([1,2,3,4])
# 1.1180339887498949
# 分散の平方根で確かめてみる
np.sqrt(np.var([1,2,3,4]))
# 1.1180339887498949
分布の尖り具合を表す値。 分布が正規分布かどうかを判断する目安に用いられる。
scipy.stats.kurtosis(np.array([1,2,3,4]))
# -1.36
scipy.stats.kurtosis(np.array([1,2,3,3,4,4]))
# -1.0101130279595474
分布の左右非対称の度合いを表す値。 尖度と同時に分布が正規分布かどうかを判断する目安に用いられる。
scipy.stats.skew(np.array([1,2,3,4]))
# 0.0
scipy.stats.skew(np.array([1,2,3,3,4,4]))
# -0.48756686638394137
調査対象となる集団全体。
回数や頻度のこと。
度数を計測する尺度や分類項目。
数値の広がりの状態を言う。
scipy.stats.describe(np.array([1,1,2,3,4,5,5]))
# DescribeResult(nobs=7, minmax=(1, 5), mean=3.0, variance=3.0, skewness=0.0, kurtosis=-1.5740740740740742)
# nobs: データの数
# minmax: 最小値、最大値
# mean: 平均
# variance: 分散
# skewness: 歪度
# kurtosis: 尖度
最終更新日: 2019年12月27日(金)