DS12:平均、中央値、最頻値の算出方法の違いを説明できる
データサイエンティスト検定のスキルチェックリストDS12及びDS13に関する解説を行います。
代表値:データの特性を1つの数値で表現できる統計量のこと。下記のようなものがあります。
平均(相加平均)
データのすべての値を合計して、データ数で割った値です。データが正規分布に従っている場合、最も一般的に使用される代表値です。
中央値
データを昇順または降順に並べたときにちょうど中央にくる値です。極端な値(外れ値)の影響を受けにくく、順序尺度のデータに対して特に有用です。
最頻値
データセットの中で最も頻繁に現れる値です。カテゴリカルなデータや離散データの場合に使用されます。
DS13:与えられたデータにおける分散、標準偏差、四分位、パーセンタイルを理解し、目的に応じて適切に使い分けることができる
分散:データセットの値がどれくらい平均値からばらついているかを示す統計量です。具体的には、各データポイントと平均値の差の二乗を取り、それらの平均をとったものです。
標準偏差:データセットの各データポイントが平均値からどれくらいばらついているかを示す統計量です。具体的には、分散の平方根を求めたものです。
四分位数
四分位数:データセットを四等分するために使用される統計的な尺度です。データの分布やばらつきを理解するために使われます。特に外れ値の影響を受けにくく、データの中心的な位置や散らばり具合を把握するのに役立ちます。それぞれの区切りは下記のように呼ばれ特徴を持ちます。
-
第一四分位数(Q1): データの下位25%をカバーする値です。
-
第二四分位数(Q2)または中央値: データの中央に位置する値です。
-
第三四分位数(Q3): データの上位75%をカバーする値です。
パーセンタイル
パーセンタイル:データセットの中で特定の位置にある値を示す統計量です。パーセンタイルは、データを昇順に並べたときに特定のパーセンタイルの位置にある値を指します。データの分布やばらつきを理解するために広く使用される統計的な指標であり、特に外れ値の影響を受けにくい特性があります。データのパーセンタイルを知ることで、データの相対的な位置や値の範囲を把握することができます。例として下記のような区切りで使用されます。
- 25パーセンタイルは、データの下位25%に位置する値です。
- 50パーセンタイルは、データの中央に位置する値です。
- 75パーセンタイルは、データの上位75%に位置する値です。
コメント