DS20:二項分布は試行回数が増えていくとどのような分布に近似されるかを知っている
データサイエンティスト検定のスキルチェックリストDS20及びDS21に関する解説を行います。
二項分布は、コイン投げなどの成功と失敗が確率的に起こる場合の確率分布です。10回コインを投げて表が出る回数などは二項分布で表現できます。この試行回数が増えると、二項分布の形が正規分布に近づくことがあります。この現象は、中心極限定理に基づいています。
中心極限定理は、試行回数が多いほどその結果が平均化され、正規分布のベル型曲線に集中する傾向があります。たとえば、コインを100回投げて表が出る回数の分布は、正規分布に非常に近い形になることが予想されます。
この性質は、統計学や確率論で非常に重要であり、データの分析や実験結果の解釈に広く応用されています。
下記は横軸に成功回数、縦軸に発生確率を置き、試行回数ごとにプロットしたものです。このグラフから分かるように試行回数が増加するほど、分布が滑らかになっていきます。これを無限に増加させた結果が正規分布になります。
DS21:変数が量的、質的どちらの場合でも関係の強さを算出できる
量的データでの線形相関の強さを示す方法としてピアソンの積率相関についてはDS18で説明しましたが、質的データにおいても同様に、単調関係の強さを示す方法があります。その手段がスピアマンの順位相関です。
単調関係:具体的な数値や量の増減の大きさには依存せず、一方が変化すると他方も同じ方向に変化するという性質です。これには増加方向の単調増加と減少方向の単調減少があります。線形関係は変数間の関係が直線的であることを指し、単調関係は直線性が必要ない点が異なります。
スピアマンの順位相関:数値の大小よりデータの相対的な位置関係に注目した相関である。その相関係数は、 -1 から +1 の範囲を取り、0で無相関を意味し1に近づくほど強い相関を示します。これらは学力テストの順位と成績の関係や製品の人気ランキングと売上の相関など、データ分析や意思決定に使われます。
ピアソンとスピアマンそれぞれの相関係数
下記の図では①「Y=AX+B」と②「Y=X^3」のそれぞれのグラフに対してピアソンとスピアマンの相関係数を求めています。①の表では直線式であることから両方の相関係数は1となっています。②の表では曲線になっている事から近似式で求める事になりピアソンの相関係数は1を下回ります。しかし、すべての数値が上昇している事からスピアマンの相関係数は変わらず1を示します。
この様に間隔ではなく上昇しているかどうかを確認する際にはスピアマンの相関係数は役に立ちます。
コメント