データサイエンティスト検定のスキルチェックリストDS31及びDS32に関する解説を行います。
DS31:適切なデータ区間設定でヒストグラムを作成し、データのバラつき方を把握できる
ヒストグラム:数値データの分布を棒グラフで表現し、データの集中度やばらつきを視覚化するグラフです。
次には区間幅毎のヒストグラフを表示します。
このグラフでは50以上にデータが集中している事が分かります。この様にある程度の区間でデータを区切る事で新たな気付きを得られることもあります。
DS32:適切な軸設定でクロス集計表を作成し、属性間のデータの偏りを把握できる
クロス集計表:複数の要因や属性を交差させてデータを整理し、それぞれの組み合わせにおける出現頻度や割合を示す表です。通常、行と列にそれぞれ異なる属性やカテゴリを配置し、交差点にはそれぞれの属性の組み合わせに該当するデータ数や割合が表示されます。
例として二つの学校の平均点を比較したクロス集計表を作成してみます。
結果、「学校2」の方が平均点が高いことが分かります。この様に適切な切口でクロス集計表を作成する事で、データの特性をつかむことが可能になります。
コメント