【DS検定】DS133 外れ値検出、DS134 可視化の基本点

データサイエンティスト検定のスキルチェックリストDS133及びDS124に関する解説を行います。

DS133:外れ値を見出すための適切な表現手法を選択できる

外れ値を見つけるためにどのような手法を用いるかを選べる能力を指します。以下にいくつかの具体的な表現手法を紹介します。

箱ひげ図(ボックスプロット)

データの分布と外れ値を視覚的に示すグラフです。箱の上下にある「ひげ」が外れ値の範囲を示し、箱の外に位置する点が外れ値となります。

散布図

データの各点を二次元上にプロットすることで、外れ値が他のデータポイントからどれほど離れているかを視覚的に確認できます。

ヒストグラム

データの分布を棒グラフで表示します。外れ値がヒストグラムの端に集中する場合、そこに異常な値が存在する可能性があります。

Zスコア

各データポイントの平均からの偏差を標準偏差で割った値です。Zスコアが一定の閾値(例えば±3)を超えるデータポイントは外れ値と見なされることがあります。

IQR(四分位範囲)

データの25%点(第1四分位点)と75%点(第3四分位点)の間の範囲を基に外れ値を特定します。範囲外にあるデータポイントが外れ値となります。

DS134:データの可視化における基本的な視点を挙げることができる(特異点、相違性、傾向性、関連性を見出すなど)

データの可視化は、情報を視覚的に表現することで、データのパターンや傾向、関係性をより理解しやすくする方法です。以下は、データの可視化で注目すべき基本的な視点です。

特異点(Outliers)

特異点は、データセットの中で他のデータポイントとは大きく異なる値のことです。可視化によって特異点を見つけることで、データの異常値やエラーを発見することができます。例えば、散布図や箱ひげ図を使用して、データの範囲から外れた点を特定できます。

: 箱ひげ図では、箱の外に位置する点が特異点として示されることが多いです。

相違性(Differences)

相違性は、データの異なるグループやカテゴリ間での違いを示します。データの相違性を視覚化することで、異なるグループ間の比較や差異を容易に理解できます。

: 棒グラフやヒストグラムを使うと、異なるカテゴリ間の値の違いを明確に示すことができます。

傾向性(Trends)

傾向性は、データが時間とともにどのように変化するか、またはデータの全体的なパターンや動向を示します。傾向を把握することで、将来の予測やパターンの認識が可能になります。

: 折れ線グラフは、時間の経過に伴うデータの変化を視覚化するのに適しています。トレンドラインを追加することで、データの一般的な傾向を強調できます。

関連性(Relationships)

関連性は、異なる変数間の関係や相互作用を示します。変数間の関連性を理解することで、因果関係や相関関係を明らかにすることができます。

: 散布図を使うと、二つの変数間の相関関係や関連性を視覚的に示すことができます。相関係数を追加することで、関連性の強さや方向性をより詳しく分析できます。

まとめ

  • 特異点: データ内の異常値や外れ値を特定する。
  • 相違性: 異なるグループやカテゴリ間の違いを比較する。
  • 傾向性: データの変化やパターンを時間の経過とともに把握する。
  • 関連性: 異なる変数間の関係や相互作用を理解する。

コメント

タイトルとURLをコピーしました