【DS検定】DS89 標準化、DS90 ダミー変数

データサイエンティスト検定のスキルチェックリストDS89及びDS87に関する解説を行います。

DS89:標準化とは何かを理解し、適切に標準化が行える

標準化

標準化とはデータを同じ基準で比較できるようにする方法です。これにより、異なる単位や範囲のデータを比較しやすくなります。

zスコア変換(標準得点)

一般的に標準化で表される手法です。各データポイントから平均を引き、その結果を標準偏差で割る方法です。これにより、変数の平均が0、標準偏差が1の標準正規分布に変換されます。

正規化

データの最小値を0、最大値を1に変換する方法です。これにより、データが0から1の範囲に収まります。つまり最小値から最大値の間でデータがどの位置(割合)に存在するかを示します。

分位点変換(Quantile Transformation):

データの順位に基づいて変換を行う手法で、データの分布を指定した分布(例:正規分布、均等分布)に合わせることを目的とします。この手法では、データの順位に着目して、元のデータの分布を目標分布に変換します。

DS90:名義尺度の変数をダミー変数に変換できる

名義尺度とは質的データで色や場所などを表現したものです。言語データのままでは分析に使用できない為、これを数字データに変換する必要があります。

2択の場合

下表のように子供と大人の二択を判定する場合には「子供:0」、「大人:1」という具合に変換する事で数値化が出来ます。この0.1をミー変数と呼びます。

データ№名義尺度ダミー変数
データ1子供
データ2大人

3択の場合

次に3択の場合を考えてみます。3択では安易に0,1,2と分けるのではなく、0,1の判定を2つ設けて判定を行います。下表では「肉」「野菜」「魚」を分類しており、ダミー変数1では「肉かそれ以外か」を判断し、ダミー変数2では「野菜かそれ以外か」を判定しています。どちらにも該当しない場合は魚という判定になっています。

データ№名義尺度ダミー変数1
肉か?
ダミー変数2
野菜か?
データ1
データ2野菜
データ3

コメント

タイトルとURLをコピーしました