データサイエンティスト検定のスキルチェックリストDS89及びDS87に関する解説を行います。
DS89:標準化とは何かを理解し、適切に標準化が行える
標準化
標準化とはデータを同じ基準で比較できるようにする方法です。これにより、異なる単位や範囲のデータを比較しやすくなります。
zスコア変換(標準得点)
一般的に標準化で表される手法です。各データポイントから平均を引き、その結果を標準偏差で割る方法です。これにより、変数の平均が0、標準偏差が1の標準正規分布に変換されます。
正規化
データの最小値を0、最大値を1に変換する方法です。これにより、データが0から1の範囲に収まります。つまり最小値から最大値の間でデータがどの位置(割合)に存在するかを示します。
分位点変換(Quantile Transformation):
データの順位に基づいて変換を行う手法で、データの分布を指定した分布(例:正規分布、均等分布)に合わせることを目的とします。この手法では、データの順位に着目して、元のデータの分布を目標分布に変換します。
DS90:名義尺度の変数をダミー変数に変換できる
名義尺度とは質的データで色や場所などを表現したものです。言語データのままでは分析に使用できない為、これを数字データに変換する必要があります。
2択の場合
下表のように子供と大人の二択を判定する場合には「子供:0」、「大人:1」という具合に変換する事で数値化が出来ます。この0.1をミー変数と呼びます。
データ№ | 名義尺度 | ダミー変数 |
---|---|---|
データ1 | 子供 | 0 |
データ2 | 大人 | 1 |
3択の場合
次に3択の場合を考えてみます。3択では安易に0,1,2と分けるのではなく、0,1の判定を2つ設けて判定を行います。下表では「肉」「野菜」「魚」を分類しており、ダミー変数1では「肉かそれ以外か」を判断し、ダミー変数2では「野菜かそれ以外か」を判定しています。どちらにも該当しない場合は魚という判定になっています。
データ№ | 名義尺度 | ダミー変数1 肉か? | ダミー変数2 野菜か? |
---|---|---|---|
データ1 | 肉 | 1 | 0 |
データ2 | 野菜 | 0 | 1 |
データ3 | 魚 | 0 | 0 |
コメント