DS090:名義尺度の変数をダミー変数に変換できる
名義尺度とは?
データ分析を行う際、データは数値として扱う必要があります。しかし、「色」や「職業」などのカテゴリーデータ(名義尺度)はそのままでは数値計算に使用できません。そのため、名義尺度を数値データに変換する手法の一つとして「ダミー変数」が用いられます。
この記事では、ダミー変数の基本的な考え方と変換方法について解説します。
2択のダミー変数変換
最もシンプルなダミー変数の例として、2つのカテゴリに分類されるデータを考えます。
例:子供と大人の分類
以下のように、「子供」「大人」という名義尺度を、0と1の数値に置き換えることで、分析に利用可能なデータになります。
データ№ | 名義尺度 | ダミー変数 |
---|---|---|
データ1 | 子供 | 0 |
データ2 | 大人 | 1 |
このように、2カテゴリの場合は 「0か1か」 という二値化によって簡単にダミー変数へ変換できます。
3択以上のダミー変数変換
3つ以上のカテゴリがある場合、単純に0,1,2と数値を振るのではなく、「1か0か」の判定を複数作る形でダミー変数を設定します。
例:食品の種類(肉・野菜・魚)を分類
データ№ | 名義尺度 | ダミー変数1(肉か?) | ダミー変数2(野菜か?) |
---|---|---|---|
データ1 | 肉 | 1 | 0 |
データ2 | 野菜 | 0 | 1 |
データ3 | 魚 | 0 | 0 |
ポイント:
- 「肉」ならダミー変数1を1に、それ以外は0
- 「野菜」ならダミー変数2を1に、それ以外は0
- 両方のダミー変数が0のとき、「魚」と判定される
このように、元のカテゴリー数がNの場合、N-1個のダミー変数を作成 するのが一般的です。
ダミー変数の活用方法
ダミー変数を作成することで、カテゴリーデータを統計分析や機械学習で活用できるようになります。例えば、
- 回帰分析:目的変数との相関を調べる
- 機械学習モデル:決定木や線形回帰の説明変数に利用する
など、幅広い場面で利用されています。
まとめ
- 名義尺度はそのままでは数値計算に使えないため、ダミー変数に変換する必要がある。
- 2カテゴリなら0/1のシンプルな変換が可能。
- 3カテゴリ以上では、N-1個のダミー変数を作成して表現する。
- 回帰分析や機械学習で広く活用される。
ダミー変数の理解が進めば、データ分析の幅が広がります。ぜひ活用してみてください!
コメント