PR

ダミー変数の作り方|名義尺度を数値化して分析に活用

DS090:名義尺度の変数をダミー変数に変換できる

名義尺度とは?

データ分析を行う際、データは数値として扱う必要があります。しかし、「色」や「職業」などのカテゴリーデータ(名義尺度)はそのままでは数値計算に使用できません。そのため、名義尺度を数値データに変換する手法の一つとして「ダミー変数」が用いられます。

この記事では、ダミー変数の基本的な考え方と変換方法について解説します。

2択のダミー変数変換

最もシンプルなダミー変数の例として、2つのカテゴリに分類されるデータを考えます。

例:子供と大人の分類
以下のように、「子供」「大人」という名義尺度を、0と1の数値に置き換えることで、分析に利用可能なデータになります。

データ№ 名義尺度 ダミー変数
データ1 子供 0
データ2 大人 1

このように、2カテゴリの場合は 「0か1か」 という二値化によって簡単にダミー変数へ変換できます。

3択以上のダミー変数変換

3つ以上のカテゴリがある場合、単純に0,1,2と数値を振るのではなく、「1か0か」の判定を複数作る形でダミー変数を設定します。

例:食品の種類(肉・野菜・魚)を分類

データ№ 名義尺度 ダミー変数1(肉か?) ダミー変数2(野菜か?)
データ1 1 0
データ2 野菜 0 1
データ3 0 0

ポイント:

  • 「肉」ならダミー変数1を1に、それ以外は0
  • 「野菜」ならダミー変数2を1に、それ以外は0
  • 両方のダミー変数が0のとき、「魚」と判定される

このように、元のカテゴリー数がNの場合、N-1個のダミー変数を作成 するのが一般的です。

ダミー変数の活用方法

ダミー変数を作成することで、カテゴリーデータを統計分析や機械学習で活用できるようになります。例えば、

  • 回帰分析:目的変数との相関を調べる
  • 機械学習モデル:決定木や線形回帰の説明変数に利用する

など、幅広い場面で利用されています。

まとめ

  • 名義尺度はそのままでは数値計算に使えないため、ダミー変数に変換する必要がある。
  • 2カテゴリなら0/1のシンプルな変換が可能。
  • 3カテゴリ以上では、N-1個のダミー変数を作成して表現する。
  • 回帰分析や機械学習で広く活用される。

ダミー変数の理解が進めば、データ分析の幅が広がります。ぜひ活用してみてください!


AIで効率化してライバルに差をつける!【ビットランドAI】

コメント

タイトルとURLをコピーしました