ダミー変数とは何か?
統計初心者のための徹底解説

統計を学び始めたばかりの方にとって、「ダミー変数」という言葉は少し難しく、混乱を招きやすい概念かもしれません。特に、「文字のカテゴリカルデータを何か適当な数値に置き換えること」だと誤解してしまう方が多いようです。なぜそのような誤解が生まれるのか、そしてダミー変数が一体どのようなもので、どのように使われるのかを、多変量解析での利用例も交えながら見ていきましょう。


1. なぜ「適当な数値に置き換える」と勘違いしてしまうのか?

この誤解が生まれる主な理由は、以下の点にあると推測できます。

しかし、もし「男性を1、女性を2」と単純に数値を割り当てた場合、「女性は男性の2倍である」といった、現実には存在しない量的な関係が生まれてしまいます。ダミー変数は、このような「適当な数値への置き換え」とは根本的に異なる考え方に基づいています。

2. ダミー変数とはどんな変数?

ダミー変数を一言で説明すると、「カテゴリカルデータ(質的データ)の特定のカテゴリの有無を0か1で表現する変数」です。

もう少し詳しく見ていきましょう。

3. ダミー変数はどんなことに利用されるのか?

ダミー変数は、主に以下のような目的で利用されます。

4. 多変量解析にカテゴリカルデータを説明変数として投入するイメージ

ここが統計初心者が最もイメージしにくい部分かもしれませんね。

例えば、「年収を性別、年齢、最終学歴で予測したい」という多変量解析(重回帰分析)を考えてみましょう。

このままでは、「性別」や「最終学歴」を数式に直接組み込むことができません。そこでダミー変数の出番です。

  1. 性別のダミー変数化:
    • 「男性ダミー」という変数を作ります。
    • 男性であれば「1」、女性であれば「0」とします。(ここでは女性を基準グループとします)
  2. 最終学歴のダミー変数化:
    • カテゴリが3つ(高卒、大卒、院卒)ある場合、ダミー変数はカテゴリ数マイナス1個作成します。
    • 「大卒ダミー」という変数を作ります。(大卒なら1、それ以外は0)
    • 「院卒ダミー」という変数を作ります。(院卒なら1、それ以外は0)
    • この場合、「高卒」が基準グループとなります。(大卒ダミーも院卒ダミーも0の人が高卒)

こうすることで、回帰分析の式は以下のようになります。

$$年収 = \beta_0 + \beta_1 \times 年齢 + \beta_2 \times 男性ダミー + \beta_3 \times 大卒ダミー + \beta_4 \times 院卒ダミー + \epsilon$$

この式の意味を考えてみましょう。

5. まとめ

ダミー変数のポイント

ダミー変数は、統計学において非常に重要な概念です。最初は難しく感じるかもしれませんが、一度理解してしまえば、多変量解析をより深く理解するための強力なツールになります。

統計記事一覧に戻る