ダミー変数とは何か?
統計初心者のための徹底解説
統計を学び始めたばかりの方にとって、「ダミー変数」という言葉は少し難しく、混乱を招きやすい概念かもしれません。特に、「文字のカテゴリカルデータを何か適当な数値に置き換えること」だと誤解してしまう方が多いようです。なぜそのような誤解が生まれるのか、そしてダミー変数が一体どのようなもので、どのように使われるのかを、多変量解析での利用例も交えながら見ていきましょう。
1. なぜ「適当な数値に置き換える」と勘違いしてしまうのか?
この誤解が生まれる主な理由は、以下の点にあると推測できます。
- 「変数=数値」という固定観念: 統計学で扱うデータの多くは数値データなので、新しく出てくる「変数」という言葉も、自動的に「数値」と結びついてしまう。
- カテゴリカルデータの扱いに戸惑う: 「男性」「女性」や「A型」「B型」「O型」「AB型」といった、文字で表現されるデータをどう分析に組み込むのか、具体的なイメージが湧きにくい。
- シンプルな「置き換え」の発想: 最も直感的に思いつく解決策として、「男性を1、女性を2」のように、単純に数値を割り当てるという発想に至ってしまう。
- ダミー変数の導入過程が省略されがち: 統計の教科書や講義で、いきなり「ダミー変数を使います」と説明され、その背後にある論理的な必要性が十分に説明されないことがある。
しかし、もし「男性を1、女性を2」と単純に数値を割り当てた場合、「女性は男性の2倍である」といった、現実には存在しない量的な関係が生まれてしまいます。ダミー変数は、このような「適当な数値への置き換え」とは根本的に異なる考え方に基づいています。
2. ダミー変数とはどんな変数?
ダミー変数を一言で説明すると、「カテゴリカルデータ(質的データ)の特定のカテゴリの有無を0か1で表現する変数」です。
もう少し詳しく見ていきましょう。
- 「0」は「ない」、「1」は「ある」:
- 例えば、「性別」というカテゴリカルデータがあったとします。これをダミー変数にする場合、「男性ダミー」という変数と「女性ダミー」という変数を作成します。
- 「男性ダミー」が1ならば「男性である」、0ならば「男性ではない(=女性である)」を意味します。
- 「女性ダミー」が1ならば「女性である」、0ならば「女性ではない(=男性である)」を意味します。
- カテゴリの「違い」を表現する: ダミー変数は、カテゴリ間の「量的な差」ではなく、「質的な違い」や「存在の有無」を表現するために使われます。これにより、数値データしか扱えない統計モデルに、カテゴリカルな情報を正しく組み込むことが可能になります。
3. ダミー変数はどんなことに利用されるのか?
ダミー変数は、主に以下のような目的で利用されます。
- カテゴリカルデータを統計モデルに組み込む: 回帰分析などの多くの統計モデルは、数値データを前提としています。性別や地域、学歴、商品の種類といったカテゴリカルデータをこれらのモデルで分析する際に、ダミー変数に変換して投入します。
- 特定のカテゴリが他のカテゴリに与える影響を分析する: 例えば、「学歴(高卒、大卒、院卒)」が「収入」に与える影響を分析したいとします。この場合、大卒ダミー、院卒ダミーを作成し、高卒を基準(比較対象)とすることで、大卒が収入に与える影響、院卒が収入に与える影響を数値で評価できるようになります。
- グループ間の平均値の差を検定する: ダミー変数を使った回帰分析は、T検定や分散分析と数学的に等価な関係にあります。グループ間の平均値の差があるかどうかを検定する際にも利用できます。
4. 多変量解析にカテゴリカルデータを説明変数として投入するイメージ
ここが統計初心者が最もイメージしにくい部分かもしれませんね。
例えば、「年収を性別、年齢、最終学歴で予測したい」という多変量解析(重回帰分析)を考えてみましょう。
- 年収: これは目的変数(予測したい変数)で、数値データです。
- 年齢: これは説明変数(予測に使う変数)で、数値データです。
- 性別: これは説明変数で、カテゴリカルデータ(「男性」「女性」)です。
- 最終学歴: これは説明変数で、カテゴリカルデータ(「高卒」「大卒」「院卒」)です。
このままでは、「性別」や「最終学歴」を数式に直接組み込むことができません。そこでダミー変数の出番です。
- 性別のダミー変数化:
- 「男性ダミー」という変数を作ります。
- 男性であれば「1」、女性であれば「0」とします。(ここでは女性を基準グループとします)
- 最終学歴のダミー変数化:
- カテゴリが3つ(高卒、大卒、院卒)ある場合、ダミー変数はカテゴリ数マイナス1個作成します。
- 「大卒ダミー」という変数を作ります。(大卒なら1、それ以外は0)
- 「院卒ダミー」という変数を作ります。(院卒なら1、それ以外は0)
- この場合、「高卒」が基準グループとなります。(大卒ダミーも院卒ダミーも0の人が高卒)
こうすることで、回帰分析の式は以下のようになります。
$$年収 = \beta_0 + \beta_1 \times 年齢 + \beta_2 \times 男性ダミー + \beta_3 \times 大卒ダミー + \beta_4 \times 院卒ダミー + \epsilon$$
この式の意味を考えてみましょう。
- $\beta_0$: 基準グループ(女性で高卒)の人が、年齢が0歳の時の平均年収(切片)。
- $\beta_1$: 年齢が1歳上がるごとに年収がどれくらい変化するか。
- $\beta_2$: 男性であることが年収に与える影響(女性と比べてどれくらい年収が違うか)。
- 男性の場合、男性ダミーが1になるので $\beta_2$ が加算される。
- 女性の場合、男性ダミーが0になるので $\beta_2$ は加算されない。
- $\beta_3$: 大卒であることが年収に与える影響(高卒と比べてどれくらい年収が違うか)。
- 大卒の場合、大卒ダミーが1になるので $\beta_3$ が加算される。
- 高卒・院卒の場合、大卒ダミーが0になるので $\beta_3$ は加算されない。
- $\beta_4$: 院卒であることが年収に与える影響(高卒と比べてどれくらい年収が違うか)。
- 院卒の場合、院卒ダミーが1になるので $\beta_4$ が加算される。
- 高卒・大卒の場合、院卒ダミーが0になるので $\beta_4$ は加算されない。
5. まとめ
ダミー変数のポイント
- ダミー変数は「0」と「1」でカテゴリの有無を表現する
- カテゴリ数マイナス1個のダミー変数を作成する
- 基準グループ(比較対象)を明確にする
- 数値データしか扱えない統計モデルにカテゴリカルデータを組み込む
- 「適当な数値への置き換え」とは根本的に異なる概念
ダミー変数は、統計学において非常に重要な概念です。最初は難しく感じるかもしれませんが、一度理解してしまえば、多変量解析をより深く理解するための強力なツールになります。