連続データを2カテゴリに分ける落とし穴:
統計初心者が知るべき真実

統計解析において、連続データを2つのカテゴリに強制的に分割する「適切な」統計的手法は存在しません。平均値や中央値を使ってデータを区切ることはできますが、それはあくまでそのサンプルに固有の操作であり、一般化可能性は全くありません。それにもかかわらず、多くの初心者がこのような幻想を抱いているのは、直感的に分かりやすい「高い」「低い」といったカテゴリ分けに魅力を感じるからかもしれません。


連続データを2カテゴリに分割するデメリット

連続データを2つのカテゴリに分けることには、臨床的な有用性がある一方で、統計的には大きなデメリットがあります。具体的な例を挙げて説明しましょう。

たとえば、ある疾患における血圧の数値を考えてみましょう。血圧は連続データとして測定されます。これを「高血圧」と「正常血圧」の2つに分けるとして、そのカットオフ値を例えば140mmHgに設定したとします。


連続データを連続データのままで扱うメリット

一方で、連続データを連続データのままで扱うことには、統計初心者にも理解しやすい大きなメリットがあります。

再び血圧の例で考えてみましょう。


まとめ

連続データを無理にカテゴリに分割することは、貴重な情報を捨て去り、統計的な検出力を低下させる行為です。統計解析の目的が、データから最大限の知見を引き出し、正確な推論を行うことであれば、連続データは連続データのまま扱うのが原則です。一見複雑に見えるかもしれませんが、連続データをそのまま扱う解析手法(回帰分析など)を学ぶことは、統計的な思考力を高め、データからより深い洞察を得るための重要なステップとなります。

統計記事一覧に戻る