「原因と結果」の経済学を読んだら、因果推論に入門できた

データ分析
この記事は約9分で読めます。

因果推論の入門書を探していたら、Twitterで “「原因と結果」の経済学 “という本を発見!

この本は、因果推論を実例に沿って丁寧に解説されているため、大変読みやすかったです。

また、数式はほとんど出てこないので、入門者にはぴったりな本です。

この本を読んで学んだことをまとめます。

まずは、一般的によく間違えやすい「因果関係」と「相関関係」について、その違いを解説していきます。

スポンサーリンク

因果関係と相関関係の違い

2つの事象に関係性があることを相関関係があると表現します。

相関関係には、因果関係疑似相関があります。

2つのことがらのうち、片方の事象が原因となって、もう片方の事象が結果として生じる場合、これらの関係を因果関係といいます。

一方で、相関関係ではあるが、原因と結果の関係にないものを疑似相関といいます。

以下は、疑似相関の例です。

  1. 海賊の数が減ると地球の気温が上がる
  2. 体力がある子供は学力が高い
  3. 警察官の数が多い地域は、犯罪発生数が多い

疑似相関を見抜くための3つのポイントは次のとおりです。

  1. まったくの偶然ではないか
  2. 隠れた因子(交絡因子)はないか
  3. 逆の因果関係は存在していないか

上記のいずれかが該当する関係は、疑似相関の疑いがあるので要注意です。

スポンサーリンク

因果関係を証明するのに必要な「反事実」

因果関係を証明するには、事実と反事実を比較する必要があります。

反事実とは、「仮に〇〇しなかった場合の結果」です。

ある店舗の売上が、広告によって伸びたかを証明するには、以下のように事実と反事実を比較して広告の効果を計算します。

(事実)-(反事実)
=(広告を出した場合の売上)-(広告を出さなかった場合の売上)
= 2000[万円]  ー 1500[万円]
= 500[万円]

500万円が広告によって伸びた売上であり、これを因果効果と呼びます。

厳密な反事実を作るには過去にタイムスリップして「広告を出していない状態」を生み出す必要があります。

しかし、現代技術ではタイムスリップを実現するのは無理です。

事実は観測できても、反事実は観測できないという問題があります。

この問題を解決し、因果関係を証明するために生まれたアイデアが、「観測できない反事実は、もっともらしいデータで穴埋めする」というものです。

広告の効果を証明するために、似通った店舗をランダムに2つのグループ(広告あり/なし)に分けます。

広告ありグループの売上(反事実)は、広告なしグループの売上(事実)で穴埋めすることにより、広告の効果を検証するという考え方です。

反事実の売上の穴埋め

このアイデアが、因果推論におけるさまざまな手法の根幹になっています。

もっともらしいデータで穴埋めできる条件は、2つのグループが比較可能であることです。

上の例でいう穴埋め可能な条件は、2つのグループにおいて、売上に影響しそうな全ての特徴が似通っていて、唯一の違いは広告の有無しかないことです。

しかし、全ての特徴が似通っているグループを見つけるのは、非常に難しいですよね。

そこで役立つのが因果推論分野のさまざまな手法です。

スポンサーリンク

因果関係を証明する手法

到底似通っているとはいい難い2つのグループを比較可能にし、もっともらしいデータで置き換える様々な手法が学者たちによって編み出されています。

ランダム化比較試験

因果関係を証明するのに確実性(エビデンスレベル)が高い方法は、実験を行うことです。

この実験は専門用語でランダム化比較試験と呼ばれ、因果推論の理想形とされる手法です。

ここで、原因となる事柄が介入を受ける群を介入群、介入を受けない群を対照群と呼びます。

ランダム化比較試験 とは、実験の対象を介入群と対照群にランダムに割り付けることで、介入群の反事実を対照群で置き換える手法です。

実験対象が人間である場合は、介入を受けるかどうかをランダムに決めることによってセレクション・バイアスを排除し、2つのグループを比較可能にします。

自然実験

ランダム化比較実験は、エビデンスレベルは高いが実験にかかるコストが高かったり、倫理的な問題で実施が不可能なことが多いです。

そこで、手元にあるデータを用いて実験にような状況を再現できないか?という考えのもと生まれたのが自然実験という手法です。

自然実験とは、研究の対象となる人々が、法改正や自然災害などの外生的ショックによって、自然に介入群と対照群に分かれた状況をを利用して因果関係を検証する手法です。

しかし、自然実験に該当する状況を見つけ出すのは、容易ではありません。

そこで考えられたのが、手元にあるデータと統計的手法を用いて、あたかもランダム化比較実験をしているかのような状況を作る疑似実験という方法です。

統計的手法として、 “「原因と結果」の経済学 “では以下4つの手法が紹介されています。

・差の差分析
・操作変数法
・回帰不連続デザイン
・マッチング法

差の差分析

差の差分析とは、介入群と対照群において「介入前後の結果の差」と「介入群と対照群の結果の差」の2つを差を取る手法です。

この2つの差の差を取って、介入の効果(つまり、因果効果)を推定します。

差の差分析

差の差分析が有効性を持つには、以下の条件を満たしている必要があります。

・介入前の結果のトレンドが同じ
・介入と同じタイミングで、結果に影響を与えるような別の要因が発生していない

操作変数法

操作変数法とは、原因に影響を与えることを通じてしか結果に影響を与えない変数(操作変数)を用いて、介入群と対照群を比較可能な状態にする方法です。

操作変数法による因果推論を広告と売上の例で説明します。

ある新聞社で広告割引キャンペーンが開始されたとします。

このキャンペーンによって、広告を出す店舗が増加すると予想されます。

しかし、キャンペーンは売上に直接影響を与えません。

つまり、キャンペーンをしたかどうかを操作変数として扱うことができます。

もし、広告と売上の間に因果関係があれば、キャンペーンによって広告を出す店舗が増加することによって売上が増加すると考えられます。

一方、広告と売上の間に因果関係がなければ、キャンペーンによって広告を出す店舗が増加しても売上は増加しないでしょう。

操作変数法

操作変数法が有効であるためには、以下の条件を満たしている必要があります。

・操作変数は、原因には影響を与えるが、結果には影響を与えない
・操作変数と結果の両方に影響を与えるような第4の変数が存在しないこと

回帰不連続デザイン

回帰不連続デザインとは、恣意的に決定されたカットオフ値の前後で介入群と対照群に分かれる状況を利用して因果効果を推定する方法です。

カットオフ値で生じるジャンプの大きさが因果効果を表します。

例えば、広告による売上効果を推定したい状況だとして、従業員が50名以上の店舗では広告を出し、49名以下の店舗では広告を出さないようにします。

下図のように、カットオフ値50でジャンプが生じていれば、広告の効果があったと推定できます。

回帰不連続デザイン

回帰不連続デザインが有効である前提条件は、カットオフ値周辺で結果に影響を及ぼすような他の要因が発生していないことです。

マッチング法

マッチング法とは、共変量を用いて、介入群によく似たサンプルを対照群の中から抽出することで、介入群と対照群を比較可能にする手法です。

共変量が複数ある場合は、共変量を1つにまとめたスコアを用いてさせる方法もあります。

これをプロペンシティ・スコア・マッチングといいます。

プロペンシティ・スコア・マッチング
スポンサーリンク

参考文献

この本を読めば、根拠のない通説に騙されない思考法を身に付けることができます。

コメント

タイトルとURLをコピーしました