우리는 착각할 준비가 되어있다.
비싼 카메라를 사용한 사람들이 찍은 사진이 더 멋져 보인다.
따라서, 비싼 카메라를 쓰면 (누구나) 사진을 더 잘 찍는다.
우리는 쉽게 착각한다.
카메라 가격과 결과물만 놓고 보면 이(위의) 말은 참(True)으로 보인다.
하지만, 정말 카메라 가격이 사진 실력의 원인일까?
전문 사진작가들은 대부분 고가의 카메라를 사용한다.
그렇다면, 그들은 비싼 카메라 덕분에 사진을 잘 찍는 걸까?
아니면 원래 사진을 잘 찍는 사람들이 비싼 카메라를 선택하는 걸까?
사실, 사진을 잘 찍는 사람들이 더 좋은 장비에 투자할 가능성이 높다.
아무리 비싼 카메라를 쓴다고 해도 촬영 기술, 구도, 색감 조절 능력이 부족하면 좋을 사진을 찍기 어렵다.
즉, 카메라의 가격이 아니라, 원래 사진을 잘 찍는 사람인지가 더 중요한 요인이다.
이런 요인들을 고려하지 않은 채,
단순한 평균 비교로 "비싼 카메라 = 뛰어난 사진 실력"이라고 결론 내리는 순간 편향(Bias)이 발생한다.
편향(Bias)
관찰된 연관성(Observed Association)과 실제 인과 효과(True Causal effect)는 다른 이유는 바로 편향(Bias) 때문이다.
Bias는 T와 Y 사이의 관계를 왜곡시키는 요소로, 인과 효과를 정확히 추정하는 것을 어렵게 만든다.
위의 예시에서, 카메라 가격이 원인이 아니라, 원래 존재하는 차이(Confounder)가 결과를 만들어낸 것일 수 있다.
이렇게 처치(T) 외의 요인들이 개입하여 인과 효과를 왜곡하는 현상이 바로 Bias다.
=> 즉, Bias를 통제하지 않으면 인과 효과를 올바르게 추정할 수 없다.
실제로 처치군과 비처치군 사이의 평균 차이를 계산하면 ATE 뿐 아니라 Bias까지 포함된 값을 얻게 된다.
우리는 정확한 인과 관계를 추론하기 위해, ATT와 Bias의 차이를 구별해야 한다.
수식적 접근
1. 단순한 평균 차이(연관성, association)
우리가 가장 먼저 계산할 수 있는 값은
처치를 받은 그룹(T=1)과 받지 않은 그룹(T=0)의 평균 차이다.
하지만, 이것으로는 인과 효과를 설명할 수 없다.
왜냐하면, 이 값은 실제로 실제 인과 효과(ATT) + 편향(Bias)로 구성되어있기 대문이다.
이 말이 정말인지 확인해보자!
2. 잠재적 결과(Potential Outcomes)로 표현하기
잠재적 결과를 사용해 다시 식을 서보자.
이는
- 처치를 받은(T=1)그룹의 실제 관찰 결과(Y1)의 평균(E)
- 처치를 받지 않은 그룹(T=0)에서의 관찰 결과(Y0)의 평균
의 차이를 의미한다.
우리는 각 개인의 두 가지 결과를 동시에 관찰할 수 없으므로, 추론을 위해 반사실적 요소(counterfactual)을 고려해야한다.
3. 반사실적 요소(counterfactual) 요소 고려하기
이제, 반사실적 요소를 고려해보자.
편향을 이해하기 위해 E[Y0|T=1] (처치를 받은 사람들이 처치를 받지 않았을 경우의 기대값)을 더하고 빼주자.
같은 값을 더해주고, 빼주면 실제적인 효과는 0이라 원래 식의 결과에 영향을 주지 않지만, 수식을 두 부분으로 나눌 수 있어 편향과 ATT를 구분할 수 있다.
이렇게 하면 수식을 두 부분으로 나누고, 우리가 원하는 ATT와 Bias로 구분할 수 있다.
4. ATT와 Bias를 구분하기
위의 식을 정리하면,
첫 번째 항은 ATT 가 되고,
복습: ATT(Average Treatment Effect on the Treated, 처치를 받은 사람들에 대한 평균 효과)
ATT = E[Y1|T=1] - E[Y0|T=1]
처치를 받은 그룹에서 처치를 받았을 때 - 처치를 받은 그룹에서 처치를 받지 않았을 때
실제로 처치를 받은 사람들(factural)이 처치를 받지 않았으면 어떻게 되었을까(counterfactual)를 비교한 값
두 번째 항은 Bias 가 된다.
Bias의 개념을 다시 생각해보면,
Bias는 처치를 받지 않았을 때(Y0)의 기대 결과가 처치군(T=1)과 비처치군(T=0)에서 다를 경우 발생한다
실제로 처치를 받은 사람들이, 만약 처치를 받지 않았다면(T=1 → T=0), 기대되는 결과:
E[Y0∣T=1] (Counterfactual)
실제로 처치를 받지 않은 사람들이 나타낸 결과:
E[Y0∣T=0] (factual)
Bias = Counterfactual - Factual
Bias = E[Y0|T=1] - E[Y0|T=0]
이 차이가 존재한다면(Bias가 0이 아니라면),
단순한 평균 비교만으로는 처치(T)의 '순수한 효과'(ATT)를 알수 없기 때문에 편향(Bias)이 된다
=> 애초에 처치 여부 외의 요인 때문에 차이가 생겼다는 의미이다.
Summary
요약하면,
Bias는 처치군(T=1)과 비처치군(T=0) 사이의 차이로 인해 발생한다.
Bias가 존재한다면(0이 아니라면), 단순한 평균 비교로 인과 효과를 정확하게 측정할 수 없다.
편향을 완벽하게 제거하는 것은 쉽지 않다.
하지만, Bias가 존재할 수 있음을 인지하고, 이를 줄이기 위한 방법을 고민하는 것이 바로 인과추론의 핵심이다.
편향 수식은 나의 두통 유발자이지만, 인과추론은 여기(편향)서부터 시작해야한다.
다들 힘내자.... 😊
'인과추론' 카테고리의 다른 글
[인과추론] 인과를 증명하기 위해 RCT가 중요한 이유 (0) | 2025.04.23 |
---|---|
[인과추론] Notation 101 (0) | 2025.03.09 |
인과추론(Causal Inference)란 무엇일까? (0) | 2025.03.08 |