"T가 Y에 영향을 준다."
라는 결론에 도달하기 위해 인과추론에서는 복잡한 계산 과정을 거치게 된다.
이 과정에서 각 실험대상(unit)별 세부 표기법부터 인과 효과를 추론하는 과정에 이르기까지 다양한 기본 Notation들을 정확하게 이해해야 앞으로 인과추론의 수식적 접근을 쉽게 이해할 수 있다.
이번 포스팅에서는 인과추론의 핵심 개념들을 이해하기 위해 사용되는 주요 표기법(Notation)들을 정리해본다.
1. 실험대상 i
- i는 개별 실험대상(예: 한 사람, 한 학교, 한 병원 등)을 의미한다.
- i=1,2,3,… 같이 각 대상에 인덱스를 붙여 구분한다.
2. 처치 지시자 T
- T는 실험대상 i가 처치를 받았는지 여부를 나타내는 이진 변수다.
- 이 변수는 개별 대상별로 처치 여부를 구분하여, 인과 효과를 추론하는 데 기초 데이터를 제공한다.
3. 잠재적 결과 (Potential Outcomes)
실제 인과 효과를 추론하기 위해, 각 실험대상 i는 두 가지 잠재적 결과를 가진다.
중요:
한 실험대상에 대해 이 두 가지 결과를 동시에 관찰하는 것은 불가능하다.
우리가 실제로 관찰할 수 있는 것은 오직 하나의 결과(factual) 뿐이며,
나머지 하나는 "반사실적 잠재 결과 (counterfactual)"로 남게 다.
4. 관찰된 결과 Y
- Y는 실험대상 i에서 실제로 관찰되는 결과다.
- 처치 여부에 따라, 관찰된 결과는 아래와 같이 결정된다:
5. 개별 처치 효과와 평균 효과
5-1. 개별 처치 효과 (Individual Treatment Effect, ITE)
- ITE는 개별 대상 i에 대해 처치 효과를 나타내며, 다음과 같이 정의된다.
- ITE = 처치를 받은 결과 - 처치를 받지 않은 결과:
5-2. 평균 처치 효과 (Average Treatment Effect, ATE)
- 전체 집단에서의 평균 처치 효과는 다음과 같이 정의한다:
- ATE = (처치를 받았을 때의 결과 - 처치를 받지 않았을 때의 결과)의 평균
- 이 값은 처치가 결과에 미치는 평균적인 인과 효과를 추정한다.
5-3. 처치군에 대한 평균 효과 (Average Treatment Effect on the Treated, ATT)
- 처치를 실제로 받은 집단에 한정하여, 평균 처치 효과를 측정한다:
- ATT = 처치를 받은 그룹에서(Ti=1) 처치를 받았을때의 기댓값(Yi(1)) - 처치를 받지 않았을 경우의 기대값(Yi(0); counterfactual)
- 이는 처치를 받은 대상들에 대해, 처치가 결과에 미친 순수한 효과를 나타낸다.
하지만 한 대상에 대해 두 가지 결과를 동시에 관찰할 수 없으므로,
현실에서는 ITE, ATE, ATT 모두 반사실적결과(counterfactual outcomes)를 포함하기에 직접 측정/관찰할 수 없다.
이 포스팅은 Notation에 관련한 포스팅이기 때문에, 우선은 여기까지만 알고있자.
Summary
이번 포스팅에서는 인과추론의 핵심 개념을 이해하는 데 필요한 기본 표기법(Notation) 들을 정리했다.
실험 대상 | i | 연구에서 관찰하는 개별 단위 (예: 한 사람, 한 병원). |
처치 지시자 | T | 개별 대상 i가 처치를 받았는지 여부를 나타내는 이진 변수 (0 or 1) |
잠재적 결과 | Y | 처치를 받았을 경우와 받지 않았을 경우의 결과. 한 대상에 대해 두 가지 결과를 동시에 관찰할 수 없음. |
관찰된 결과 | Ti | 개별 대상 i에서 실제로 관찰된 결과. |
개별 처치 효과 | ITE | Individual Treatment Effect, 특정 대상 i에서 처치가 미친 효과 (ITE=Yi(1)−Yi(0)ITE = Y_i(1) - Y_i(0)) |
평균 처치 효과 | ATE | Average Treatment Effect, 전체 모집단에서 처치 효과의 평균 |
처치군에 대한 평균 처치 효과 | ATT | Average Treatment Effect on the Treated 처치를 받은 집단에서의 평균 처치 효과. |
현실에서는 단일 개체에 대해 두 가지 결과를 동시에 관찰할 수 없기 때문에, 실제로 ITE, ATE, ATT를 직접 측정할 수 없다. 이 때문에 우리는 통계적 기법을 이용해 인과 효과를 추정해야 한다.
하지만, 단순한 평균 비교만으로는 정확한 인과 효과를 추정할 수 없을 수도 있다.
그건 바로 "편향(Bias)" 때문인데,
다음 포스팅에서는 Bias가 무엇인지, 왜 단순한 평균 비교가 문제가 될 수 있는지를 오늘 포스팅에서 다룬 Notation들과 함께 살펴보자.
'인과추론' 카테고리의 다른 글
[인과추론] 편향(Bias) 이란? (0) | 2025.03.10 |
---|---|
인과추론(Causal Inference)란 무엇일까? (0) | 2025.03.08 |