1. Population Stratification 이란?
질병과 관련 없는 유전적 배경 차이가 집단 내에 존재하면서,
SNP와 질병 사이에 가짜 연관(fake association)이 나타나는 현상이다.
→ GWAS에서 꼭 보정해야 할 중요한 교란 요인(confounder)!
2. 예시로 이해하기
연구자가 다음과 같이 실험했다고 상상해보자:
- A 지역 사람 1,000명 → 모두 사과를 좋아함
- B 지역 사람 1,000명 → 모두 사과를 싫어함
- 이들의 키와 SNP 정보를 수집
그리고 분석 결과, rs0000이라는 SNP가 A 지역 사람들에게 더 많았다.
연구자는 이 SNP가 ‘사과 선호’와 관련 있다고 발표했다.
Population group (지역 차이) → SNP(rs0000) → Preference (사과 선호)
❗ 하지만 사실은...
- rs0000은 키와 관련된 SNP였고,
- A 지역 사람이 평균적으로 더 키가 컸으며,
- 사과를 좋아하는 경향은 지역의 문화적/환경적 특성 때문이었다.
즉,
- SNP는 키라는 Trait과 관련 있었고,
- 사과 선호는 지역/환경 요인으로 생긴 것이었다.
- 두 요인(SNP, 사과선호)이 지역 차이에 의해 영향을 받았기에
- 마치 SNP가 사과 선호에 영향을 주는 것처럼 보였던 것이다!
Population group (지역 차이)
↙ ↘
SNP Preference (사과 선호)
↙
Hight
이것이 바로 Population Stratification!
질병(trait, phenotype)의 원인으로 보이는 SNP과의 연관이
사실은, 가짜 연관(spurious association)일 수 있다.
3. GWAS에서는 어떻게 나타날까?
서로 다른 인종/지역 집단은 유전적 배경 차이(SNP 분포가 다름)로 인해,
어떤 SNP가 특정 질병과 통계적으로 연관되어 보일 수 있다.
그러나, 이는 실제 인과 관계가 아니고 집단 간 차이에 의해 발생한 착시 효과일 수있다.
이를 Population Stratification으로 인한 가짜 연관(Spurious Association) 이라고 한다.
그래서 이러한 구조를 통계적으로 보정하는 것이 필수적이다.
4. 해결 방법: PCA 보정
이 문제를 해결하기 위해 사용하는 대표적인 방법이 바로 PCA (Principal Component Analysis)다.
- PCA를 통해 각 샘플의 유전적 배경을 요약한 PC1, PC2, ...를 생성하고,
- 회귀 모델의 covariate로 포함시켜 population structure를 보정한다.
예시 회귀식:
Disease ~ SNP + PC1 + PC2 + ... + PCn
이런 식으로 population stratification을 statistically control한다.
📌 그런데, PC1~PCn을 넣으면 인과 관계를 볼 수 있는 걸까?
SNP → Disease
우리는 SNP가 질병에 영향을 주는지가 궁금하다.
우리가 보려는 원인(X)과 결과(Y) 모두에 영향을 주는 변수를 Confounder라고 한다.
그런데, Confounder가 있으면 SNP와 Disease 사이에 진짜 인과가 없는 경우에도, 통계적 연관이 있게 나온다. (가짜연관, spurious association)
그래서, 인과 추론에서는 confounder를 반드시 통제해야 한다.
여기서 Population stratification은 바로 그 confounder 역할을 하는 대표적인 변수다.
이 모델에서는 유전형(SNP)에 영향을 주고, 질병(Disease)에도 영향을 준다.
PCA는 이 confounder 역할을 하는 'Population Group'의 유전적 차이를 PC1, PC2 같은 값들로 요약해준다.
예를 들어 PC1은 A지역-B지역 차이, PC2는 B지역-C지역 차이 이런 식으로,
이렇게 생성된 PC 값들은 집단 간 유전적 차이를 반영하는 축(axis) 역할을 한다.
그래서 PC1~PCn을 회귀식에 넣으면, 'Population Group'이라는 confounder를 통제하는 효과가 난다.
5. DAG로 보기
❌ Confounding 있는 경우 (Population Stratification 존재)
Population Group
/ \
v v
SNP ---------> Disease
- Population Group이 SNP에도 영향을 주고
- 질병에도 영향을 줌
- 이로 인해 SNP ↔ 질병 간의 관계가 과장되거나 왜곡됨
6. PCA로 보정한 모델
Population Group
/ \
v v
SNP Disease
\ /
\ /
Adjusted Model (with PC1~PCn)
- PCA를 통해 유전적 차이를 반영한 PC1~PCn 생성
- 회귀 모델에 포함하여 SNP → 질병의 순수한 효과만 추정 가능
7. Summary
실제 데이터에서 ‘인종’이나 ‘지역’ 정보가 없더라도,
PCA를 통해 유전형의 변화를 바탕으로 자연스럽게 집단 구조를 반영할 수 있다.
→ self-reported ethnicity 없이도 PCA만으로 population structure 보정이 가능하다! (인종/집단 간 차이를 통계적으로 보정할 수 있다!)
'유전학' 카테고리의 다른 글
UK Biobank는 어떻게 가능했을까? (0) | 2025.04.12 |
---|---|
유전체·의료 데이터에서 robust가 가진 뉘앙스 (0) | 2025.04.02 |
de novo variant란? (0) | 2025.04.01 |
크리스퍼 가위와 특허 전쟁 (0) | 2025.03.23 |
박테리아가 바이러스 DNA를 가짐? (0) | 2025.03.11 |