0. Imputation이란?
Imputation은 유전체 데이터에서 빠진 genotype 정보를 예측해 채워주는 과정이다.
예를 들어 array-based genotyping에서는 측정되지 않은 SNP들이 존재하는데,
이를 reference panel을 활용해 통계적으로 추정해 보완한다.
이로 인해 분석 가능한 variant 수가 크게 증가하고, meta-analysis 호환성도 향상된다.
1. Pre-imputation QC란?
Pre-imputation QC는 Imputation시행 전(pre-) 진행되는 Quality Control을 시행하는 단계다.
이 과정의 목적은 신뢰도 높은 clean dataset을 만드는 것이다.
Imputation을 시행 전 미리 데이터를 점검함으로써 오류나 bias 발생 가능성을 줄이고,
문제가 있는 sample(행)과 SNP(열)을 제거한다.
2. Sample-level QC
Sample-level에서의 Sample은 표본 즉, 각 개인을 의미한다.
다시 말해, 각 개인(sample)의 데이터에 문제가 있는지 확인하고, 제거해준다.
항목 | 점검 내용 | 제거 이유 |
sex check | 유전적으로 추정한 성별과 메타데이터 비교 | 실험 오류, 샘플 혼동 가능성 탐지 |
call rate | 각 개인에게 얼마나 많은 SNP가 성공적으로 genotyping 되었는지 | 보통 95% 미만이면 제거 (missing rate) |
heterozygosity rate | 이형접합 비율이 너무 높거나 낮은 경우 | 오염되었거나 품질 문제 샘플일 가능성 |
duplicate/relatedness | 중복 샘플, 가까운 친척 탐지 | 독립성 가정이 깨짐, bias 유발 (특히, population-based GWAS에서 오류) |
PCA | 다른 인종/집단과 다른 샘플 제거 (유전적 background, outlier 확인) |
population stratification 오류 방지 |
3. SNP-level QC
그리고, 각 SNP(보통 열로 들어가 있음)을 점검하고 문제가 있는 경우 제거해준다.
항목 | 점검 내용 | 제거 이유 |
Genotype call rate | 각 SNP에서 얼마나 많은 샘플이 성공적으로 genotyping 되었는지 | 보통 95~98% 미만이면 제거 |
Hardy-Weinberg Equilibrium (HWE) | 유전자형 분포의 통계적 기대값과 비교 | 특히 control 그룹에서 HWE p < 1e-6이면 기술적 오류 가능성 의심 |
Minor Allele Frequency (MAF) | 변이의 희귀성 확인 (e.g. MAF < 1%) | low-frequency(rare) variant는 오류 가능성 높고 imputation도 부정확 |
Strand alignment | A/T, G/C SNP은 방향성 확인 | strand flip 오류 방지 위해 정확한 align 필요 |
4. 추천 QC 순서 흐름도 📊
Sample-level QC
├─ Call rate
├─ Sex check
├─ Heterozygosity
├─ Relatedness check
└─ PCA (population outlier)
↓
SNP-level QC
├─ SNP call rate
├─ HWE test
├─ MAF filter
├─ Strand check
└─ Imputation Quality check
↓
→ Imputation 진행
↓
→ Imputation quality check (e.g. Rsq < 0.3 제거)
5. Summary: 왜 QC가 중요한가?
Pre-imputation QC는 GWAS 분석의 시작점이자, 결과 해석의 신뢰도를 높이기 위한 필수 과정이다.
이 과정을 거치지 않고 잘못된 데이터가 남아 있는 상태에서 분석을 진행하면,
가짜 연관이 생기거나 진짜 신호가 가려지는 (false negatives) 문제가 발생할 수 있다.
따라서 Pre-imputation QC는 GWAS 분석의 출발점이자 필수 전처리 과정이다.