카테고리 없음

Pre-imputation QC

Jin_Omics 2025. 3. 29. 11:57

 

 

0. Imputation이란?

Imputation은 유전체 데이터에서 빠진 genotype 정보를 예측해 채워주는 과정이다.
예를 들어 array-based genotyping에서는 측정되지 않은 SNP들이 존재하는데,
이를 reference panel을 활용해 통계적으로 추정해 보완한다.
이로 인해 분석 가능한 variant 수가 크게 증가하고, meta-analysis 호환성도 향상된다. 


 

1. Pre-imputation QC란?

Pre-imputation QC는 Imputation시행 전(pre-) 진행되는 Quality Control을 시행하는 단계다.

이 과정의 목적은 신뢰도 높은 clean dataset을 만드는 것이다.

Imputation을 시행 전 미리 데이터를 점검함으로써 오류나 bias 발생 가능성을 줄이고,

문제가 있는 sample(행)과 SNP(열)을 제거한다.

 

 

Image created with AI · Curated by JINetic CODE

 

 


 

2. Sample-level QC

Sample-level에서의 Sample은 표본 즉, 각 개인을 의미한다.

다시 말해, 각 개인(sample)의 데이터에 문제가 있는지 확인하고, 제거해준다.

항목 점검 내용 제거 이유
sex check 유전적으로 추정한 성별과 메타데이터 비교 실험 오류, 샘플 혼동 가능성 탐지
call rate 각 개인에게 얼마나 많은 SNP가 성공적으로 genotyping 되었는지 보통 95% 미만이면 제거
(missing rate)
heterozygosity rate 이형접합 비율이 너무 높거나 낮은 경우 오염되었거나 품질 문제 샘플일 가능성
duplicate/relatedness 중복 샘플, 가까운 친척 탐지 독립성 가정이 깨짐, bias 유발
(특히, population-based GWAS에서 오류)
PCA 다른 인종/집단과 다른 샘플 제거
(유전적 background, outlier 확인)
population stratification 오류 방지

 


 

3. SNP-level QC

그리고, 각 SNP(보통 열로 들어가 있음)을 점검하고 문제가 있는 경우 제거해준다.

항목 점검 내용 제거 이유
Genotype call rate 각 SNP에서 얼마나 많은 샘플이 성공적으로 genotyping 되었는지 보통 95~98% 미만이면 제거
Hardy-Weinberg Equilibrium (HWE) 유전자형 분포의 통계적 기대값과 비교 특히 control 그룹에서 HWE p < 1e-6이면 기술적 오류 가능성 의심
Minor Allele Frequency (MAF) 변이의 희귀성 확인 (e.g. MAF < 1%) low-frequency(rare) variant는 오류 가능성 높고 imputation도 부정확
Strand alignment  A/T, G/C SNP은 방향성 확인 strand flip 오류 방지 위해 정확한 align 필요

 


 

4. 추천 QC 순서 흐름도 📊

Sample-level QC
  ├─ Call rate
  ├─ Sex check
  ├─ Heterozygosity
  ├─ Relatedness check
  └─ PCA (population outlier)
      ↓
SNP-level QC
  ├─ SNP call rate
  ├─ HWE test
  ├─ MAF filter
  ├─ Strand check
  └─ Imputation Quality check
      ↓
→ Imputation 진행
      ↓
→ Imputation quality check (e.g. Rsq < 0.3 제거)

 


5. Summary: 왜 QC가 중요한가?

Pre-imputation QC는 GWAS 분석의 시작점이자, 결과 해석의 신뢰도를 높이기 위한 필수 과정이다.

이 과정을 거치지 않고 잘못된 데이터가 남아 있는 상태에서 분석을 진행하면,
가짜 연관이 생기거나 진짜 신호가 가려지는 (false negatives) 문제가 발생할 수 있다.
따라서 Pre-imputation QC는 GWAS 분석의 출발점이자 필수 전처리 과정이다.