Pre-imputation QC

카테고리 없음

Pre-imputation QC

Jin_Omics 2025. 3. 29. 11:57

0. Imputation이란?

Imputation은 유전체 데이터에서 빠진 genotype 정보를 예측해 채워주는 과정이다.
예를 들어 array-based genotyping에서는 측정되지 않은 SNP들이 존재하는데,
이를 reference panel을 활용해 통계적으로 추정해 보완한다.
이로 인해 분석 가능한 variant 수가 크게 증가하고, meta-analysis 호환성도 향상된다.

1. Pre-imputation QC란?

Pre-imputation QC는 Imputation시행 전(pre-) 진행되는 Quality Control을 시행하는 단계다.

이 과정의 목적은 신뢰도 높은 clean dataset을 만드는 것이다.

Imputation을 시행 전 미리 데이터를 점검함으로써 오류나 bias 발생 가능성을 줄이고,

문제가 있는 sample(행)과 SNP(열)을 제거한다.

Image created with AI · Curated by JINetic CODE

2. Sample-level QC

Sample-level에서의 Sample은 표본 즉, 각 개인을 의미한다.

다시 말해, 각 개인(sample)의 데이터에 문제가 있는지 확인하고, 제거해준다.

항목	점검 내용	제거 이유
sex check	유전적으로 추정한 성별과 메타데이터 비교	실험 오류, 샘플 혼동 가능성 탐지
call rate	각 개인에게 얼마나 많은 SNP가 성공적으로 genotyping 되었는지	보통 95% 미만이면 제거 (missing rate)
heterozygosity rate	이형접합 비율이 너무 높거나 낮은 경우	오염되었거나 품질 문제 샘플일 가능성
duplicate/relatedness	중복 샘플, 가까운 친척 탐지	독립성 가정이 깨짐, bias 유발 (특히, population-based GWAS에서 오류)
PCA	다른 인종/집단과 다른 샘플 제거 (유전적 background, outlier 확인)	population stratification 오류 방지

3. SNP-level QC

그리고, 각 SNP(보통 열로 들어가 있음)을 점검하고 문제가 있는 경우 제거해준다.

항목	점검 내용	제거 이유
Genotype call rate	각 SNP에서 얼마나 많은 샘플이 성공적으로 genotyping 되었는지	보통 95~98% 미만이면 제거
Hardy-Weinberg Equilibrium (HWE)	유전자형 분포의 통계적 기대값과 비교	특히 control 그룹에서 HWE p < 1e-6이면 기술적 오류 가능성 의심
Minor Allele Frequency (MAF)	변이의 희귀성 확인 (e.g. MAF < 1%)	low-frequency(rare) variant는 오류 가능성 높고 imputation도 부정확
Strand alignment	A/T, G/C SNP은 방향성 확인	strand flip 오류 방지 위해 정확한 align 필요

4. 추천 QC 순서 흐름도 📊

Sample-level QC
  ├─ Call rate
  ├─ Sex check
  ├─ Heterozygosity
  ├─ Relatedness check
  └─ PCA (population outlier)
      ↓
SNP-level QC
  ├─ SNP call rate
  ├─ HWE test
  ├─ MAF filter
  ├─ Strand check
  └─ Imputation Quality check
      ↓
→ Imputation 진행
      ↓
→ Imputation quality check (e.g. Rsq < 0.3 제거)

5. Summary: 왜 QC가 중요한가?

Pre-imputation QC는 GWAS 분석의 시작점이자, 결과 해석의 신뢰도를 높이기 위한 필수 과정이다.

이 과정을 거치지 않고 잘못된 데이터가 남아 있는 상태에서 분석을 진행하면,
가짜 연관이 생기거나 진짜 신호가 가려지는 (false negatives) 문제가 발생할 수 있다.
따라서 Pre-imputation QC는 GWAS 분석의 출발점이자 필수 전처리 과정이다.

저작자표시 비영리 변경금지 (새창열림)

현재글Pre-imputation QC

JINetic CODE

Jin_Omics의 연구자 성장기 + 대학원 이야기.

성균관대학교대학원, 교란변수, 디지털헬스학과, randomised experiments, saihst, 제2종오류, 인구집단층화, denovo변이, ukb, 무작위실험, ukbiobank, R, 코랩plotly, 인과추론, uk biobank, 생식세포변이, 논문 종류, spuriousassociation, denovovariants, 스코핑리뷰, 시스템리뷰, 삼성융합의과학원, causalinference, foundationmodel, 대학원컨택, 제1종오류, sahist, gwas, 드노보변이, randomised controlled trials,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

JINetic CODE