유전학

UK Biobank 분석의 주요 한계와 주의 사항

Jin_Omics 2025. 4. 15. 11:57

UK Biobank(UKB)는 방대한 데이터를 제공하지만,
“데이터가 크다고 분석이 곧 정답이 되지는 않는다.”
이 말은 UKB 분석을 시작하는 모든 연구자가 기억해야 할 첫 번째 원칙이다.

 

이번 글에서는 UKB 데이터를 분석할 때 반드시 유의해야 할 핵심 포인트를 정리해본다.

 

Image created with AI · Curated by JINetic CODE


1. 선택 편향 (Selection Bias)

UKB 참여자는 모두 자발적으로 모집된 일반인이다.
→ 따라서 전 국민을 대표하는 무작위 샘플이 아니다!

 

⚠️ 예를 들어:

  • 건강에 관심이 많은 사람일수록 참여 확률이 높음
  • 영국의 특정 지역/계층에 편중될 수 있음

📌 이로 인해 특정 질병이나 행동 특성이 과소/과대추정될 가능성이 있다.

✔ 분석 결과를 일반 인구집단에 적용할 때는 주의,
✔ 외부 검증 세트와 비교하거나, 가중치(weighting) 사용이 권장된다.


2. 자기보고(Self-report) 데이터의 한계

UKB의 일부 변수(예: 음주, 운동, 식습관)는
참여자 본인의 자기기입형 설문으로 수집된다.

 

📌 유의사항:

  • 주관적, 기억 오류, 과소/과대 보고 가능성
  • 사회적 바람직성 편향(social desirability bias) 등 포함

✔ 가능하면 객관적 지표(예: 혈액 수치, 진단코드 등)와 함께 사용
✔ 다변량 분석 시 self-report 변수는 보조지표로 해석 권장


3. 지연된 진단 및 이벤트 발생 타이밍

질병 진단 정보는 NHS 진료 기록과 연계된 HES(Hospital Episode Statistics) 기준이므로,

  • 진단일 기준으로만 이벤트를 판단하는 것은 오류 가능성 있음
  • 발병일 vs 진단일 사이 시간차 고려 필요

✔ 이벤트 타이밍 변수(Date of diagnosis, Date first reported, 등)를 활용
✔ 생존분석(survival analysis) 또는 time-to-event 분석 시 더 중요


4. 유전체 데이터 사용 시 QC 주의

UKB는 WES, WGS, Genotyping array 등 유전체 데이터를 제공하지만,
raw 파일을 바로 분석하는 건 위험!

  • UKB는 QC를 거친 버전의 genotyping 데이터를 제공하기도 하지만,
    → 연구 목적에 따라 다시 한 번 QC를 수행하는 것이 보통의 관행이다.
  • 특히 유전체 + 표현형 통합 분석(GWAS 등)을 할 때는
    → QC가 안 된 데이터는 위양성(false positive)이 무더기로 나올 수 있다.
  • GWAS처럼 민감한 분석은 QC가 연구의 성패를 좌우한다고 해도 과언이 아니다.

 

📌 반드시 필요한 QC:

  • Sample-level QC (성별 불일치, contamination 등)
  • Variant-level QC (MAF, HWE, call rate 등)
  • Population stratification 조정

✔ PLINK, bcftools, GCTA 등 표준 툴 사용
✔ 필요 시 PCA/TSNE 등으로 sub-population 고려


5. 데이터 링크 주의 (Linkage Lag)

UKB는 HES, 사망정보, 암등록 데이터 등과 정기적으로 데이터 업데이르를 수행함.
→ 하지만 항상 최신은 아님.

  • 사망 데이터는 몇 개월~1년 지연될 수 있음
  • 진단 코드는 지역별로 누락/지연 가능성 존재

✔ 최신 날짜 기준을 명확히 표시하고
✔ 타임스탬프(record date, diagnosis date) 활용 필수


6. 전처리 필수: 결측치, 이상치, 변수 타입 확인

UKB 데이터는 표면적으로 정돈돼 보이지만,
실제로는 결측치, 범주형 오기, 연속형 이상값 등 존재함.

📌 실무 팁:

  • -1, -3 같은 의도적 결측치 코드 존재
  • 변수 타입 (integer vs. categorical) 확인
  • BMI = 80 같은 극단값은 확인 후 제거 or winsorization

✔ 데이터 가공 전에 UKB Showcase에서 변수 설명 반드시 확인하기
https://biobank.ndph.ox.ac.uk/showcase/index.cgi

 

: Showcase Homepage

Welcome to the online showcase of resources. If you are new to using the showcase we recommend you begin by reading the introductory User Guide. Please note that the showcase contains only anonymous summary information.  Essential InformationInformation r

biobank.ndph.ox.ac.uk

 


정리: UKB 분석 전 반드시 체크할 것들

항목 주의할 점
선택 편향 자발적 참여자 →  일반화 주의
Self-report 주관적 평향 존재
진단 이벤트 발병일 vs 진단일 구분 필수
유전체 데이터 QC 필수, 집단 구조 고려 (false positive 주의)
데이터 링크 최신성/지역 편차 유의
전처리 결측치 코드, 이상값 반드시 확인