UK Biobank는 어떻게 가능했을까?

유전학

UK Biobank는 어떻게 가능했을까?

Jin_Omics 2025. 4. 12. 14:03

Bioinformatics를 공부하다 보면, UK Biobank는 진짜 빠질 수가 없다.
거의 이 분야의 바이블 같은 존재라고 해야 할까?
관련 연구를 접할 기회가 종종 있어, 이번 기회에 짧게 정리해보려고 한다.

Image created with AI · Curated by JINetic CODE

UK Biobank, 언제 시작됐나?

정식 출범: 2006년
참여 인원: 약 50만 명
대상: 영국 전역의 40~69세 사이 일반인
데이터: 유전체 + 생활습관 + 병력 + 환경 + 건강기록 + 영상 + 사망 및 암등록 등

어떻게 그런 방대한 프로젝트가 가능했을까?

UK Biobank가 가능했던 배경은 단순히 “과학을 위한 열정”뿐만 아니라,
정치적, 사회적 신뢰, 기술적 흐름(데이터 수집 인프라)이 맞물렸기 때문이다.

“만성질환을 예방하려는 국가 정책 + NHS 기반의 데이터 시스템 +
과학기술 발전 + 공공성에 대한 국민 인식”

이 모여 만들어졌다.

[1] 사회적 배경: 공공 건강에 대한 국가적 관심 증가

1990년대~2000년대 초, 만성질환(심혈관, 당뇨, 암 등) 증가로
예방 중심의 건강 정책 필요성이 커짐.
이런 질병들은 유전적 요인 + 생활습관 + 환경이 복합적으로 작용한다는 인식이 퍼짐.
→ “예방하려면 데이터를 모아야지!” 라는 흐름으로 이어짐.

[2] 제도적 기반: NHS (영국 국립보건서비스) 의 역할

영국은 국민 건강 정보를 국가가 일관되게 관리할 수 있는 구조(NHS)를 가지고 있었음.
→ 국민의 진료 기록, 병원 이용 이력 등을 장기적으로 추적 가능.
이 구조 덕분에 데이터 연결(linkage) 이 매우 수월했음.

[3] 자금과 운영: 정부 + 자선재단 + 연구기관의 협력

Wellcome Trust, MRC, Department of Health, Scottish Government 등이 공동 지원.
영국 정부뿐 아니라 자선 단체와 과학재단이 함께 장기적 관점에서 투자함.
연구자 주도가 아니라 국가+공공 기반에서 대규모 인프라 구축.

[4] 국민 참여: 높은 공공성 인식과 신뢰

영국은 공공의료 시스템에 대한 국민 신뢰가 높은 편.
“나의 데이터가 사회 전체에 기여할 수 있다”는 믿음,
철저한 개인정보 보호 설계 & 원칙 고지.
연구에 실제로 어떻게 활용되는지 & 결과 자주 공유
→ 참여자 입장에서 "내 정보가 헛되이 쓰이지 않았겠구나!"
데이터 수집 초기:
'건강한 사람이 내 데이터를 왜 주냐!'
→ 건강이 사람이 왜 병에 안 걸리는지도 중요하며, 미래 세대 건강에 기여할 수 있다는 공공성으로 설득

참여 자체가 명예롭다는 분위기: "내가 미래 의료 발전에 기여하고 있다"

[5] 기술적 흐름: 유전체학 + IT 발전의 조합

2000년대 초 휴먼 게놈 프로젝트 완성 이후, 유전체학 붐이 일었고
고속 유전체 시퀀싱 기술과 데이터 저장·처리 능력이 확보됨.
그래서 “이제는 유전체와 생활습관을 통합해서 분석할 때다!”는 분위기가 형성됨.

왜 중장년층 데이터가 많을까?

영국 UKB는 40~69세 대상으로만 모집했는데, 왜 그랬을까?

[1] 질병 발병률과 관찰 가능성

중장년층은 질병이 막 시작되거나, 이미 진행 중인 시기.
연구 입장에서는 “질병 전후 상태를 모두 관찰할 수 있는 구간”이 중요했음.
→ 즉, 20대처럼 너무 건강하면 연구 대상의 이벤트 수(질병 발생 등)가 적음 → 통계적으로 부족.

[2] 코호트 연구의 현실적인 한계

코호트 연구는 "10년, 20년" 단위로 추적해야 효과가 나옴.
20대 대상이면, 질병 발생까지 30~40년 추적해야 해서 비용과 유지가 힘듦.
따라서, 효율성을 고려해 발병 시기가 다가오는 중장년층을 먼저 타겟.

[3] 참여 의지와 책임감

중장년층은 자신의 건강에 관심이 높고,
“내가 뭔가 사회에 기여할 수 있다”는 공공의식도 강함.
(젊은 층에 비해 참여율 높을 가능성이 크다고 봤음)

[최근 흐름] 전 생에 주기적 건강 데이터의 중요성

유전적 소인 + 어릴 적 환경 + 행동 패턴
→ 이게 어떻게 쌓여서 나중에 질병으로 연결되는지 연구하려는 움직임 커지고 있어.
미국의 All fo Us, 네덜란드의 LifeLines 등은 18세 이상까지 데이터 수집 범위를 넓힘

왜 다른 나라에선 UKB처럼 잘 안 될까?

[1] NHS 같은 공공 시스템이 없음

UK는 국민 전체의 건강정보가 하나로 연결된 국가 시스템(NHS)이 있음.
반면 미국, 한국, 일본 등은 의료기관별 정보가 분산돼 있어서
데이터를 모으는 데 기술적/정책적 장벽이 큼.

한국도 건강데이터는 심평원, 건보 등으로 모이지 않나?

한국 심평원/건보공단 데이터는 '청구 기반 의료 행위 중심'
→ 다양한 인과 요인을 통합해서 연구하는 데엔 한계
- 유전체 데이터 없음
- MRI, 영상 데이터 없음
- 생활습관은 간헐적인 건강검진 외에 부족함

[2] 데이터 활용에 대한 신뢰/정책 차이

UK는 “공익적 목적 → 데이터 공유 OK”라는 사회적 공감대가 형성됨.
반면 한국은 "내 정보가 어디에 쓰이는데?" 하는 불신 + 민감함 높음.
게다가 한국은 데이터 주체 중심의 법 체계가 강해서 활용보다 보호 중심으로 설계되어 있음.

[3] 보상/유인책이 다름

미국: 연구 참여 자체에 윤리적 의미 부여, 어떤 사람은 기부나 봉사처럼 여김
한국: “보상이 없으면 참여율 낮다”는 연구 다수 있음
→ 사회문화적으로 “기여보다 실익”을 중시하는 경향이 강함

저작자표시 비영리 변경금지 (새창열림)

'유전학' 카테고리의 다른 글

UK Biobank 데이터를 어떻게 사용할 수 있을까? (0)	2025.04.14
UK Biobank에는 어떤 데이터가 있을까? (1)	2025.04.13
유전체·의료 데이터에서 robust가 가진 뉘앙스 (0)	2025.04.02
de novo variant란? (0)	2025.04.01
Population Stratification (0)	2025.03.30

현재글UK Biobank는 어떻게 가능했을까?

JINetic CODE

Jin_Omics의 연구자 성장기 + 대학원 이야기.

교란변수, 성균관대학교대학원, 제1종오류, 논문 종류, spuriousassociation, randomised experiments, saihst, denovo변이, 인구집단층화, 제2종오류, R, 인과추론, uk biobank, 대학원컨택, foundationmodel, sahist, 생식세포변이, ukbiobank, 코랩plotly, 삼성융합의과학원, gwas, 드노보변이, randomised controlled trials, 시스템리뷰, denovovariants, causalinference, 스코핑리뷰, 무작위실험, 디지털헬스학과, ukb,

Today :
Yesterday :

JINetic CODE