UK Biobank에는 어떤 데이터가 있을까?
UK Biobank(UKB)는 유전정보부터 생활습관, 병력, 영상, 활동 데이터까지
말 그대로 “한 사람의 건강 인생 전체를 담은 코호트”라고 할 수 있다.
질병은 유전 + 환경 + 생활습관 + 사회적 요인이 함께 작용하므로
이 모든 데이터를 통합해서 분석할 수 있어야 정확한 예측이 가능하다.
그래서 한 명의 데이터를 중심으로 멀티모달 데이터가 구성된 것이
UKB가 다른 코호트와 차별화되는 가장 큰 이유다.
UKB 데이터 구성
카테고리 | 내용 | 비고 |
🧬 Genetic Data | Genotyping (500K SNP array), Whole Exome Sequencing (WES), Whole Genome Sequencing (WGS) | 유전체 기반 질병 연구의 핵심 |
📝 Baseline Data | 생활습관, 병력, 식습관, 가족력 등 설문 | 참여 시 수집된 자기기입형 설문 |
💉 Biochemistry | 혈액/소변 검사 (예: 콜레스테롤, 간수치 등) | 질병 예측, 대사 연구 등에 활용 |
🏥 Health Records | 병원 진단 정보 (HES), 암 등록, 사망 원인, GP 기록 등 | NHS 기반 진료기록 연계 |
🧠 Imaging | 뇌, 심장, 복부 MRI, DXA 등 | 약 10만명 대상, AI 영상분석 연구 가능 |
⌚ Accelerometer | 손목 웨어러블 기반 활동량, 수면 패턴 등 | 1주일간 착용 데이터, 약 10만명 |
🦠 COVID-19 | PCR 결과, 입원 이력, 백신 정보 등 | 팬데믹 관련 특수 데이터 |
🔗 Linkage Data | 암 등록, 사망정보, 병원 진료 내역 등과 정기적 연계 | 데이터 업데이트 지속 중 |
📌 Derived Variable | 고지혈증 여부 등 연구자가 분석용으로 도출한 변수. | |
🥗 Dietary Data | 24시간 식사 회상법, 식품 섭취 빈도, 비타민/보충제 섭취 등. | 식이-건강 연구, 대사영양연구 기반. |
🧪 Omics (Proteomics/Metabolomics) | 혈장 단백질, NMR 기반 대사체 분석 등 일부 하위 샘플 대상. | 정밀의학, 바이오마커 연구에서 활용. |
🧠 Cognitive Function | 반응 시간, 기억력, 인지 정확도 등 인지 기능 테스트 결과. | 치매, 알츠하이머, 노화 관련 연구에 활용. |
🔁 Repeat Assessment | 일부 참여자의 2차/3차 방문 데이터. | 시간 경과에 따른 건강 변화 분석 |
🧮 Polygenic Risk Scores (PRS) | 특정 질병에 대한 다유전자 위험 점수(PRS) 일부 제공 | 질병 위험 예측, 유전체 기반 스코어 활용 |
예시
- 심혈관 질환 연구: 유전체 + 콜레스테롤 수치 + 흡연력 + MRI 데이터 활용
- 수면과 유전자의 관계: Accelerometer + GWAS
- 암 발생 예측: 가족력 + 생활습관 + 진단 기록 + 사망 데이터까지 연계
Summary
UK Biobank는 다음과 같은 질문에 답할 수 있는 데이터를 가진다:
- 유전적 요인이 질병에 어떤 영향을 미칠까?
- 건강한 사람은 왜 병에 안 걸릴까?
- 생활습관 개선이 정말 건강에 영향을 줄까?
이런 질문을 가능하게 해주는 게 바로 UKB의 다양하고 통합된 데이터 구조다.
'유전학' 카테고리의 다른 글
UK Biobank 분석의 주요 한계와 주의 사항 (0) | 2025.04.15 |
---|---|
UK Biobank 데이터를 어떻게 사용할 수 있을까? (0) | 2025.04.14 |
UK Biobank는 어떻게 가능했을까? (0) | 2025.04.12 |
유전체·의료 데이터에서 robust가 가진 뉘앙스 (0) | 2025.04.02 |
de novo variant란? (0) | 2025.04.01 |