UK Biobank(UKB)는 단순히 "좋은 데이터"일 뿐만 아니라,
연구자들이 실제로 접근하고 사용할 수 있는 구조를 갖춘 대표적인 공개 코호트다.
하지만 처음 접하는 사람에겐
- “신청은 어디서 하지?”
- “데이터는 어떻게 받지?”
- “Field ID는 뭐야?”
같은 의문이 생길 수 있다.
이번 글에서는 UKB 데이터를 사용하기 위한 실제 흐름을 하나씩 짚어본다.
1. 연구자 등록 및 프로젝트 신청
UK Biobank는 비영리 목적의 연구자라면 누구나 신청 가능하다.
개인 신청이 아니라 소속기관 소속 연구자로 신청해야 하며, 팀 단위 접근도 가능하다.
- UK Biobank Access Management System 접속
https://bbams.ndph.ox.ac.uk/ - 소속 연구기관 등록 + 사용자 계정 생성
- 프로젝트 설명서(Project description) 제출
- 연구 목적
- 필요한 데이터 종류
- 예상 분석 내용
- 승인되면 → ‘Project ID’ 부여
심사 기간은 보통 2~4주 걸리며, 경우에 따라 수개월 소요될 수도 있다고 한다.
2. 데이터 접근: RAP 환경 & 요금 구조
UKB는 2021년부터 RAP (Research Analysis Platform)이라는
클라우드 기반 분석 환경을 기본으로 제공한다.
- 별도로 데이터를 다운로드하지 않음
- 클라우드 내에서 코드 실행 (Jupyter, RStudio 등)
- AWS 기반 인프라 (UKB가 계약한 DNAnexus 환경)
💰
옛날(?)에는 파일 다운로드 방식이었으나,
RAP를 기본으로 쓰게 되면서, 사용량 기반 과금제로 운영되고 있다.
사용료는 분석 규모, 시간, 스토리지에 따라 청구된다. (연구비 예산 필요)
RAP 요금 구조 간단 정리
항목 | 과금 기준 | 비고 |
🔍 데이터 접근 권한 | 기본 신청비 있음 | 유전체 데이터 포함 시 더 비쌈 (수백~수천만 원 단위 가능) |
💾 스토리지 | GB/월 단위 요금 | 오래 둘수록 비용 쌓임 |
🧮 계산 작업 (compute) | CPU 사용량, 분석 시간 기준 | 클라우드 작업할수록 요금 올라감 |
📤 출력 결과 반출 | 파일 개수, 용량에 따라 제한 있음 | 과금은 아니지만 승인 필수 |
- RAP에서는 생각 없이 돌리면 분석 한 번에 몇 만 원~몇 십만 원 나갈 수도 있다.
- 특히 영상 데이터, 유전체 분석은 연산량 크기 때문에 비용 폭탄 맞을 수 있다.
- 데이터 신청비 외에도,
분석 시간(CPU 사용량), 저장 공간, 분석 기간에 따라 별도 요금이 발생할 수 있기 때문에
연구팀에 따라 수천만 원 단위 예산이 필요하다.
- RAP 요금 절약을 위한 전략:
- 쓸 데이터만 뽑아와서, 꼭 필요한 분석만 하기
- 작업 끝나면 인스턴스, 세션 즉시 끄기 → 안하면 시간당 과금
- 중간 결과 저장해서 재실행 최소화!
3. 데이터 탐색: Field ID란?
UKB의 모든 데이터는 Field ID라는 고유 번호로 식별된다.
예:
변수 | 설명 | Field ID |
Age at recruitment | UKB 참여 당시 나이 | 21022 |
Sex | 생물학적 성별 | 31 |
Sleep duration | 하루 평균 수면 시간 | 1160 |
BMI | 체질량지수 | 21001 |
RAP에는 모든 UKB 데이터가 들어있지만, 프로젝트에 승인된 Field ID만 불러올 수 있다.
UKB의 보안 시스템은 참여자 개인정보 보호와 연구 목적의 명확성을 위해
데이터 접근은 사전에 신청 + 심사된 항목에 한해서만 허용되도록 엄격히 설계돼 있다.
→ RAP 환경에서 Field ID를 지정해서 불러온다.
# 예시
df = ukb.read(fields=[31, 21001, 1160])
4. Show case: UKB의 공식 데이터 탐색 툴 + Field ID 찾는 법
Showcase는 UKB 데이터의 일종의 데이터 사전이다!
공식 데이터 탐색 툴:
🔗 UK Biobank Data Showcase
- 키워드 검색 (예: “sleep”, “diabetes”)
- 카테고리별 탐색 (예: “Biochemistry”, “Cognitive function”)
- Field ID로 직접 검색도 가능
5. 그 외 실무 팁
- 프로젝트마다 승인된 데이터만 접근 가능 (신청 시 선택 중요)
- 일부 영상 데이터, 유전체 분석 자료는 별도 사용료 있음
- 협업 시 팀원 등록 필요 (한 프로젝트 ID 내 연구자 관리 가능)
- Python, R, SQL 등 여러 언어 지원됨 (RAP 환경은 리눅스 기반)
🧠 정리
단계 | 내용 |
1 | 기관/연구자 등록 + 프로젝트 제출 |
2 | RAP에서 데이터 접근 |
3 | Field ID로 데이터 선택 |
4 | 클라우드 환경에서 분석 수행 |
'유전학' 카테고리의 다른 글
Genetics vs Genomics (0) | 2025.04.28 |
---|---|
UK Biobank 분석의 주요 한계와 주의 사항 (0) | 2025.04.15 |
UK Biobank에는 어떤 데이터가 있을까? (0) | 2025.04.13 |
UK Biobank는 어떻게 가능했을까? (0) | 2025.04.12 |
유전체·의료 데이터에서 robust가 가진 뉘앙스 (0) | 2025.04.02 |