유전학

UK Biobank 데이터를 어떻게 사용할 수 있을까?

Jin_Omics 2025. 4. 14. 14:44

UK Biobank(UKB)는 단순히 "좋은 데이터"일 뿐만 아니라,
연구자들이 실제로 접근하고 사용할 수 있는 구조를 갖춘 대표적인 공개 코호트다.

하지만 처음 접하는 사람에겐

  • “신청은 어디서 하지?”
  • “데이터는 어떻게 받지?”
  • “Field ID는 뭐야?”

같은 의문이 생길 수 있다.
이번 글에서는 UKB 데이터를 사용하기 위한 실제 흐름을 하나씩 짚어본다.


1. 연구자 등록 및 프로젝트 신청

UK Biobank는 비영리 목적의 연구자라면 누구나 신청 가능하다.
개인 신청이 아니라 소속기관 소속 연구자로 신청해야 하며, 팀 단위 접근도 가능하다.

  1. UK Biobank Access Management System 접속
    https://bbams.ndph.ox.ac.uk/
  2. 소속 연구기관 등록 + 사용자 계정 생성
  3. 프로젝트 설명서(Project description) 제출
    • 연구 목적
    • 필요한 데이터 종류
    • 예상 분석 내용
  4. 승인되면 → ‘Project ID’ 부여

심사 기간은 보통 2~4주 걸리며, 경우에 따라 수개월 소요될 수도 있다고 한다.


2. 데이터 접근: RAP 환경 & 요금 구조 

UKB는 2021년부터 RAP (Research Analysis Platform)이라는
클라우드 기반 분석 환경을 기본으로 제공한다.

  • 별도로 데이터를 다운로드하지 않음
  • 클라우드 내에서 코드 실행 (Jupyter, RStudio 등)
  • AWS 기반 인프라 (UKB가 계약한 DNAnexus 환경)

💰
옛날(?)에는 파일 다운로드 방식이었으나, 
RAP를 기본으로 쓰게 되면서, 사용량 기반 과금제로 운영되고 있다.
사용료는 분석 규모, 시간, 스토리지에 따라 청구된다. (연구비 예산 필요)

 

RAP 요금 구조 간단 정리

 

항목 과금 기준 비고
🔍 데이터 접근 권한 기본 신청비 있음 유전체 데이터 포함 시 더 비쌈 (수백~수천만 원 단위 가능)
💾 스토리지 GB/월 단위 요금 오래 둘수록 비용 쌓임
🧮 계산 작업 (compute) CPU 사용량, 분석 시간 기준 클라우드 작업할수록 요금 올라감
📤 출력 결과 반출 파일 개수, 용량에 따라 제한 있음 과금은 아니지만 승인 필수
  • RAP에서는 생각 없이 돌리면 분석 한 번에 몇 만 원~몇 십만 원 나갈 수도 있다.
  • 특히 영상 데이터, 유전체 분석은 연산량 크기 때문에 비용 폭탄 맞을 수 있다.
  • 데이터 신청비 외에도,
    분석 시간(CPU 사용량), 저장 공간, 분석 기간에 따라 별도 요금이 발생할 수 있기 때문에
    연구팀에 따라 수천만 원 단위 예산이 필요하다.

 

  • RAP 요금 절약을 위한 전략:
    • 쓸 데이터만 뽑아와서, 꼭 필요한 분석만 하기
    • 작업 끝나면 인스턴스, 세션 즉시 끄기 → 안하면 시간당 과금
    • 중간 결과 저장해서 재실행 최소화!

3. 데이터 탐색: Field ID란?

UKB의 모든 데이터는 Field ID라는 고유 번호로 식별된다.


예:

변수 설명 Field ID
Age at recruitment UKB 참여 당시 나이 21022
Sex 생물학적 성별 31
Sleep duration 하루 평균 수면 시간 1160
BMI 체질량지수 21001

RAP에는 모든 UKB 데이터가 들어있지만, 프로젝트에 승인된 Field ID만 불러올 수 있다.

 

UKB의 보안 시스템은 참여자 개인정보 보호와 연구 목적의 명확성을 위해
데이터 접근은 사전에 신청 + 심사된 항목에 한해서만 허용되도록 엄격히 설계돼 있다.

 

→ RAP 환경에서 Field ID를 지정해서 불러온다.

# 예시
df = ukb.read(fields=[31, 21001, 1160])

4. Show case: UKB의 공식 데이터 탐색 툴 + Field ID 찾는 법

Showcase는 UKB 데이터의 일종의 데이터 사전이다!

 

공식 데이터 탐색 툴:
🔗 UK Biobank Data Showcase

  • 키워드 검색 (예: “sleep”, “diabetes”)
  • 카테고리별 탐색 (예: “Biochemistry”, “Cognitive function”)
  • Field ID로 직접 검색도 가능

5. 그 외 실무 팁

  • 프로젝트마다 승인된 데이터만 접근 가능 (신청 시 선택 중요)
  • 일부 영상 데이터, 유전체 분석 자료는 별도 사용료 있음
  • 협업 시 팀원 등록 필요 (한 프로젝트 ID 내 연구자 관리 가능)
  • Python, R, SQL 등 여러 언어 지원됨 (RAP 환경은 리눅스 기반)

🧠 정리

단계 내용
1 기관/연구자 등록 + 프로젝트 제출
2 RAP에서 데이터 접근
3 Field ID로 데이터 선택
4 클라우드 환경에서 분석 수행

 

Image created with AI · Curated by JINetic CODE