R

[R 기초] R에서 데이터 불러오기 및 데이터 확인하기

Jin_Omics 2025. 2. 22. 12:34

R에서 (1)데이터를(CSV파일) 불러오는 방법(2)불러온 데이터의 구조를 확인하는 방법을 알아보자.

 

1. 기존 데이터 불러오기(read.csv())

R에서는 데이터를 외부 파일에서 불러올 때 read.csv() 함수를 많이 사용한다.

 

✔ read.csv("파일명.csv") : CSV 파일을 불러오는 함수
✔ header=F : 첫 행이 변수명이 아니라 데이터일 경우 사용

# CSV 파일 불러오기
dt <- read.csv("mydata.csv")  

# 첫 행이 변수명이 아닐 경우
dt2 <- read.csv("mydata.csv", header=F)
 
  • 이때 파일 경로를 정확히 지정해야 하며, 작업 디렉토리에 파일이 있으면 경로를 간단히 입력할 수 있다.

🔥TIP: 만약 파일이 작업 디렉토리에 없다면 전체 경로를 지정하거나 file.choose()로 파일을 직접 선택할 수 있다

# 파일을 직접 선택하여 불러오기
dt <- read.csv(file.choose())

 


2. 데이터 구조 확인하기 (str(), head(), tail())

데이터를 불러온 후, 그 구조내용을 확인하는 것이 중요하다. R에서는 이를 위한 다양한 함수가 제공된다.

데이터 구조(strcutrue) 확인: str()

# 데이터의 구조 및 각 변수(컬럼)의 데이터 유형 확인
str(dt)
  • str(): 데이터의 구조를 출력하여 각 변수의 데이터 유형값의 개수를 확인할 수 있다.
  • 데이터가 잘 불러와졌는지, 각 열의 타입은 적절한지 확인할 때 유용하다.

데이터 일부 확인: head() / tail()

# 데이터의 처음 6개 행 출력
head(dt)  

# 데이터의 마지막 6개 행 출력
tail(dt)
  • head(): 데이터의 앞부분 6행을 확인
  • tail(): 데이터의 뒷부분 6행을 확인
  • 데이터가 너무 많을 때, 일부만 빠르게 확인할 수 있는 방법이다.

🔥 head(), tail()은 Python에서는 5개의 행, R에서는 6개의 행을 불러온다.

🔥 두 언어 모두 출력 개수를 인자로 지정할 수 있다.

# R에서 10개 행 출력
head(dt, 10)
tail(dt, 10)

# Python에서 10개 행 출력
df.head(10)
df.tail(10)

3. 데이터 요약 정보 확인: summary()

데이터의 기본적인 통계 요약을 빠르게 확인하고 싶다면 summary() 함수를 사용한다.

데이터 요약 정보 확인: summary()

# 데이터의 각 변수에 대한 기초 통계 요약 출력
summary(dt)
 
  • summary(): 각 변수의 최소값, 최대값, 평균, 중앙값 등을 확인할 수 있다.
  • 특히 숫자형 변수에 대해서는 기초 통계량을, 범주형 변수에 대해서는 빈도수를 확인할 수 있다.

4. 결측값 확인

데이터에 결측값이 있는지 확인하고, 이를 어떻게 처리할지 결정하는 것이 중요하다.

이번에는 결측값 확인에 대해서만 알아보고, 결측값 처리에 대해서는 따로 다룰 예정이다.

결측값 확인: is.na()

# 결측값이 있는지 확인
# TRUE/FALSE로 결측값 여부 확인
is.na(dt)​
  • is.na(): 데이터의 각 값이 결측값(NA)인지 확인하는 함수. TRUE는 결측값, FALSE는 정상값을 의미한다.

결측값의 개수 확인: sum()

# 데이터 전체에서 결측값의 개수 출력
sum(is.na(dt))
  • sum(is.na()): 결측값의 총 개수를 확인. 이 정보를 바탕으로 결측값을 처리할 방법을 결정할 수 있다.

 


🔥 요약

read.csv() CSV 파일 불러오기
str() 데이터 구조 및 변수 확인
head() 데이터의 처음 6개 행 출력
tail() 데이터의 마지막 6개 행 출력
summary() 데이터의 기본 통계 요약
is.na() 결측값 여부 확인
sum(is.na()) 결측값 총 갯수 확인