[통계] 자유도(degree of freedom, d.f.)

통계

[통계] 자유도(degree of freedom, d.f.)

Jin_Omics 2025. 2. 17. 17:12

통계학을 공부하다 보면 종종 표본 분산(sample variance) 공식에서 "n-1"로 나누는 것을 보게 된다.

이때, 왜 n이 아니라 n-1로 나누는 걸까?

이건 '자유도' 때문이라고 설명한다.

그런데, 대체 이 자유도가 무엇이며 왜 하필 숫자 1을 빼주는 걸까?

자유도에 대해 알아보자.

1. 자유도의 정의

자유도(degree of freedom, d.f.)란 독립적으로 값을 선택할 수 있는 개수를 의미한다.

즉, 주어진 데이터에서 제약 없이 자유롭게 변할 수 있는 값의 수이다.

수식적으로는 다음과 같이 표현된다.

자유도 = 총관측치수(n) - 제약조건의 갯수

자유도가 중요한 이유는 통계적 검정에서 신뢰도를 결정하는 요소이기 때문이다.

특히 표본 분산과 t-분포에서 핵심적으로 작용한다.

2.자유도의 직관적인 이해

자동차 좌석 예시

(자유도라는 개념을 이해하기 위한 예시다.)

5명의 친구가 차를 타야 한다고 하자.

처음 4명은 원하는 좌석을 자유롭게 선택할 수 있지만, 마지막 1명은 남은 좌석에 앉아야만 한다.

즉, 자유롭게 선택할 수 있는 건 4명뿐 → 이런 상황에서 자유도는 4라고 볼 수 있다.

통계에서도 마찬가지다.

표본 평균이 주어지면 마지막 값은 자동으로 결정되므로 자유도가 줄어든다.

숫자로 보는 자유도 예시

세 개의 숫자(X1, X2, X3)가 있다고 하자.

제한 없이 아무 숫자나 고를 수 있다면 자유도는 3.
하지만 "이들의 평균이 10이다"라는 조건이 들어오면?
- X1, X2에는 아무런 값이나 와도 상관 없다.
- 하지만, 평균 10을 맞추기 위해서 X1, X2가 결정 된 후에
- X3 = 30 - (X1 + X2)로 결정된다.
- 즉, 자유롭게 선택할 수 있는 것은 두 개뿐 → 자유도는 2! 가 된다.

즉, 평균이 주어지면 평균이라는 제약조건이 생겨 자유도가 1 감소하게 된다!

3. 자유도는 왜 중요할까?

자유도가 중요한 이유

자유도는 통계 분석에서 신뢰도를 결정하는 중요한 요소!
특히 표본 분산과 t-분포에서 핵심적으로 작용한다.

표본 분산과 자유도 관계

표본 분산을 계산할 때, 우리는 모평균(μ)을 모른다. 대신 표본 평균(Xbar)을 사용해야 한다. 하지만 표본 평균 자체도 표본에서 계산된 값이므로, 독립적으로 결정할 수 있는 값이 하나 줄어든다.

즉, 표본에서 모분산을 추정할 때, 표본 평균을 이용해야 하기 때문에 하나의 값이 이미 결정된 상태가 된다. 따라서, 자유롭게 변할 수 있는 값이 하나 줄어들어 n 대신 n-1로 나누어 보정한다.

또한, 표본 크기가 작을수록 표본 평균과 모평균 사이의 차이가 커질 가능성이 높아진다. 따라서, 작은 표본에서는 변동성이 커지고 극단적인 값이 나올 확률도 높아진다. 이를 보정하기 위해 t-분포를 사용한다. 즉, t-분포는 표본 크기가 작을 때 표본 평균이 모평균과 다소 차이가 나는 불확실성을 반영하여, 신뢰구간을 더 넓게 잡아준다. 이렇게 함으로써 작은 표본에서도 보다 정확한 추론이 가능해진다.

4. 표준 정규분포 vs t-분포 (그래프 비교)

t-분포(t-Distribution)와 정규분포(Standard Normal Distribution)의 차이

자유도가 낮을수록 t-분포의 꼬리가 두껍다
→ 작은 표본에서는 변동성이 크기 때문에 정규분포 대신 t-분포를 사용한다.
자유도가 커질수록 표본 평균과 모평균이 유사해지며, 분포의 형태가 점점 정규분포에 가까워진다.

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import t, norm

# Define degrees of freedom
df_values = [1, 5, 10, 30]  
x = np.linspace(-4, 4, 1000)  # x-axis range

# Plot standard normal distribution
plt.plot(x, norm.pdf(x), label="Standard Normal (N(0,1))", linestyle="dashed", linewidth=2)

# Plot t-distributions for different degrees of freedom
for df in df_values:
    plt.plot(x, t.pdf(x, df), label=f"t-distribution (df={df})")

# Configure the plot
plt.title("Comparison of t-Distribution and Normal Distribution")
plt.xlabel("x")
plt.ylabel("Probability Density")
plt.legend()
plt.grid()

# Show the plot
plt.show()

5. 정리

✔ 자유도란 "독립적으로 값을 선택할 수 있는 개수"

✔ 제약 조건이 생길수록 자유도는 감소

✔ 표본 평균을 사용하면 자유도 1 감소 → 그래서 표본 분산 계산 시 n-1로 나눈다

✔ 자유도가 낮을수록 t-분포의 꼬리가 두껍고, 자유도가 높으면 정규분포와 비슷해진다

✔ 표본 크기가 작을수록 변동성이 커지므로, 정규분포 대신 t-분포를 사용한다

저작자표시 비영리 변경금지 (새창열림)

'통계' 카테고리의 다른 글

통계와 나 (0)	2025.04.24
[통계] 제 1종 오류(α) vs 제 2종 오류(β) (0)	2025.02.27
[통계] 단측 검정(One-tailed Test) 이론 & 예시 (0)	2025.02.26
통계적 가설 검정(Statistical Inferences) (1)	2025.02.25

현재글[통계] 자유도(degree of freedom, d.f.)

JINetic CODE

Jin_Omics의 연구자 성장기 + 대학원 이야기.

성균관대학교대학원, 드노보변이, 제2종오류, randomised experiments, causalinference, denovo변이, 시스템리뷰, 삼성융합의과학원, sahist, 스코핑리뷰, 논문 종류, gwas, 인구집단층화, 생식세포변이, 제1종오류, denovovariants, foundationmodel, uk biobank, saihst, 대학원컨택, spuriousassociation, 무작위실험, 디지털헬스학과, randomised controlled trials, 인과추론, ukbiobank, R, ukb, 교란변수, 코랩plotly,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

JINetic CODE