한국경제신문(toss bank)

통계

다시초심으로 2024. 7. 5. 13:28

통계에 대해서

모집단 = 관심 대상이 되는 전체 데이터

모수검정 = 모집단에 대한 파라미터를 추정하는 방법

우라나라 청소년의 몸무게 평균을 구할때 모집단 = 대한민국 전체 청소년

현실적으로 어려워서, 지역이나 연령별로 일부 청소년의 몸무게를 조사하고 전체 청소년의 몸무게를 추정 ==> 모수검정

모집단에서 선택한 일부 샘플을 " 표본 " 이라고 부릅니다

데이터가 정규분포를 따른다고 가정하고, 각 값이 평균에서 얼마나 떨어져있는지 표준편차를 사용해서
변환한 점수를 " 표준점수 " 또는 " z 점수 " 라고 합니다.

 

숫자 7에 대한 z 점수 구하는 방법 =

import numpy as np

x = [0, 3, 5, 7, 10]

s = np.std(x) # 표준편차
m = np.mean(x) #평균
z = (7-m) / s
print(z)

출력 : 0.5872202195147035

 

누적분포

평균이 0 이고 표준편차가 1인 정규분포를 " 표준정규분포 " 라고합니다.

표준편차 vs 표준오차

표준편차 : 각 데이터가 평균과 얼마나 차이를 가지는지

표준오차 :
1 : 표본평균의 표준편차
2 : 추정값인 표본평균들의 참값인 모평균과의 표준적인 차이
3 : 수식에서 n이 커지면 표준오차는 줄어듬

모수통계 ( 모수 = 모집단의 수치적 요약값 )

  • 평균의 차이검정
  • 귀무가설 : 평균의 차이는 없다.
  • 대립가설 : 평균의 차이는 있다.

비모수통계

==> 통계학에서 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이
주어진 데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 분석법이다.

모수통계를 실시한다

-전제조건 : 내가 현재 모집단을 모른다는 뜻
-z점수라는 것은 모집단을 알 때만 사용하는것
-모수통계를 사용할때는 t분포, t통계량
-N으로 계산할 때는 모집단을 알 때만 사용
-N-1로 계산 ( 자유도 )

가설 검정 : 표본에 대한 정보를 사용해 모집단의 파라미터에 대한 가정을 검정하는 것.

독립 표본의 t 검정

 1: 귀무가설 = 두 그룹 표본 평균의 차이는 없다.  
 2: 대립가설 = 두 그룹 표본 평균의 차이는 있다.

*샘플 표본이 31개면, 표본이 정규분포를 이루고 있지 않더라도
중심극한 정리에 의해서, 그냥 정규분포로 인식하기로 통계학자들이 합의 봤음. *