통계에 대해서
모집단 = 관심 대상이 되는 전체 데이터
모수검정 = 모집단에 대한 파라미터를 추정하는 방법
우라나라 청소년의 몸무게 평균을 구할때 모집단 = 대한민국 전체 청소년
현실적으로 어려워서, 지역이나 연령별로 일부 청소년의 몸무게를 조사하고 전체 청소년의 몸무게를 추정 ==> 모수검정
모집단에서 선택한 일부 샘플을 " 표본 " 이라고 부릅니다
데이터가 정규분포를 따른다고 가정하고, 각 값이 평균에서 얼마나 떨어져있는지 표준편차를 사용해서
변환한 점수를 " 표준점수 " 또는 " z 점수 " 라고 합니다.
숫자 7에 대한 z 점수 구하는 방법 =
import numpy as np
x = [0, 3, 5, 7, 10]
s = np.std(x) # 표준편차
m = np.mean(x) #평균
z = (7-m) / s
print(z)
출력 : 0.5872202195147035
누적분포
평균이 0 이고 표준편차가 1인 정규분포를 " 표준정규분포 " 라고합니다.
표준편차 vs 표준오차
표준편차 : 각 데이터가 평균과 얼마나 차이를 가지는지
표준오차 :
1 : 표본평균의 표준편차
2 : 추정값인 표본평균들의 참값인 모평균과의 표준적인 차이
3 : 수식에서 n이 커지면 표준오차는 줄어듬
모수통계 ( 모수 = 모집단의 수치적 요약값 )
- 평균의 차이검정
- 귀무가설 : 평균의 차이는 없다.
- 대립가설 : 평균의 차이는 있다.
비모수통계
==> 통계학에서 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이
주어진 데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 분석법이다.
모수통계를 실시한다
-전제조건 : 내가 현재 모집단을 모른다는 뜻
-z점수라는 것은 모집단을 알 때만 사용하는것
-모수통계를 사용할때는 t분포, t통계량
-N으로 계산할 때는 모집단을 알 때만 사용
-N-1로 계산 ( 자유도 )
가설 검정 : 표본에 대한 정보를 사용해 모집단의 파라미터에 대한 가정을 검정하는 것.
독립 표본의 t 검정
1: 귀무가설 = 두 그룹 표본 평균의 차이는 없다.
2: 대립가설 = 두 그룹 표본 평균의 차이는 있다.
*샘플 표본이 31개면, 표본이 정규분포를 이루고 있지 않더라도
중심극한 정리에 의해서, 그냥 정규분포로 인식하기로 통계학자들이 합의 봤음. *
'한국경제신문(toss bank)' 카테고리의 다른 글
머신러닝의 개념 Machine Learning (0) | 2024.07.29 |
---|---|
MySQL 정규 표현식 Regular Expression (0) | 2024.07.09 |
pandas, matplotlib 데이터 시각화 (0) | 2024.07.04 |
2024-07-03 (0) | 2024.07.03 |
Numpy, Pandas, Series : DataFrame, iloc : loc (0) | 2024.07.01 |