데이터 수학/이론

통계적 가설검정 (statistical hypothesis test)

HicKee 2023. 2. 17. 16:01

통계적 가설검정

표본을 이용한 분석결과의 의미를 해석하고자 통계적 추론을 사용
표본에서 미지의 모수에 대한 특성을 추정하고 가설을 검증하는 도구로 통계

머신러닝이란 결국 학습과정을 거쳐 가설이 참일 확률 혹은 기각될 확률을 높이는 과정

모집단의 실제 관측값이 어느정도 일것이라는 가설에 근거 표본정보를 
사용하여 가설의 합당성여부를 판정하는 과정
 

귀무 가설

입증하고자 하는 가설 
표현은 “~와 차이가 없다”, “~의 효과는 없다”, “~와 같다”가 되어야 함
자연적으로 발생할 확률이 높은 쪽을 선택

대립 가설

 “다르다”, “~와 차이가 있다”, “~의 효과는 있다”, “~와 다르다”가 됨
 자연적으로 발생할 확률이 낮은 쪽을 선택
 

오류

1종 오류 ( 더 심각한것 )

‘귀무 가설이 참인데도 귀무 가설을 기각하는 오류’
효과가 없는 데 있다고 하는 것

2종 오류

‘대립 가설이 참인데도 대립 가설을 기각하는 오류’
효과가 있는 데 없다고 하는 것
 

 

유의수준

귀무 가설을 기각시키고 대립 가설을 채택할 확률

유의수준(α)을 0.05로 정했을 때 계산된 유의확률(P-Value)이 0.05보다 적게 나와야 실험자는 귀무 가설을 기각
자신이 주장하고자 했던 대립 가설을 채택

오차허용 범위가 5%로 일반적인 사회 통계학에서 많이 사용
 

유의 확률 P-Value

귀무 가설을 기각할수있는 최소한의 확률

◼︎ 유의수준: 0.05

◼︎ 유의확률 ≥ 0.05: 귀무 가설 채택

◼︎ 유의확률 < 0.05: 대립 가설 채택

 

신뢰구간과 신뢰수준

통계학에서는 모집단의 표본을 추출하고 추출된 표본의 통계량(표본평균,표본표준편차)를 이용하여 모수(모평균, 모 표준편차)를 추정함

신뢰구간

95% 신뢰구간을 많이 사용

신뢰수준

참 값을 구하는 작업을 많이 반복했을 때 참 값이 특정 범위에 있는 비율
 

검정 방법 선택

기각역 임계

가설을 검정할때 귀무가설의 기각여부를 결정하는 기준을 설정하는 영역

양측 검정

대립가설이 아니다 (크거나 작다)라면 양측검정을 사용함

단측 검정

대립 가설이 ~보다 작다.” 또는 “대립 가설이 ~보다 크다.”
대립 가설의 주장이 방향성을 가지면 단측검정이고 방향성을 갖지 못한다면 양측검정

검정 통계량 계산

표본데이터에서 계산되어 가설 검정에 사용되는 랜덤변수

모집단의 분산을 알고 있으면 z-검정 아니라면 t-검정

대부분 t-검정으로 검증함