확률분포의 추정
분석하고자 하는 데이터가 어떤 확률변수로부터 실현된 표본
확률분포
-> 확률변수의 조합으로 생기는 확률값의 분포를 그래프로 표현한 것
확률분포의 결정
1.확률변수가 우리가 배운 베르누이분포, 이항분포, 정규분포 등의 기본 분포 중 어떤 확률분포를 따르는지 알아낸다.
2.데이터로부터 해당 확률분포의 모수( 모집단의 데이터, 특성 )의 값을 구한다.
어떤 확률분포를 따르는가는 데이터가 생성되는 원리를 알거나 데이터의 특성을 알면 추측
-> 기장 기본적으로 히스토그램을 그래서 추측이 가능
t분포와 정규분포의 차이
정규분포와 다르게 t분포는 모분산 를 포함하고 있지 않다.
이는 표본 수가 적을 때 신뢰성을 더해준다.
->보수적인 검정을 하게 해준다.
중심극한정리
여러 확률변수의 합이 정규분포와 비슷한 분포를 이루는 현상<br>
표본의 크기가 최소 30개 이상이어야한다<br>
-> 실세계에서 발생하는 현상 중 많은 것들이 정규분포로 모형화 가능
모든 확률분포는 한 개 이상의 모수를 가지고 있음
확률분포의 모양을 결정
모수적 모델
해당모수를 추정하는 과정이 포함되어있는 모델로 모수의 형태를 함수 형태의 분포로 가정하는 것<br>
선형회귀모델 로지스틱 회귀모델
선형회귀 의 경우 독립변수 와 종속 변수 사이의 관계를 직선으로 나타낸다<br>
->독립변수를 이용하여 종속변수를 예측하거나 설명
비모수적 모델
모수의 형태를 함수 형태의 분포로 가정하지 않는 모델
모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산하여 검정하는 모델<br>
-> KNN, 랜덤포레스트 , 의사결정나무
유연하고 강력하지만 많은 데이터를 필요로하고 느리며 오버피딩(과적합)이 발생할수 있다
과적합 -> 특정데이터에만 적합함
세미모수적 모델
모수적 모델과 비모수적 모델을 상충시켜서 만든 모델 일부에서는 모수가 존재하지만 확률분포를 가정하지 않는 모델
-> SVM 인공신경망
인공신경망 3개의 층
input layer
hidden layer
output layer
-> input, output은 하나씩만 존재 높이는 예외
-> hidden은 여러개가 존재 가능함
층간 노드들을 연결하는 선의 weight를 모수라고 함
은닉층의 개수 은닉층의 포함될 노드의 개수들을 하이퍼파라미터(하이퍼 모수 )
연속형 확률 변수에서 확률을 구할때는 확률 밀도 함수
확률을 구할때 일정 구간을 정한뒤 확률 함수의 그 넓이를 구하는 형태 -> 넓이->적분
연속형 확률 변수에서 특정 관측치가 일어날 가능을 비교하기 어렵기 떄문에 -> 우도 가능도 likelihood
비 연속형 확률 변수에서 확률을 구할때는 확률 질량 함수
가능도(우도 likelihood)
반드시 학습 또는 실행을 기반으로
어떤 특정한 값을 관측할때 이 관측치가 어떠한 확률분포에서 나왔는 가에 관한 값
연속형 확률변수의 특정한 값에 대한 롹률은 0
확률 밀도 함수가 나타내는 그래프의 값 y
확률밀도 함수가 높아지면 우도 가능도 도 높아 지게 된다
확률과 가능도의 차이
확률
고정된 확률푼포에서 어떤 관측값이 나타내는 지에 대한 확률 이론을 바탕
가능도
고정된 관측값에서 어떤 확률분포에 나타내는 지에 대한 확률
이항분포의 우도함수 = 확률질량함수
> 고정된 p(모수)에 대해 시행횟수와 성공횟수를 입력
> 확률
확률
임의성(randomness)이 있어 평균적으로 50%가 나올 것이라고 논리적으로 직관
가능도(likelihood)
실재가 바탕
확률 함수는 고정됨 모수에 대해 확률을 얻는 것이라면
우도함수는 주어진 관측값으로로부터 데이터를 잘 표현하는 모수를 얻는 다
우도 함수 != 확률함수
'데이터 수학 > 이론' 카테고리의 다른 글
표본 (sample), 확률(probability) (0) | 2023.02.20 |
---|---|
선형 회귀 분석 (Linear Regression Analysis) (0) | 2023.02.20 |
엔트로피 (entropy) (0) | 2023.02.20 |
정밀도(Precision), 재현율(Recall), 정확도(Accuracy) (0) | 2023.02.20 |
벡터 (vector) (0) | 2023.02.17 |