데이터 수학/이론

확률분포 (probability distribution)

HicKee 2023. 2. 22. 09:58
 
 

확률분포의 추정
   분석하고자 하는 데이터가 어떤 확률변수로부터 실현된 표본

확률분포
    -> 확률변수의 조합으로 생기는 확률값의 분포를 그래프로 표현한 것
확률분포의 결정
  1.확률변수가 우리가 배운 베르누이분포, 이항분포, 정규분포 등의 기본 분포 중 어떤 확률분포를 따르는지 알아낸다.
  2.데이터로부터 해당 확률분포의 모수( 모집단의 데이터, 특성 )의 값을 구한다.     

    어떤 확률분포를 따르는가는 데이터가 생성되는 원리를 알거나 데이터의 특성을 알면 추측
    -> 기장 기본적으로 히스토그램을 그래서 추측이 가능         
 

 

 

t분포와 정규분포의 차이

정규분포와 다르게 t분포는 모분산 를 포함하고 있지 않다.
이는 표본 수가 적을 때 신뢰성을 더해준다.
  ->보수적인 검정을 하게 해준다.
 

중심극한정리

여러 확률변수의 합이 정규분포와 비슷한 분포를 이루는 현상<br>
표본의 크기가 최소 30개 이상이어야한다<br>
 -> 실세계에서 발생하는 현상 중 많은 것들이 정규분포로 모형화 가능
 

모든 확률분포는 한 개 이상의 모수를 가지고 있음

확률분포의 모양을 결정
 

모수적 모델

해당모수를 추정하는 과정이 포함되어있는 모델로 모수의 형태를 함수 형태의 분포로 가정하는 것<br>
선형회귀모델 로지스틱 회귀모델
선형회귀 의 경우 독립변수 와 종속 변수 사이의 관계를 직선으로 나타낸다<br>
          ->독립변수를 이용하여 종속변수를 예측하거나 설명
 

비모수적 모델

모수의 형태를 함수 형태의 분포로 가정하지 않는 모델
모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산하여 검정하는 모델<br>
    -> KNN, 랜덤포레스트 , 의사결정나무
유연하고 강력하지만 많은 데이터를 필요로하고 느리며 오버피딩(과적합)이 발생할수 있다
    과적합 -> 특정데이터에만 적합함
 

세미모수적 모델

모수적 모델과 비모수적 모델을 상충시켜서 만든 모델 일부에서는 모수가 존재하지만 확률분포를 가정하지 않는 모델
-> SVM 인공신경망
 

 

인공신경망 3개의 층
  input layer
  hidden layer
  output layer
-> input, output은 하나씩만 존재 높이는 예외
-> hidden은 여러개가 존재 가능함
층간 노드들을 연결하는 선의 weight를 모수라고 함 
은닉층의 개수 은닉층의 포함될 노드의 개수들을 하이퍼파라미터(하이퍼 모수 )
 

 

연속형 확률 변수에서 확률을 구할때는 확률 밀도 함수
확률을 구할때 일정 구간을 정한뒤 확률 함수의 그 넓이를 구하는 형태 -> 넓이->적분

연속형 확률 변수에서 특정 관측치가 일어날 가능을 비교하기 어렵기 떄문에 -> 우도 가능도 likelihood
비 연속형 확률 변수에서 확률을 구할때는 확률 질량 함수
 

가능도(우도 likelihood)

반드시 학습 또는 실행을 기반으로
어떤 특정한 값을 관측할때 이 관측치가 어떠한 확률분포에서 나왔는 가에 관한 값
연속형 확률변수의 특정한 값에 대한 롹률은 0
확률 밀도 함수가 나타내는 그래프의 값 y
확률밀도 함수가 높아지면 우도 가능도 도 높아 지게 된다
 

확률과 가능도의 차이

확률
    고정된 확률푼포에서 어떤 관측값이 나타내는 지에 대한 확률 이론을 바탕

가능도  
    고정된 관측값에서 어떤 확률분포에 나타내는 지에 대한 확률

이항분포의 우도함수 = 확률질량함수
 > 고정된 p(모수)에 대해 시행횟수와 성공횟수를 입력
 > 확률
 

확률

임의성(randomness)이 있어 평균적으로 50%가 나올 것이라고 논리적으로 직관

가능도(likelihood)

실재가 바탕    
 

 

확률 함수는 고정됨 모수에 대해 확률을 얻는 것이라면
우도함수는 주어진 관측값으로로부터 데이터를 잘 표현하는 모수를 얻는 다
우도 함수 != 확률함수