데이터 수학 7

확률분포 (probability distribution)

확률분포의 추정 분석하고자 하는 데이터가 어떤 확률변수로부터 실현된 표본 확률분포 -> 확률변수의 조합으로 생기는 확률값의 분포를 그래프로 표현한 것 확률분포의 결정 1.확률변수가 우리가 배운 베르누이분포, 이항분포, 정규분포 등의 기본 분포 중 어떤 확률분포를 따르는지 알아낸다. 2.데이터로부터 해당 확률분포의 모수( 모집단의 데이터, 특성 )의 값을 구한다. 어떤 확률분포를 따르는가는 데이터가 생성되는 원리를 알거나 데이터의 특성을 알면 추측 -> 기장 기본적으로 히스토그램을 그래서 추측이 가능 t분포와 정규분포의 차이 정규분포와 다르게 t분포는 모분산 를 포함하고 있지 않다. 이는 표본 수가 적을 때 신뢰성을 더해준다. ->보수적인 검정을 하게 해준다. 중심극한정리 여러 확률변수의 합이 정규분포와 ..

표본 (sample), 확률(probability)

표본 (probabilistic sample, random sample, sample) 풀고자 하는 확률적 문제에서 발생할수 있는 하나의 현상 혹은 선택된 하나의 경우 표본공간 (sample space) > Ω 표시 가능한 모든 표본의 집합 실험의 결과 하나하나를 모두 모은것 표본공간을 S 조사대상이 된 집단의 총합을 모집단 Ω로 표시 표본공간에서 임의의 집단을 사건(EVENT) 한 실험에서 나올 수 있는 모든 가능한 결과의 집합 표본공간의 정의 어떤 표본(경우, 현상)이 가능하고 어떤 표본이 가능하지 않은가를 정의하는 작업 공리 (axiom) 수학에서 증명을 하지 않기로 약속한 명제 당연한것으로 가정을 하는 명제 확률 사건(부분집합)을 입력하면 숫자(확률값)이 출력되는 함수 모든 사건에대하 확률은 실수..

선형 회귀 분석 (Linear Regression Analysis)

선형 회귀 분석 (선형 회귀 모형) 독립 변수 x에서 종속변수 y를 예측하는 방법의 하나로 독립변수 벡터x의 가중치 벡터y와의 가중합으로 y에대한 에측값 Y를 계산하는 수식 잔차 예측치의 실제값(target) Y의 차이를 오차(error) 혹은 잔차(residual) e 라고 한다 코드텍스트 잔차 제곱합 -> 분산 (데이터가 흩어져 있는 정도) 행렬 놈 -> 유클리드 거리 놈은 항상 0보다 크거나 같다 벡터의 놈의 제곱이 벡터의 제곱합과 같다 선형 종속 선형 독립 벡터 집합 x1 ~ xn 벡터의 선형조합이 영벡터가 되도록하는 스칼라의 계수 c1~cn이 존재하면 이 벡터들이 선형 종속이라고 한다 y= ax+b y -> 예측치(종속변수) a -> 가중치(독립변수) b -> 편차 고유값, 고유벡터 Av=λv ..

엔트로피 (entropy)

엔트로피 (entropy) 낮은 확률값 큰 엔트로피를 가진 사건은 드물게 발생한다는 뜻이다 -> 귀한 정보 고급정도 엔트로피가 크다 고급정보 불확실성이 높다라는 뜻이다 높은 확률값 작은 엔트로피를 가 사건은 자주 발생한다는 뜻이다 -> 흔한 정보 딥러닝의 손실함수 예측값과 정답값의 크로스 엔트로피 값을 줄이기 위해 가중치와 편향을 업데이트 하여 학습을 수행 크로스 엔트로피 모델에서 에측한 확률과 정답확률을 모두 사용해 측정한 값이다 모델에서 에측한 확률값이 실제값과 비교했을때 틀릴수 있는 정보량 예측값이 정답과 얼마나 근사한지 알아보기 위한 것이므로 정보량은 예측값의 확률을 사용해야하기 때문

정밀도(Precision), 재현율(Recall), 정확도(Accuracy)

성능 평가 인공지능은 데이터를 기반으로 모델을 만드는 데 모델 성능에 따라 데이터 분류에 대한 정확도가 달라짐 -> 성능측정 중요함 (1) 혼동행렬(confusion matrix)과 (2) ROC 커브(curve) ① TP(True Positive): 맞는 것을 맞다고 예측한 것 ② TN(True Negative): 아닌 것을 틀리다고 예측한 것 ③ FP(False Positive): 아닌 것을 맞다고 예측한 것 ④ FN(False Negative): 맞는 것을 틀리다고 예측한 것 정밀도 (Precision) 모델이 True로 에측한 데이터중 싱제로 True인 데이터 수 모델의 예측값이 얼마나 정확하게 예측이 되었는 지 암환자로 예측한 사람 중에 진짜 암환자로 결과가 나온 사람의 비율 재현율(recall..

벡터 (vector)

스칼라 (상수) 하나의 숫자만으로 이루어진 데이터 -> 대부분 실수 (꽃 한송이의 꽃잎길이 측정 -> 숫자) 실수 집합 R 의 원소 x ∈ R 벡터 (1차원으로 간주) 여러개의 숫자가 특정한 순서대로 모여있는 것 숫자의 순서를 유지하는 것이 중요 이런 데이터의 묶음을 선형대수에서는 벡터라고함 복수의 가로줄 행(row)를 가지고 하나의 세로줄 열(column)을 가지는 형태 하나의 백터를 이루는 데이터의 개수가 n개 이면 이 벡터를 n차원 벡터 입력데이터로 사용되면 특징 벡터 (feature vector) 길이가 1인 벡터를 단위 벡터 벡터의 곱셈 벡터의 내적 -> 벡터의 크기를 구하거나 두 벡터 사이의 거리를 측정하는 데 이용 1. 두 벡터의 길이가 같아야한다 2. 앞 벡터가 행 뒤의 벡터가 열벡터 여야..

통계적 가설검정 (statistical hypothesis test)

통계적 가설검정 표본을 이용한 분석결과의 의미를 해석하고자 통계적 추론을 사용 표본에서 미지의 모수에 대한 특성을 추정하고 가설을 검증하는 도구로 통계 머신러닝이란 결국 학습과정을 거쳐 가설이 참일 확률 혹은 기각될 확률을 높이는 과정 모집단의 실제 관측값이 어느정도 일것이라는 가설에 근거 표본정보를 사용하여 가설의 합당성여부를 판정하는 과정 귀무 가설 입증하고자 하는 가설 표현은 “~와 차이가 없다”, “~의 효과는 없다”, “~와 같다”가 되어야 함 자연적으로 발생할 확률이 높은 쪽을 선택 대립 가설 “다르다”, “~와 차이가 있다”, “~의 효과는 있다”, “~와 다르다”가 됨 자연적으로 발생할 확률이 낮은 쪽을 선택 오류 1종 오류 ( 더 심각한것 ) ‘귀무 가설이 참인데도 귀무 가설을 기각하는 ..