데이터 수학/이론

선형 회귀 분석 (Linear Regression Analysis)

HicKee 2023. 2. 20. 15:02
선형 회귀 분석 (선형 회귀 모형)
독립 변수 x에서 종속변수 y를 예측하는 방법의 하나로 독립변수 벡터x의 가중치 벡터y와의 가중합으로 y에대한 에측값 Y를 계산하는 수식
 

 

잔차

예측치의 실제값(target) 
Y의 차이를 오차(error) 혹은 잔차(residual) e 라고 한다
코드텍스트

잔차 제곱합 -> 분산 (데이터가 흩어져 있는 정도)

행렬 놈 -> 유클리드 거리
놈은 항상 0보다 크거나 같다
벡터의 놈의 제곱이 벡터의 제곱합과 같다
 

선형 종속 선형 독립

벡터 집합 x1 ~ xn 벡터의 선형조합이 영벡터가 되도록하는 스칼라의 계수 c1~cn이 존재하면 이 벡터들이 선형 종속이라고 한다

y= ax+b
y -> 예측치(종속변수)
a -> 가중치(독립변수)
b -> 편차
 

고유값, 고유벡터

Av=λv
실수 λ 를 고윳값(eigenvalue), 벡터 v 를 고유벡터(eigenvector)
 

PCA

주성분 분석 -> 차원축소 
고차원 데이터가 주어지면 원래의 고차원 데이터 집합(feature 가 여러개 )와 가장 비슷하면서 더 낮은 차원의 데이터를 찾아내는 방법
너무 많은 정보 연관성이 없는 정보인지 판단하는 기준에 대한 근거
 

함수

입력값을 출력 값으로 바꾸어 출력하는 관계
입력변수가 가질수 있는 값의 집합을 정의 역
출력 변수가 가질수 있는 값의 집합을 공역
 

다항식 함수

상수형 일차형 이차항 등의 거듭제곱합의 선형조합으로 이루어진 함수
 

최대함수 최소함수

원래 두개의 함수 이지만 보통 y=0으로 고정해서 입력값x가 양수 이면 그래도 출력하고 음수일때는 0으로 만들때 주로 사용
인공 신경망(딥러닝)에서는 -> ReLU(Rectified Linear Unit)

최대함수는 두 개의 인수 중에서 큰 값을 출력하는 함수

최소함수는 두 개의 인수 중 작은 값을 출력하는 함수
 

로지스틱 함수

지수 함수를 변형한 함수 회귀분석 또는 인공신경망 주로 사용
시그모이드 함수중에서 로지스틱 함수가 가장 많이 사용됨
결과값 0,1
 

일반적인 선형회귀 결과값 -> 스칼라 값으로 나옴

예측 모형(모델) 성능

예측 오차가 작은 최적의 예측모형을 구하는 일
성능함수 손실함수 비용함수 오차함수 -> 목적함수

편미분

만약 함수가 둘이상의 독립변수를 가지는 다 변수 함수인 경우 미분 -> 기울기는 하나의 변수에 대해서만 구할수 있다
어떤 하나의 독립 변수에 대해 미분할때는 다른 독립 변수를 상수로 생각하면 된다

"""

 

기울기 slope (민감도 sensitivity)

수치적 최적화는 가장적은 횟수로 여러가지 x값을 시도하여 최적의 값을 찾는 방법
모든 변수에 대한 편미분 값이 0이어야한다

최대경사법

단순히 현재 위치 xk 에서의 기울기 값 g(xk) 만을 이용하여 다음번 위치 xk+1 를 결정하는 방법

스텝 사이즈의 크기를 적절히 조정하는 것이 중요
스텝 사이즈가 너무 작으면 최저점을 찾아가는데 시간이 너무 오래 걸리고 스텝 사이즈가 너무 크면 최저점에서 멀어지는 현상이 발생할 수 있다