전체 글 226

01. 기초 이론

데이터 분석 시장 트랜드를 가장 빠르게 살펴볼수있는 방법 사람들이 많이 검색하는 키워드, 대화나 문장속에 담겨진 의견 등 분야별 제품의 수요, 고객들의 행동 패턴 등도 데이터분석으로 가능 웹사이트, IOT, CRM, 소셜매체 통해 테이터 수집 통계 기법 소수에서 다수를 추정 소수의 집단을 통해 추정한 표본 평균으로부터, 실제 다수의 집단이 어느정도의 오차 범위로 나타날 것인지 신뢰구간을 이용하여 계산 데이터의 양이 방대하고 복잡도가 높아서 사람이 직접 데이터를 분석하기가 까다로울 때, 이를 효과적으로 분석하여 타겟을 추정하는 목적으로 머신러닝이 필요 시장과 고객의 반응을 예측해보는 것에 머신러닝이 활용 지도 학습 (Supervised Learning) 데이터로 부터 하나의 함수를 유추하기위한 기계학습기법..

Colab/머신러닝 2023.02.27

03. 판다스 (pandas) 01

import pandas as pd # 데이터 분석 라이브러리 from matplotlib import pyplot as plt # 데이터 시각화 라이브러리 from pandas import DataFrame matplotlib에서의 한글 사용 (파이참 기준) def korean_font(): plt.rc('font', family='Malgun Gothic') plt.rcParams['axes.unicode_minus'] = False # 부호를 맞춰준다 CSV 파일 읽어오기 csv는 ,(콤마)로 구분되어져 있다 def pandas_basic(): df = pd.read_csv('../DataBaseConnect 데이터베이스 연결/test.csv', sep=',') print(df) print(type..

확률분포 (probability distribution)

확률분포의 추정 분석하고자 하는 데이터가 어떤 확률변수로부터 실현된 표본 확률분포 -> 확률변수의 조합으로 생기는 확률값의 분포를 그래프로 표현한 것 확률분포의 결정 1.확률변수가 우리가 배운 베르누이분포, 이항분포, 정규분포 등의 기본 분포 중 어떤 확률분포를 따르는지 알아낸다. 2.데이터로부터 해당 확률분포의 모수( 모집단의 데이터, 특성 )의 값을 구한다. 어떤 확률분포를 따르는가는 데이터가 생성되는 원리를 알거나 데이터의 특성을 알면 추측 -> 기장 기본적으로 히스토그램을 그래서 추측이 가능 t분포와 정규분포의 차이 정규분포와 다르게 t분포는 모분산 를 포함하고 있지 않다. 이는 표본 수가 적을 때 신뢰성을 더해준다. ->보수적인 검정을 하게 해준다. 중심극한정리 여러 확률변수의 합이 정규분포와 ..

표본 (sample), 확률(probability)

표본 (probabilistic sample, random sample, sample) 풀고자 하는 확률적 문제에서 발생할수 있는 하나의 현상 혹은 선택된 하나의 경우 표본공간 (sample space) > Ω 표시 가능한 모든 표본의 집합 실험의 결과 하나하나를 모두 모은것 표본공간을 S 조사대상이 된 집단의 총합을 모집단 Ω로 표시 표본공간에서 임의의 집단을 사건(EVENT) 한 실험에서 나올 수 있는 모든 가능한 결과의 집합 표본공간의 정의 어떤 표본(경우, 현상)이 가능하고 어떤 표본이 가능하지 않은가를 정의하는 작업 공리 (axiom) 수학에서 증명을 하지 않기로 약속한 명제 당연한것으로 가정을 하는 명제 확률 사건(부분집합)을 입력하면 숫자(확률값)이 출력되는 함수 모든 사건에대하 확률은 실수..

선형 회귀 분석 (Linear Regression Analysis)

선형 회귀 분석 (선형 회귀 모형) 독립 변수 x에서 종속변수 y를 예측하는 방법의 하나로 독립변수 벡터x의 가중치 벡터y와의 가중합으로 y에대한 에측값 Y를 계산하는 수식 잔차 예측치의 실제값(target) Y의 차이를 오차(error) 혹은 잔차(residual) e 라고 한다 코드텍스트 잔차 제곱합 -> 분산 (데이터가 흩어져 있는 정도) 행렬 놈 -> 유클리드 거리 놈은 항상 0보다 크거나 같다 벡터의 놈의 제곱이 벡터의 제곱합과 같다 선형 종속 선형 독립 벡터 집합 x1 ~ xn 벡터의 선형조합이 영벡터가 되도록하는 스칼라의 계수 c1~cn이 존재하면 이 벡터들이 선형 종속이라고 한다 y= ax+b y -> 예측치(종속변수) a -> 가중치(독립변수) b -> 편차 고유값, 고유벡터 Av=λv ..

엔트로피 (entropy)

엔트로피 (entropy) 낮은 확률값 큰 엔트로피를 가진 사건은 드물게 발생한다는 뜻이다 -> 귀한 정보 고급정도 엔트로피가 크다 고급정보 불확실성이 높다라는 뜻이다 높은 확률값 작은 엔트로피를 가 사건은 자주 발생한다는 뜻이다 -> 흔한 정보 딥러닝의 손실함수 예측값과 정답값의 크로스 엔트로피 값을 줄이기 위해 가중치와 편향을 업데이트 하여 학습을 수행 크로스 엔트로피 모델에서 에측한 확률과 정답확률을 모두 사용해 측정한 값이다 모델에서 에측한 확률값이 실제값과 비교했을때 틀릴수 있는 정보량 예측값이 정답과 얼마나 근사한지 알아보기 위한 것이므로 정보량은 예측값의 확률을 사용해야하기 때문

정밀도(Precision), 재현율(Recall), 정확도(Accuracy)

성능 평가 인공지능은 데이터를 기반으로 모델을 만드는 데 모델 성능에 따라 데이터 분류에 대한 정확도가 달라짐 -> 성능측정 중요함 (1) 혼동행렬(confusion matrix)과 (2) ROC 커브(curve) ① TP(True Positive): 맞는 것을 맞다고 예측한 것 ② TN(True Negative): 아닌 것을 틀리다고 예측한 것 ③ FP(False Positive): 아닌 것을 맞다고 예측한 것 ④ FN(False Negative): 맞는 것을 틀리다고 예측한 것 정밀도 (Precision) 모델이 True로 에측한 데이터중 싱제로 True인 데이터 수 모델의 예측값이 얼마나 정확하게 예측이 되었는 지 암환자로 예측한 사람 중에 진짜 암환자로 결과가 나온 사람의 비율 재현율(recall..