Colab 17

07. 결정 트리 (Decision Tree) 01

더보기 if ~ else 를 자동으로 찾아내 예측을 위한 규칙생성 최상위 노드 - root 노드 값이 결정되는 노드 - 리프노드 Depth 깊이 - 아래 그림은 3 뎁스 뎁스가 길수록 세분한 분류가 가능하지만 길어지다 보면 과적합이 발생한다 지니 불순도 정보이득 엔트로피 개념을 기반 엔트로피 - 무질서한 정도 서로 다른 값이 섞여 있으면 엔트로피가 높음 서로 같은 값이 섞여 있으면 엔트로피가 낮음 정보이득 지수 = 1 - 엔트로피 지수 정보이득 지수는 높을수록 좋다 지니계수 지니계수는 낮을수록 좋다 지니계수가 낮을 수록 균일도가 높음 통계적 분산 정도를 정량화해서 표현한 값, 0과 1사이의 값을 가짐 지니계수가 높을 수록 잘 분류되지 못한 것 import pandas as pd import numpy a..

Colab/머신러닝 2023.03.08

06. K-최근접 이웃 회귀 K-NN Regression

k-최근접 이웃 회귀(KNN) 기본적으로 분류이지만 회귀도 가능하다 데이터 가 주어졌을 때, X에 가장 가까운 K개의 A와 B 중에서 근처에 더 많은 갯수의 Class(A or B)로 판단하는 것 k-nearest neighbor(kNN)알고리즘 지도학습 홀수로 하는 것이 좋다 데이터 X가 주어졌을 때, X에 가장 가까운 K개의 데이터 값을 평균내서 값을 예측하는 것 데이터 범위 밖의 새로운 데이터는 예측이 불가능 (10+9+8)/3의 결과값인 9로 예측 from sklearn.datasets import load_iris from sklearn.neighbors import KNeighborsClassifier iris_df = load_iris() x = iris_df['data'] y = iris_..

Colab/머신러닝 2023.03.06

05. 로지스틱 회귀분석 Logistic Regression

로지스틱 회귀분석 종속변수가 범주형으로 0, 1의 값을 갖는 경우 df = pd.read_csv('/content/drive/MyDrive/sample_data/admission.csv') df df.info() # 독립변수 X = df[['gre','gpa']].values # X = df.loc[:,['gre','gpa','rank']].values X # 종속변수 y = df['admit'].values y # 1.정규화 - 분리 전 정규화 scal_mx = MinMaxScaler() df_sc_mx = scal_mx.fit_transform(X) pd.DataFrame(X).boxplot() plt.show() # 데이터 분리 X_train, X_test, y_train , y_test = tra..

Colab/머신러닝 2023.03.03

04. 선형회귀(linear regression) - 학습, 테스트

df = pd.read_csv('/content/drive/MyDrive/sample_data/manhattan.csv') # 맨하탄 입대료 df df.info() # rent 타겟 독립변수 df.describe() # rent 임대료, bedrooms 침실수,bathrooms 화장실수,size_sqft, # 평수 feet,min_to_subway 지하철과의 거리,floor 층수,building_age_yrs 건축된 연도, #no_fee 수수료,has_roofdeck 옥상,has_washer_dryer 세탁기 건조기,has_doorman 도어맨, #has_elevator 엘리베이터,has_dishwasher 식기세척기,has_patio 마당 ,has_gym 체육관, #헬스장,neighborhood 이웃,..

Colab/머신러닝 2023.03.02

02. 선형회귀(linear regression)

머신 러닝의 목적 실제 데이터를 바탕으로 다른 입력밧을 넣었을때 발생할 아웃풋을 예측 이때 가장 직관적이고 간단하게 나타낼수 있는 모델은 선(line)이다 선형회귀(linear regression) 분석 데이터를 놓고 가장 잘 설명할수 있는 선을 찾는 분석 방법 최적의 기울기를 찾는 방법 > 근사치 최적의 선으로부터 식을 유추 할 수 있다 y = mx + b y 정답, Target, Label > 예측치 > 종속변수 x 특징 > 독립변수 m 기울기, 가중치 b 절편, 바이어스 위 그래프에서 키 height와 몸무게 weight는 반드시 관계가 존재해야 한다 인과관계가 존재해야 한다 선형회귀에서 발생하는 오차, 손실 Loss 선과 실제데이터와늬 약간의 차이가 발생하는 오차 >> 손실(Loss) 양수 음수에..

Colab/머신러닝 2023.02.27

01. 기초 이론

데이터 분석 시장 트랜드를 가장 빠르게 살펴볼수있는 방법 사람들이 많이 검색하는 키워드, 대화나 문장속에 담겨진 의견 등 분야별 제품의 수요, 고객들의 행동 패턴 등도 데이터분석으로 가능 웹사이트, IOT, CRM, 소셜매체 통해 테이터 수집 통계 기법 소수에서 다수를 추정 소수의 집단을 통해 추정한 표본 평균으로부터, 실제 다수의 집단이 어느정도의 오차 범위로 나타날 것인지 신뢰구간을 이용하여 계산 데이터의 양이 방대하고 복잡도가 높아서 사람이 직접 데이터를 분석하기가 까다로울 때, 이를 효과적으로 분석하여 타겟을 추정하는 목적으로 머신러닝이 필요 시장과 고객의 반응을 예측해보는 것에 머신러닝이 활용 지도 학습 (Supervised Learning) 데이터로 부터 하나의 함수를 유추하기위한 기계학습기법..

Colab/머신러닝 2023.02.27