전체보기 226

07. 결정 트리 (Decision Tree) 01

더보기 if ~ else 를 자동으로 찾아내 예측을 위한 규칙생성 최상위 노드 - root 노드 값이 결정되는 노드 - 리프노드 Depth 깊이 - 아래 그림은 3 뎁스 뎁스가 길수록 세분한 분류가 가능하지만 길어지다 보면 과적합이 발생한다 지니 불순도 정보이득 엔트로피 개념을 기반 엔트로피 - 무질서한 정도 서로 다른 값이 섞여 있으면 엔트로피가 높음 서로 같은 값이 섞여 있으면 엔트로피가 낮음 정보이득 지수 = 1 - 엔트로피 지수 정보이득 지수는 높을수록 좋다 지니계수 지니계수는 낮을수록 좋다 지니계수가 낮을 수록 균일도가 높음 통계적 분산 정도를 정량화해서 표현한 값, 0과 1사이의 값을 가짐 지니계수가 높을 수록 잘 분류되지 못한 것 import pandas as pd import numpy a..

Colab/머신러닝 2023.03.08

06. K-최근접 이웃 회귀 K-NN Regression

k-최근접 이웃 회귀(KNN) 기본적으로 분류이지만 회귀도 가능하다 데이터 가 주어졌을 때, X에 가장 가까운 K개의 A와 B 중에서 근처에 더 많은 갯수의 Class(A or B)로 판단하는 것 k-nearest neighbor(kNN)알고리즘 지도학습 홀수로 하는 것이 좋다 데이터 X가 주어졌을 때, X에 가장 가까운 K개의 데이터 값을 평균내서 값을 예측하는 것 데이터 범위 밖의 새로운 데이터는 예측이 불가능 (10+9+8)/3의 결과값인 9로 예측 from sklearn.datasets import load_iris from sklearn.neighbors import KNeighborsClassifier iris_df = load_iris() x = iris_df['data'] y = iris_..

Colab/머신러닝 2023.03.06

06. 판다스 (pandas) 연습 04

import pandas as pd # 데이터 처리 from pandas import DataFrame from matplotlib import pyplot as plt # 시각화 def korean_font(): # 한글 처리 plt.rc('font', family='Malgun Gothic') # - 부호 오류 처리 plt.rcParams['axes.unicode_minus'] = False def pandas_basic(): df = pd.read_csv('test1.csv', sep='/') print(df) ax = df.plot(kind='bar') ax.set_title('학생 성적표', fontsize=16) ax.set_xlabel('학생 이름') ax.set_ylabel('각과목 점수'..

04. 판다스 (pandas) 02

import pandas as pd from matplotlib import pyplot as plt from pandas import DataFrame def korean_font(): plt.rc('font', family='Malgun Gothic') plt.rcParams['axes.unicode_minus'] = False # scala:상수, vector:1차원, matrix:2차원, tensor:3차원이상 # Series: vector, dataFrame: matrix def serise_pa(): # 2015년도 각 도시의 인구 s = pd.Series([9904312, 3448737, 2890451, 2466052], index=['서울', '부산', '인천', '대구']) # s = p..

05. 로지스틱 회귀분석 Logistic Regression

로지스틱 회귀분석 종속변수가 범주형으로 0, 1의 값을 갖는 경우 df = pd.read_csv('/content/drive/MyDrive/sample_data/admission.csv') df df.info() # 독립변수 X = df[['gre','gpa']].values # X = df.loc[:,['gre','gpa','rank']].values X # 종속변수 y = df['admit'].values y # 1.정규화 - 분리 전 정규화 scal_mx = MinMaxScaler() df_sc_mx = scal_mx.fit_transform(X) pd.DataFrame(X).boxplot() plt.show() # 데이터 분리 X_train, X_test, y_train , y_test = tra..

Colab/머신러닝 2023.03.03

04. 선형회귀(linear regression) - 학습, 테스트

df = pd.read_csv('/content/drive/MyDrive/sample_data/manhattan.csv') # 맨하탄 입대료 df df.info() # rent 타겟 독립변수 df.describe() # rent 임대료, bedrooms 침실수,bathrooms 화장실수,size_sqft, # 평수 feet,min_to_subway 지하철과의 거리,floor 층수,building_age_yrs 건축된 연도, #no_fee 수수료,has_roofdeck 옥상,has_washer_dryer 세탁기 건조기,has_doorman 도어맨, #has_elevator 엘리베이터,has_dishwasher 식기세척기,has_patio 마당 ,has_gym 체육관, #헬스장,neighborhood 이웃,..

Colab/머신러닝 2023.03.02

02. 선형회귀(linear regression)

머신 러닝의 목적 실제 데이터를 바탕으로 다른 입력밧을 넣었을때 발생할 아웃풋을 예측 이때 가장 직관적이고 간단하게 나타낼수 있는 모델은 선(line)이다 선형회귀(linear regression) 분석 데이터를 놓고 가장 잘 설명할수 있는 선을 찾는 분석 방법 최적의 기울기를 찾는 방법 > 근사치 최적의 선으로부터 식을 유추 할 수 있다 y = mx + b y 정답, Target, Label > 예측치 > 종속변수 x 특징 > 독립변수 m 기울기, 가중치 b 절편, 바이어스 위 그래프에서 키 height와 몸무게 weight는 반드시 관계가 존재해야 한다 인과관계가 존재해야 한다 선형회귀에서 발생하는 오차, 손실 Loss 선과 실제데이터와늬 약간의 차이가 발생하는 오차 >> 손실(Loss) 양수 음수에..

Colab/머신러닝 2023.02.27