04. 선형회귀(linear regression)

Colab/머신러닝

04. 선형회귀(linear regression) - 학습, 테스트

HicKee 2023. 3. 2. 16:07

df = pd.read_csv('/content/drive/MyDrive/sample_data/manhattan.csv')  # 맨하탄 입대료
df

df.info()
# rent 타겟 독립변수
df.describe()

#  rent 임대료, bedrooms 침실수,bathrooms  화장실수,size_sqft,  
# 평수 feet,min_to_subway 지하철과의 거리,floor 층수,building_age_yrs 건축된 연도,
#no_fee 수수료,has_roofdeck 옥상,has_washer_dryer 세탁기 건조기,has_doorman 도어맨,
#has_elevator 엘리베이터,has_dishwasher 식기세척기,has_patio 마당 ,has_gym 체육관, 
#헬스장,neighborhood 이웃,borough 자치구

임대료 예측

# y = b +  a1x1 + a2x2 + a3x3 + ... + anxn
# a1,a2 ... an : 회귀계수
# b 절편 bias

from sklearn.model_selection import train_test_split
y = df[['rent']]  # 타겟, 정답
X = df.drop(['rent','rental_id','neighborhood','borough'], axis=1) # rent 삭제
# df.drop(['neighborhood','borough'])
X

학습 데이터 , 테스트 데이터 분리해야 한다

x_train, x_test, y_train, y_test = train_test_split(X,y,train_size=0.8, test_size=0.2)
# 과적합(특정데이터 만을 이한 )을 막기위해서 8 : 2 
x_train
y_train

모델 생성

model = LinearRegression()
# 2차원 형태이므로 형태를 마출 필요가 없다
# model.fit(x_train.values, y_train.values) 
# 오류가 난다 -> 실수형 데이터가 아닌 데이터가 존재하기 때문이다
# neighborhood,	borough 라벨인코딩 원핫인코딩 방법이 존재

model.fit(x_train.values, y_train.values) 

# 각각에 독립변수에 맞는 데이터를 넣어줘야한다
# 2.0,2,2000,4,1.0,96,0,0,0,0,0,0,0,0  -> 11500

# 컬럼의 순서대로 넣어줘야한다
my_predict = [[2.0,2,2000,4,1.0,96,0,0,0,0,0,0,0,0]]
model.predict(my_predict)

y_predict = model.predict(x_test.values)
plt.scatter(y_test, y_predict,alpha=0.2)
plt.xlabel('원본')
plt.ylabel('예측치')
# 산점도에서 진한부분은 비교적 예측이 잘되었다고 봐도 무방 하지만 큰가격쪽에서 예측이 잘되지 않았다고 보면된다

저작자표시

'Colab > 머신러닝' 카테고리의 다른 글

06. K-최근접 이웃 회귀 K-NN Regression (0)	2023.03.06
05. 로지스틱 회귀분석 Logistic Regression (0)	2023.03.03
03. 선형회귀(linear regression) (0)	2023.02.28
02. 선형회귀(linear regression) (0)	2023.02.27
01. 기초 이론 (0)	2023.02.27

현재글04. 선형회귀(linear regression) - 학습, 테스트

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

HicKee

04. 선형회귀(linear regression) - 학습, 테스트

임대료 예측

모델 생성

'Colab > 머신러닝' 카테고리의 다른 글

'Colab/머신러닝'의 다른글

티스토리툴바

04. 선형회귀(linear regression) - 학습, 테스트

임대료 예측

모델 생성

'Colab > 머신러닝' 카테고리의 다른 글

'Colab/머신러닝'의 다른글

관련글

티스토리툴바