학습노트/Python14 [강의노트] Python - 머신러닝 - 예측모델링 프로세스 (1) 스파르타코딩클럽의 강의를 참고하여 정리하였습니다 예측모델링 프로세스 데이터 전처리 1. 이상치(outlier) 이상치: 보통 관측된 데이터 범위에서 많이 벗어난 아주 작은/큰 값 1-1. 이상치 발견 방법 1) ESD(extreme studentized deviation)을 이용한 이상치 발견 데이터가 정규분포를 따른다고 가정할 때, 평균에서 표준편차의 3배 이상 떨어진 값 모든 데이터가 정규분포를 따르지 않음(데이터 크기가 비대칭일때->log변환, 샘플 크기가 작을 때) import numpy as np mean = np.mean(data) std = np.std(data) upper_limit = mean + 3*std lower_limit = mean - 3*std 2) IQR(inter quant.. 2024. 1. 31. [강의노트] Python - 머신러닝 - 로지스틱 회귀 - 실습(1) 사용데이터: Kaggle의 titanic train 데이터셋 목표 1. 탑승한 승객의 정보를 바탕으로 생존 유무를 예측하는 분류 문제 가설 1. 성별과 생존의 관계, 여성일 수록 생존확률이 높을 것이다 -> 여성은 모두 생존했고 남성은 모두 사망했다가설 2. 요금과 생존의 관계, 요금이 높은 고객일 수록 생존했을 것이다 -> 높은 요금운 모두 생존했고, 낮은 요금은 모두 사망했다가설 3. 요금/성별/좌석등급과 생존의 관계, 어릴수록 생존했을 것이다 방법: 로지스틱회귀 Y(종속변수): 사망(0), 생존(1) X(독립변수): 티켓등급, 성별, 요금 등 💡순서 라이브러리 &데이터불러오기 > 데이터 살펴보기(산점도 그려보기, 기초통계량 보기,엔코딩하기) > 선형회귀 훈련하기(가중치/편향 계산) > 평가하기(정확.. 2024. 1. 31. [강의노트] Python - 머신러닝 - 로지스틱 회귀 스파르타코딩클럽의 강의를 참고하여 정리하였습니다 로지스틱회귀(logistic regression) 확률모델의 하나로 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 통계 기법 선형회귀와의 공통점 회귀분석의 목표와 동일하게 종속변수와 독립변수간의 관계를 구체적인 함수로 나타내어 예측모델에 사용 독립변수의 선형결합으로 종속변수를 설명함 선형회귀와의 차이점 로지스틱회귀는 종속변수(Y)가 범주형 데이터를 대상으로하여 입력데이터가 주어졌을 때 해당 데이터의 결과가 특정분류로 나누어져 분류기법으로 적용됨(classification) 이항형인 데이터에 적용하였을 때 종속변수 y의 결과가 범위[0,1]로 제한됨 종속변수가 이진적이기 때문에 조건부활률의 분포가 정규분포가 아닌 이항분포를 따름 특징 이항형 .. 2024. 1. 31. [강의노트] Python - 머신러닝 - 선형회귀-실습(2) https://kime2pan.tistory.com/96 [강의노트] Python - 머신러닝 - 선형회귀-실습(1) 스파르타코딩클럽의 강의를 참고하여 정리하였습니다 사용데이터: seaborn시각화 라이브러리 기본 데이터 셋, tips 목표1. 주문의 전체 금액(total_bill)-> X 을 통해 받을 팁(tip)->y 예상하기 순서: 데이 kime2pan.tistory.com 목표3. 주문의 전체 금액(total_bill)-> x1 , ???-> x2, x1과 x2를 통해 받을 팁(tip)->y 예상하기 tip을 예상할 수 있는 요소는 total_bill과 무엇을 분석해야 할까 ? -> barplot을 통해 예측하기 순서: 데이터획득 > 상관관계 확인하기 / 범주형 데이터 encoding > 선형회귀.. 2024. 1. 30. [강의노트] Python - 머신러닝 - 선형회귀-실습(1) 스파르타코딩클럽의 강의를 참고하여 정리하였습니다 사용데이터: seaborn시각화 라이브러리 기본 데이터 셋, tips 목표1. 주문의 전체 금액(total_bill)-> X 을 통해 받을 팁(tip)->y 예상하기 순서: 데이터획득 > 선형회귀 훈련하기 > 평가 방법: 단순선형회귀 💡순서 라이브러리 불러오기 > 데이터불러오기 > 선형회귀 훈련하기(산점도 그려보기, 가중치/편행 계산, 회귀식 계산, 예측값 계산, 회귀식/산점도 확인) > 평가하기(MES,z-score) 0. 라이브러리 불러오기 import sklearn import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns 1. 데이터불러오기 t.. 2024. 1. 30. [강의노트] Python - 머신러닝 - 선형회귀 스파르타코딩클럽의 강의를 참고하여 정리하였습니다 회귀분석(regression analysis) 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법 (wikipedia) 선형회귀 1. 단순회귀분석(simple regression analysis) : 하나의 종속변수(Y)와 하나의 독립변수(X) 사이의 관계를 분석할 경우 2. 다중회귀분석(multiple regression analysis) : 하나의 종속변수와 여러 독립변수 사이의 관계를 규정함 선형회귀(Linear Regression) 종속변수Y와 한개 이상의 독립변수X와의 선형 상관관계를 모델링 하는 회귀분석 선형 예측 함수를 사용해 회귀식을 모델링하며, 알려지지 않은 파라미터는 데이터로부터 추정한다 -> 선형.. 2024. 1. 30. 이전 1 2 3 다음