본문 바로가기
학습노트/Python

[강의노트] Python - 머신러닝 - 로지스틱 회귀

by kime2 2024. 1. 31.
스파르타코딩클럽의 강의를 참고하여 정리하였습니다

 

로지스틱회귀(logistic regression)

확률모델의 하나로 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 통계 기법

 

선형회귀와의 공통점

  • 회귀분석의 목표와 동일하게 종속변수와 독립변수간의 관계를 구체적인 함수로 나타내어 예측모델에 사용
  • 독립변수의 선형결합으로 종속변수를 설명함

선형회귀와의 차이점

  • 로지스틱회귀는 종속변수(Y)가 범주형 데이터를 대상으로하여 입력데이터가 주어졌을 때 해당 데이터의 결과가 특정분류로 나누어져 분류기법으로 적용됨(classification)
  • 이항형인 데이터에 적용하였을 때 종속변수 y의 결과가 범위[0,1]로 제한됨
  • 종속변수가 이진적이기 때문에 조건부활률의 분포가 정규분포가 아닌 이항분포를 따름

특징

  • 이항형 로지스틱 회귀: 종속변수의 결과가 성공,실패와 같이 2개의 카테고리가 존재하며 2개의 카테고리는 0과 1로 분류되고 각 카테고리로 분류될 활률의 합은 1
  • 다항형 로지스틱 회귀: 종속형 변수가 맑음, 흐림,비와 같이 2개 이상의 카테고리로 분류

로지시틱 회귀 관련 개념

  • 오즈비: 성공확률이 실패확률에 비해 몇배 더 높은가
  • 로지스틱 함수: 독립변수 X가 부어졌을 때 종속변수가 1의 범주에 속할 확률

*출처: wikipida

로지시틱 회귀 Python 

 

로지스틱 회귀 클래스: sklearn.linear_model.LogisticRegresson

정확도: sklearn.linear_model.accuracy

f1-score: sklearn.linear_model.f1_score

 

 

분류평가지표 F1-Score

스파르타 코딩클럽

 

  1. 정밀도(precision): 모델이 양성 1로 예측한 결과 중 실제 양성의 비율(예측모델의 관점)
  2. 재현율(recall): 실제 값이 양성인 데이터 중 모델이 양성으로 예측한 비융(데이터 관점)
  3. f1-score: 정밀도와 재현율의 조화 평균
  4. 정확도(accuracy)