학습노트/Python
[강의노트] Python 분석 - 상관계수 실습
kime2
2024. 1. 16. 16:02
스파르타코딩클럽의 강의를 참고하여 작성하였습니다.
실습주제: 상관계수 활용
분석가설
글루타치온이 당뇨병발생에 큰 영향을 줄 것이다.
1단계: 데이터 분석 기본 세팅하기
1) Pandas 사용 선언 하기
2) 데이터 가져오기
3) 데이터 확인 및 표 읽기
4) 공백란 제거하기
import pandas as pd
data = pd.read_table('/content/diabetes.csv',sep=',')
data.head()
print(data.isnull().sum())
데이터 공백 확인 |
![]() |
2단계 데이터 분석하기
1) 상관계수 구하기
2) 결과확인하기
3) 상관계수 1인 요소 제거: 발병률에 대한 상관계수를 구하는 것이니 발병률에 대한 요소 빼기
corr=data.corr(method='pearson')
corr=corr[corr.Outcome !=1] -- 당뇨별 발병과 상관계수가 1인 데이터 삭제
corr
삭제 전 |
![]() |
삭제 후 |
![]() |
3단계 시각화 하기
1) matplotlib 사용 선언하기
2) 그래프 그리기
3) 그래프로 사용한 부분만 남기기
4) 원하는 그래프로 변경 하기
import matplotlib.pyplot as plt
corr['Outcome'].plot.bar()
결론
당뇨병 발병과 글루타치온은 높은 상관관계를 보인다