본문 바로가기
학습노트/Python

[강의노트] Python 분석 - 상관계수 실습

by kime2 2024. 1. 16.
스파르타코딩클럽의 강의를 참고하여 작성하였습니다.

 

 

실습주제: 상관계수 활용

 

분석가설

글루타치온이 당뇨병발생에 큰 영향을 줄 것이다.

 

1단계: 데이터 분석 기본 세팅하기

1) Pandas 사용 선언 하기

2) 데이터 가져오기 

3) 데이터 확인 및 표 읽기 

4) 공백란 제거하기

import pandas as pd
data = pd.read_table('/content/diabetes.csv',sep=',')
data.head()

print(data.isnull().sum())

 

데이터 공백 확인

 

2단계 데이터 분석하기

1) 상관계수 구하기

2) 결과확인하기

3) 상관계수 1인 요소 제거: 발병률에 대한 상관계수를 구하는 것이니 발병률에 대한 요소 빼기 

corr=data.corr(method='pearson')
corr=corr[corr.Outcome !=1] -- 당뇨별 발병과 상관계수가 1인 데이터 삭제
corr
삭제 전
삭제 후

3단계 시각화 하기

 

1) matplotlib 사용 선언하기

2) 그래프 그리기

3) 그래프로 사용한 부분만 남기기

4) 원하는 그래프로 변경 하기

import matplotlib.pyplot as plt
corr['Outcome'].plot.bar()

 

 

 

 

결론

당뇨병 발병과 글루타치온은 높은 상관관계를 보인다