스파르타코딩클럽의 강의를 참고하여 작성하였습니다.
실습주제: 상관계수 활용
분석가설
글루타치온이 당뇨병발생에 큰 영향을 줄 것이다.
1단계: 데이터 분석 기본 세팅하기
1) Pandas 사용 선언 하기
2) 데이터 가져오기
3) 데이터 확인 및 표 읽기
4) 공백란 제거하기
import pandas as pd
data = pd.read_table('/content/diabetes.csv',sep=',')
data.head()
print(data.isnull().sum())
데이터 공백 확인 |
2단계 데이터 분석하기
1) 상관계수 구하기
2) 결과확인하기
3) 상관계수 1인 요소 제거: 발병률에 대한 상관계수를 구하는 것이니 발병률에 대한 요소 빼기
corr=data.corr(method='pearson')
corr=corr[corr.Outcome !=1] -- 당뇨별 발병과 상관계수가 1인 데이터 삭제
corr
삭제 전 |
삭제 후 |
3단계 시각화 하기
1) matplotlib 사용 선언하기
2) 그래프 그리기
3) 그래프로 사용한 부분만 남기기
4) 원하는 그래프로 변경 하기
import matplotlib.pyplot as plt
corr['Outcome'].plot.bar()
결론
당뇨병 발병과 글루타치온은 높은 상관관계를 보인다
'학습노트 > Python' 카테고리의 다른 글
[강의노트] Python - 데이터전처리: pandas(1) (1) | 2024.01.23 |
---|---|
[강의노트] Python - Pandas, matplotlib 활용1 (1) | 2024.01.17 |
[강의노트] Python 분석- 상관계수(2), barplot (2) | 2024.01.14 |
[강의노트] Python 분석 - 상관계수(1) (1) | 2024.01.14 |
[강의노트] Python - 기초문법(1) - 실습 (0) | 2024.01.06 |