본문 바로가기
학습노트/Python

[강의노트] Python 분석 - 상관계수(1)

by kime2 2024. 1. 14.
스파르타코딩클럽의 강의를 참고하여 작성하였습니다.

 

 

목표 나이-생종의 상관관계 분석하기 by Pandas

상관계수란!

 

 

1단계: 데이터 분석 기본 세팅하기

1) Pandas 사용 선언 하기

2) 데이터 가져오기

3) 데이터 확인 및 표 읽기

4) 공백란 제거하기

#1) pandas사용하기
import pandas as pd
#2) 데이터 가져오기 -> '파일경로'
titanic = pd.read_table('/content/train.csv',sep=',')

#3) 데이터 확인 및 표읽기 -> 아무표시 없을 경우 5중
titanic.head()

#4) 공백란 제거하기
print(titanic.isnull().sum()) #-> 공백데이터확인 
titanic = titanic.dropna() #->공백제거하기

 

데이터 내용
공백란 제거 전 공백란 제거 후

 

2단계 데이터 분석하기

 

1) 상관계수 구하기

2) 결과확인하기

3) 상관계수 1인 요소 제거: 생존률에 대한 상관계수를 구하는 것이니 생존률에 대한 요소 빼기 

#1) 상관계수 구하기
corr=titanic.corr(method='pearson')
#2) 결과 확인하기
corr
#3)상관계수가 1인 요소 제거
corr=corr[corr.Survived !=1] #상관계수가 1이 아닌것만 corr변수에 저장
처리 전 처리 후

 

3단계 시각화 하기

 

1) matplotlib 사용 선언하기

2) 그래프 그리기

3) 그래프로 사용한 부분만 남기기

4) 원하는 그래프로 변경 하기

#1) matplotlib 사용 선언하기
import matplotlib.pyplot as plt
#2) 그래프 그리기
corr.plot()
#3) 그래프로 나타낼 열 지정
corr['Survived'].plot()
#4) (Survived컬럼에서)필요없는 행(passengerId) 삭제-> 생존과 상관없으니까
corr = corr.drop(['PassengerId'],axis='rows') 
corr['Survived'].plot()
#4-1)원하는 그래프 변경하기 -> 막대그래프
corr['Survived'].plot.bar()
plt.xticks(rotation=45) #x축 레이블 45도 회전하기
그래프 가공 전 그래프 가공 후
passengerid열 삭제 전 삭제 후

 

막대그래프 ver

 

가정: 나이와 생존은 높은 상관관계를 보일 것이다

결론: 나이와 생존의 상관계수는 -0.077로 상관관계가 낮다