스파르타코딩클럽의 강의를 참고하여 작성하였습니다.
목표 나이-생종의 상관관계 분석하기 by Pandas
상관계수란!
1단계: 데이터 분석 기본 세팅하기
1) Pandas 사용 선언 하기
2) 데이터 가져오기
3) 데이터 확인 및 표 읽기
4) 공백란 제거하기
#1) pandas사용하기
import pandas as pd
#2) 데이터 가져오기 -> '파일경로'
titanic = pd.read_table('/content/train.csv',sep=',')
#3) 데이터 확인 및 표읽기 -> 아무표시 없을 경우 5중
titanic.head()
#4) 공백란 제거하기
print(titanic.isnull().sum()) #-> 공백데이터확인
titanic = titanic.dropna() #->공백제거하기
데이터 내용 |
![]() |
공백란 제거 전 | 공백란 제거 후 |
![]() |
![]() |
2단계 데이터 분석하기
1) 상관계수 구하기
2) 결과확인하기
3) 상관계수 1인 요소 제거: 생존률에 대한 상관계수를 구하는 것이니 생존률에 대한 요소 빼기
#1) 상관계수 구하기
corr=titanic.corr(method='pearson')
#2) 결과 확인하기
corr
#3)상관계수가 1인 요소 제거
corr=corr[corr.Survived !=1] #상관계수가 1이 아닌것만 corr변수에 저장
처리 전 | 처리 후 |
![]() |
![]() |
3단계 시각화 하기
1) matplotlib 사용 선언하기
2) 그래프 그리기
3) 그래프로 사용한 부분만 남기기
4) 원하는 그래프로 변경 하기
#1) matplotlib 사용 선언하기
import matplotlib.pyplot as plt
#2) 그래프 그리기
corr.plot()
#3) 그래프로 나타낼 열 지정
corr['Survived'].plot()
#4) (Survived컬럼에서)필요없는 행(passengerId) 삭제-> 생존과 상관없으니까
corr = corr.drop(['PassengerId'],axis='rows')
corr['Survived'].plot()
#4-1)원하는 그래프 변경하기 -> 막대그래프
corr['Survived'].plot.bar()
plt.xticks(rotation=45) #x축 레이블 45도 회전하기
그래프 가공 전 | 그래프 가공 후 |
![]() |
![]() |
passengerid열 삭제 전 | 삭제 후 |
![]() |
![]() |
막대그래프 ver |
![]() |
가정: 나이와 생존은 높은 상관관계를 보일 것이다
결론: 나이와 생존의 상관계수는 -0.077로 상관관계가 낮다
'학습노트 > Python' 카테고리의 다른 글
[강의노트] Python - Pandas, matplotlib 활용1 (1) | 2024.01.17 |
---|---|
[강의노트] Python 분석 - 상관계수 실습 (0) | 2024.01.16 |
[강의노트] Python 분석- 상관계수(2), barplot (2) | 2024.01.14 |
[강의노트] Python - 기초문법(1) - 실습 (0) | 2024.01.06 |
[강의노트] Python - 기초문법(1) (1) | 2024.01.04 |