본문 바로가기
카테고리 없음

[통계학습] 탐색적 데이터 분석(1)

by kime2 2024. 5. 8.

1.1 정형화된 데이터의 요소

수치형 : 숫자를 이용해 표현할 수 있는 데이터

- 연속형 : 일정범위 안에서 어떤 값이든 취할 수 있는 데이터

- 이산형 : 횟수와 같은 정수값만 취할 수 있는 데이터

범주형 : 가능한 범주 안의 값만을 취하는 데이터

- 이진형 : 두 개의 값만을 갖는 범주형 데이터

- 순서형 : 값들 사이에 분명한 순위가 있는 범주형 데이터

https://www.w3schools.com/sql/sql_datatypes.asp

https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#dtypes

 

🎈 데이터타입의 중요성 -> 용량 최적화

참고자료 : https://medium.com/daangn/varchar-vs-text-230a718a22a1

1.2 데이블 데이터

데이터 프레임 : 통계와 머신러닝 모델에서 가장 기본이 되는 테이블 형태의 데이터 구조

피처 : 일반적으로 테이블의 각 열이 하나의 피처를 의미

결과 : 데이터 과학 프로젝트의 목표는 대부분 어떤 결과를 예측 하는 것

레코드 : 일반적으로 테이블의 각 행은 하나의 레코드를 의미

https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

 

1.3 위치추정

평균: 모든 값의 총합을 개수로 나눈 값

가중평균: 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값

중간값 : 데이터에서 가장 가운데 위치한 값

백분위수 : 전체 데이터의 P%를 아래에 두는 값

가중 중간값 : 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 때, 총합의 중간이 위치하는 값

절사평균 : 정해진 개수의 극단값을 제외한 나머지 값들의 평균

로버스트하다 : 극단닶들에 민감하지 않다는 것을 의미(저항성있다)

*로버스트 통계 분석 -> 이상치/에러값으로 부터 영향을 크게 받지 않는 통계량

특잇값 : 대부분의 값과 매우 다른 데이터 값


🎈 조화평균으로 계산하는 F1-score(분류모델 평가 지표)

 

조화평균 : 역수에서 평균을 구한뒤 다시 역수를 취한 것으로

각 데이터의 가중치가 동일하기 때문에 비율의 평균을 계산하는 데 사용

(산술평균은 큰 데이터에 가중치가 부여되고, 기하평균은 작은 데이터에 가중치가 부여됨)

F1-score = Precision(정밀도)과 Recall(재현율)의 조화평균

-> Precision과 Recall이 0에 가까울수록 F1score도 동일하게 낮은 값이 나오기 하기 위함

*정밀도 : 모델이 True로 예측한 데이터 중 실제 True인 데이터(예측한 것중 정답의 비율)

*재현율 : 실제로 True인 데이터 중 모델이 True라고 인식한 데이터(찾아야 할 것 중 실제로 찾은 비율)

참고자료 : https://bhcboy100.medium.com/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EB%B6%84%EB%A5%98-%ED%8F%89%EA%B0%80%EC%A7%80%ED%91%9C-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0-%EC%A0%95%ED%99%95%EB%8F%84-%EC%A0%95%EB%B0%80%EB%8F%84-%EC%9E%AC%ED%98%84%EC%9C%A8-f1-%EC%8A%A4%EC%BD%94%EC%96%B4-6bf91535a01a

 

🎈 로버스트 통계 분석

이상치/에러값으로 부터 영향을 크게 받지 않는 통계량

 

 


1.4 변이(variability)추정

편차 : 관측값과 위치 추정값 사이의 차이(오차, 잔차)

분산 : 편균과 편차의 제곱한 값들의 합을 n-1로 나눈 값(n=데이터 개수)

표준편차 : 분산의 제곱근

평균절대편차 : 평균과의 편차의 절댓값의 평균(편차를 모두 더하면 0이 되므로 절댓값 사용)

중간값의 중위절대편차(MAD) : 중간값과의 편차의 절댓값의 중간값

범위 : 데이터의 최댓값과 최솟값의 차이

순서통계량 : 최소에서 최대까지 정렬된 데이터 값에 따른 계량형

백분위수(분위수) : 어떤 값들의 P퍼센트가 이 값 혹은 더 작은 값을 갖고, (100-p)퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 수

사분위범위(IQR) : 75번째 백분위수와 25번째 백분위수 사이의 차이

 

자유도, n-1

전제: 표본을 가지고 모집단을 추정

분산 수식에 n사용 : 모집단의 분산과 표준편차의 참값을 과평가(편향)

-> n-1사용을 통해 비편향 추정

-> 표준편차는 표본의 평균에 따른다는 제약조건을 갖기 때문에 n-1 사용