1.1 정형화된 데이터의 요소
수치형 : 숫자를 이용해 표현할 수 있는 데이터
- 연속형 : 일정범위 안에서 어떤 값이든 취할 수 있는 데이터
- 이산형 : 횟수와 같은 정수값만 취할 수 있는 데이터
범주형 : 가능한 범주 안의 값만을 취하는 데이터
- 이진형 : 두 개의 값만을 갖는 범주형 데이터
- 순서형 : 값들 사이에 분명한 순위가 있는 범주형 데이터
https://www.w3schools.com/sql/sql_datatypes.asp
https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#dtypes
🎈 데이터타입의 중요성 -> 용량 최적화
참고자료 : https://medium.com/daangn/varchar-vs-text-230a718a22a1
1.2 데이블 데이터
데이터 프레임 : 통계와 머신러닝 모델에서 가장 기본이 되는 테이블 형태의 데이터 구조
피처 : 일반적으로 테이블의 각 열이 하나의 피처를 의미
결과 : 데이터 과학 프로젝트의 목표는 대부분 어떤 결과를 예측 하는 것
레코드 : 일반적으로 테이블의 각 행은 하나의 레코드를 의미
https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html
1.3 위치추정
평균: 모든 값의 총합을 개수로 나눈 값
가중평균: 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값
중간값 : 데이터에서 가장 가운데 위치한 값
백분위수 : 전체 데이터의 P%를 아래에 두는 값
가중 중간값 : 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 때, 총합의 중간이 위치하는 값
절사평균 : 정해진 개수의 극단값을 제외한 나머지 값들의 평균
로버스트하다 : 극단닶들에 민감하지 않다는 것을 의미(저항성있다)
*로버스트 통계 분석 -> 이상치/에러값으로 부터 영향을 크게 받지 않는 통계량
특잇값 : 대부분의 값과 매우 다른 데이터 값
🎈 조화평균으로 계산하는 F1-score(분류모델 평가 지표)
조화평균 : 역수에서 평균을 구한뒤 다시 역수를 취한 것으로
각 데이터의 가중치가 동일하기 때문에 비율의 평균을 계산하는 데 사용
(산술평균은 큰 데이터에 가중치가 부여되고, 기하평균은 작은 데이터에 가중치가 부여됨)
F1-score = Precision(정밀도)과 Recall(재현율)의 조화평균
-> Precision과 Recall이 0에 가까울수록 F1score도 동일하게 낮은 값이 나오기 하기 위함
*정밀도 : 모델이 True로 예측한 데이터 중 실제 True인 데이터(예측한 것중 정답의 비율)
*재현율 : 실제로 True인 데이터 중 모델이 True라고 인식한 데이터(찾아야 할 것 중 실제로 찾은 비율)
🎈 로버스트 통계 분석
이상치/에러값으로 부터 영향을 크게 받지 않는 통계량
1.4 변이(variability)추정
편차 : 관측값과 위치 추정값 사이의 차이(오차, 잔차)
분산 : 편균과 편차의 제곱한 값들의 합을 n-1로 나눈 값(n=데이터 개수)
표준편차 : 분산의 제곱근
평균절대편차 : 평균과의 편차의 절댓값의 평균(편차를 모두 더하면 0이 되므로 절댓값 사용)
중간값의 중위절대편차(MAD) : 중간값과의 편차의 절댓값의 중간값
범위 : 데이터의 최댓값과 최솟값의 차이
순서통계량 : 최소에서 최대까지 정렬된 데이터 값에 따른 계량형
백분위수(분위수) : 어떤 값들의 P퍼센트가 이 값 혹은 더 작은 값을 갖고, (100-p)퍼센트가 이 값 혹은 더 큰 값을 갖도록 하는 수
사분위범위(IQR) : 75번째 백분위수와 25번째 백분위수 사이의 차이
자유도, n-1
전제: 표본을 가지고 모집단을 추정
분산 수식에 n사용 : 모집단의 분산과 표준편차의 참값을 과평가(편향)
-> n-1사용을 통해 비편향 추정
-> 표준편차는 표본의 평균에 따른다는 제약조건을 갖기 때문에 n-1 사용