본문 바로가기

학습노트/통계28

[학습노트] 통계1. 탐색적 데이터 분석 위치추정 : 데이터의 대부분의 값이 어디에 있을까?(대표성) 평균 : 모든 값의 총합을 개수로 나눈 값가중평균 : 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값중앙값(중간값) : 데이터에서 가장 가운데 위치한 값백분위수 : 전체 데이처의 P%를 아래에 두는 값(= 분위수)가중 중앙값 : 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 때, 총합의 중간이 위치하는 값절사평균 : 정해진 개수의 극단값을 제외한 나머지 값들의 평균로버스트하다 : 극단값들에 민감하지 않는다는 것을 의미(=저항성이 있다)특이값 : 대부분의 값과 매우 다른 데이터의 값 참고: https://dacon.io/en/competitions/official/235901/codeshare/5085import pandas as p.. 2024. 4. 1.
[강의노트] 통계 - 통계적 가설검정, p-value 스파르타코딩클럽의 강의와 Kmooc/공돌이 수학정리노트를 참고하여 작성하였습니다1. 통계적 가설검정목적: 주어진 자료가 특정 가설을 충분히 뒷받침하는지 여부를 결정하는 통계쩍 추론 방법 2. 검정가설의 절차귀무가설 검증과정귀무가설 가정 -> 실험 수행 -> 귀무가설로는 결과 해석 불가 -> 귀무가설 기각 -> 대립가설 채택귀무가설: 현 상태에 대한 잠정적 가정(새로울 게 없다 -> 목적: 기각하고 싶음)대립가설: 우리가 알고 싶은 것(새로운 것이 있다)귀무가설이 참이라면 이런 극단적인 값을 가지는 통계량을 구하기 힘들다  -> 귀무가설 기각1) 귀무가설을 기각한다(대립가설이 참이기 때문에 귀무가설이 참이라고 할 수 없다)2) 대립가설이 참이라고 말할 충분한 증거가 없다(귀무가설을 기각할 수 없다)귀무가설.. 2024. 1. 22.
[강의노트] 통계 - 검정통계량, ANOVA 스파르타코딩클럽의 강의와 Kmooc/공돌이 수학정리노트를 참고하여 작성하였습니다https://angeloyeo.github.io/2020/02/29/ANOVA.html F-value의 의미와 분산분석 - 공돌이의 수학정리노트 (Angelo's Math Notes) angeloyeo.github.io 1. ANOVA(anlysis od variance 분산분석)*검정통계량: 통계적 가설의 진위여부를 검정하기 위해 표본으로 부터 계산하는 통계량(예: t-test,anova..)의미: 여러 집단의 평균이 다르다고 볼 수 있는지 알아보는 테스트 by 분산이용한 평균 비교-> 각 집단의 평균은 조금씩 다를 수 밖에 없는데, 그 차이가 유의미하게 큰지 확인하기 위해 분산 이용차이/불확실도(t-test와 의미는 동일.. 2024. 1. 22.
[강의노트] 통계 - 검정통계량, t-value 스파르타코딩클럽의 강의와 Kmooc/공돌이 수학정리노트를 참고하여 작성하였습니다+ 참고: https://angeloyeo.github.io/2021/01/05/confidence_interval.html 신뢰 구간의 의미 - 공돌이의 수학정리노트 (Angelo's Math Notes) angeloyeo.github.io0. 평균1)  평균을 망치는 요소(1) 왜도: skewness특장한 방향으로 데이터가 쏠려있는 것(보통 꼬리를 당긴 것 처럼 생겼다)보통을 그래프를 통해 보이며, 왜도가 있을 경우 평균이 전체 데이터를 대표하지 못함(2) 이상치: outlier다른 관측치와 유의하게 다른 데이터유의하다는 것의 의미가 다르지만 보통 소수의 데이터가 평균에 크게 영향을 주기 때문에 평균을 구할 때 제거하거나 .. 2024. 1. 19.