본문 바로가기

분류 전체보기206

[통계학습] 데이터와 표본분포(2) 범위 2.4 부트스트랩 ~ 2.8 스튜던트의 T분포2.4 부트스트랩모수의 표본분포를 추정하는 효과적인 방법으로 표본을 복원추출하여 통계량과 모델을 다시 계산하는 것-> 데이터나 표본통계량이 정규분포를 따를필요 없음-> 복원추출 장점: 원소가 뽑힐 확율을 그대로 유지하면서 큰 모집단 형성 가능부트스트랩 표본: 관측데이터 집합으로부터 얻은 복원추출재표본추출(재표집, 리샘플링) : 관측데이터로부터 반복해서 표본을 추출하는 과정(여러표본이 결합되어 비복원추출을 수행할 수 있는 순열과정을 포함)*부트스트랩은 항상 관측된 데이터로부터 복원추출 1) 부트스트랩 알고리즘샘플값을 하나 뽑아서 기록하고 다시 제자리에 놓는다n번 반복재표본추출된 값의 평균을 기록한다1~3간계를 R번 반복한다 *반복이 많을 수록 표준오차나 신.. 2024. 5. 14.
[통계학습] 데이터와 표본분포(1) 2.1 임의표본추출과 표본편향 표본 sample: 더 큰 데이터 집합으로부터 얻은 부분집합모집단 population :어떤 데이터 집합을 구성하는 전체 혹은 전체 집합n :모집단의 크기임의표본추출(임의표본, 랜덤표본추출) ramdom sampling:무작위로 표본을 추출하는 것층화표본추출(층화표집) stratified sampling :모집단을 층으로 나눈 뒤, 각 층에서 무작위로 표본을 추출하는 것계층: 공통된 특징을 가진 모집단의 동종 하위 그룹단순임의표본 : 모집단 층화 없이 임의표본추출로 얻은 표본편향 bias : 계통상의 오류표본편향 sample bias : 모집단을 잘못 대표하는 표본-> 첫번째 표본과 동일한 방식으로 추출된 다른 샘플에서도 모집단과 표본사이의 차이가 계속 유의미하게 큰 것복원.. 2024. 5. 13.
[통계학습] 탐색적 데이터 분석(2) 1.5 데이터분포 탐색하기데이터 분포를 탐색할 수 있는 시각화 그래프 : 상자그림(box plot),도수분포표,히스토그램, 밀도그림 1) 백분위수와 상자그림* 백분위수 : 크기가 있는 값들로 이뤄진 자료를 (일반적으로 작은 것부터)순서대로 나열했을 때 백분율로 나타낸 특정 위치의 값  tips['tip'].quantile([0.05,0.25,0.5,0.75,0.95])# tip에 대한 백분위수# 5% 1.44, 25%(Q1) 2, 50%(Q2) 2.9, 75%(Q3) 3.56, 95%(상위5%) 5.19# 백분위수를 boxplot으로 표현하기ax = (tips['tip']).plot.box()ax.set_ylabel('tip')# 약 6보다 크면 이상치 = 3.56+(3.56-2)*1.5 2) 도수분포표.. 2024. 5. 13.
[통계학습] 탐색적 데이터 분석(1) 1.1 정형화된 데이터의 요소수치형 : 숫자를 이용해 표현할 수 있는 데이터- 연속형 : 일정범위 안에서 어떤 값이든 취할 수 있는 데이터- 이산형 : 횟수와 같은 정수값만 취할 수 있는 데이터범주형 : 가능한 범주 안의 값만을 취하는 데이터- 이진형 : 두 개의 값만을 갖는 범주형 데이터- 순서형 : 값들 사이에 분명한 순위가 있는 범주형 데이터https://www.w3schools.com/sql/sql_datatypes.asphttps://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#dtypes 🎈 데이터타입의 중요성 -> 용량 최적화참고자료 : https://medium.com/daangn/varchar-vs-text-230a718a2.. 2024. 5. 8.
[학습노트] 통계2. 데이터와 표본분포 (1) 표본분포 표본통계량 : 더 큰 모집단에서 추출된 표본데이터들로부터 얻은 측정지표데이터분포 : 어떤 데이터 집합에서의 각 개별 값의 도수분포표표본분포 : 어려 표본들 혹은 재표본들로부터 얻은 표본통계량의 도수분포중심극한정리 : 표본크기가 커질수록 표본평균의 분포가 정규분포를 따르는 경향-> 추론을 위한 표본분포에(신뢰구간이나 가설검정을 계산하는데) t분포같은 정규근사 공식을 사용할 수 있게 함-> 표본평균의 분포표분오차(SE) : 여러 표본들로부터 얻은 표본통계량의 변량(분산, 표본분포의 변동성)-> 표본값들의 표준편차 s를 표본크기n의 제곱근으로 나눈 값-> 공식에 따라서 표분오차를 줄이기 위해선 n,표본의 크기를 키우면 된다-> cf. 표준편차 : 개별 표본들의 분산,  표본조사로 얻은 각 관측값과 표.. 2024. 4. 1.
[학습노트] 통계1. 탐색적 데이터 분석 위치추정 : 데이터의 대부분의 값이 어디에 있을까?(대표성) 평균 : 모든 값의 총합을 개수로 나눈 값가중평균 : 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값중앙값(중간값) : 데이터에서 가장 가운데 위치한 값백분위수 : 전체 데이처의 P%를 아래에 두는 값(= 분위수)가중 중앙값 : 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 때, 총합의 중간이 위치하는 값절사평균 : 정해진 개수의 극단값을 제외한 나머지 값들의 평균로버스트하다 : 극단값들에 민감하지 않는다는 것을 의미(=저항성이 있다)특이값 : 대부분의 값과 매우 다른 데이터의 값 참고: https://dacon.io/en/competitions/official/235901/codeshare/5085import pandas as p.. 2024. 4. 1.