본문 바로가기

학습노트/통계28

[통계 학습] 칸 아카데미 오답노트5 이전 복습   변이성 : 추정치가 표본에 따라 얼마나 변화하는지 알 수 있음. 많이 퍼져있을 수록 변이성이 강함편향성 : 표본분포의 평균이 모수의 값과 동일할 때 통계량은 모수의 분편추정량> 통계 B는 평균4아리 있기 때문에 편향적이고 모수를 과소 평가한다   신뢰도 : 어떤 방법이 장기적으로 성곡하는 비율로, 이런 형태의 구간이 관심있는 모수를 얼마나 자주 포착하는지 나타냄90%의 신뢰도에 대한 정확한 해석조사요원이 반복하여 분리된 독립적 표본으로부버 20개의 구간을 만든다면, 실제 비율을 얻기위한 18개의 구간을 예산할 수 있다이 과정을 여러 번 반복한다면, 생성된 구간들의 약 90%는 후보자를 지지하는 유권자의 실제 비율을 포착가능 95%의 신뢰구간으로 (110,120)구간 (110,120)안에 실.. 2024. 8. 3.
통계 학습] 칸 아카데미 오답노트4 7,8단원 복습조건부확률 및 순열 계산 부족..ㅠ,ㅠ 9~10단원 고정된 시행횟수가 있고 구해야 하는 변수는 성공횟수 고정된 시행횟수가 없고 구해야 하는 변수는 시행한 횟수 처음 방문한 사람들에 대한 확률:계정을생성함 = 0.15계정을생성하지않음 = 0.85(0.15)(0.85)^5 6번째 이후 슛을 처음 성공시킬 확률 = 6번째까지 슛을 실패할 확률바코드를 잘못 읽기 전까지 바코드를 10개 초과해서 읽을 확률 = 앞의 10개이 바코드를 올바르게 읽을 확률전화주문 전까지 받은 주문건수가 5건 미만일 확률 = 1- 앞의 주문건수 4건이 모두 전화주문이 아닐 확률 = 앞의 4건중 1개는 전화주문이어야 함 상대도수 = 절대빈도수 / 표본공간의 크기새로운 고객수가 1일때 상대도수 = 153/400 = 0.382.. 2024. 7. 31.
통계 학습] 칸 아카데미 오답노트3 \란 집합 간의 차이로 X\Y란 X속에 속한 원소 중에 Y에 는 속하지 않은 원소 F의 확률 = 12/52S의 확률 = 1/4S그리고 F의 확률 = 스페이스카드에 그림카드가 나올 확률 = 3/52 P(F)+P(S)-P(S&F)= 11/26 P(자전거로 등교| 교통 안전 도우미가 있음)= P(자전거로 등교를 하며 교통 안전 도우미가 있음) / P(교통안전 도우미가 있음)= 0.48 / 0.12  P( 빨간책 | 미스터리 소설 ) = 5 / 7P( 빨간책 ) = 5 / 7P(A|B) = P(A) 의 정답도 맞추는 거였음..오답...  P( 미스터리 소설  | 빨간책 ) = 5 / 7P( 미스터리 소설 ) = 7 / 10P(A : 빨간) = 7 /10P(B : 판타지) = 3 / 10독립사건 = P(A|B) .. 2024. 7. 19.
통계 학습] 칸 아카데미 오답노트2 1. Z-score1) z-score :평균으로부터 표준편차의 몇배만큼 떨어져 있는지를 나타낸다Z = ( 자료값 - 평균 ) / 표준편차 2) z-score의 특징양의 z점수는 측정값이 평균보다 높다음의 z점수는 측정값이 평균보다 낮다0에 가까운z점수는 측정값이 평균과 비슷하다z값이 3또는 -3을 벗어나면 흔하지 않은 값임을 의마한다 표준편차의 3배 만큼 떨어진 수3) 정규분포의 특징대칭인 종 모양평균과 중앙값은 같고 중앙에 위치자료의 약 68%는 평균으로부터 표준편차의 1배 내에 위치자료의 약 95%는 평균으로부터 표준편차의 2배 내에 위치자료의 약 99.7%는 평균으로부터 표준편차의 3배 내에 위치ㅊ 4) 표준정규분포표 : 주어진 z-score보다 낮은 값들의 비율 방법1) 표준 정규분포표에 따라 z.. 2024. 7. 12.
[통계 학습] 칸 아카데미 오답노트1 1. 범주형 자료의 추세1) 조건부확률요세미티 국립공원에 있는 암벽등반 명소에서 임의로  200명의 암벽등반가를 뽑아 표본을 추출하고, 암벽등반 사고를 당한 적이 있는지와 암벽등반에 관련된 자격증이 있는지 설문하였습니다. 결과는 다음과 같습니다.요세미티 국립공원에서 등반 파트너를 찾고 있는데 게릭, 몰리, 라이언을 만났다고 합시다. 게릭은 막 심한 등반 사고를 당했습니다. 몰리는 안전장비에 암벽등반 자격증을 걸고 있고, 라이언에 대해서는 아무것도 모릅니다.  P(게릭에게 자격증이 있음) = 2(사고를 당했는데 자격증이 있는 사람들의 계수) / 8(사고를 당한 사람들의 계수) = 0.25몰리가 사고를 당한적이 없을 확률 = 138(자격증이 있는데 사고를 당한적 없는 사람들의 계수) / 140(자격증이 있는.. 2024. 7. 8.
[통계학습] 부스팅과 주성분 분석 범위 : 부스팅 ~ 주성분분석용어정리앙상블: 여러 모델들의 집합을 통해 예측 결과를 만들어 내는 것부스팅 : 연속된 라운드마다 잔차가 큰 레코들에가중치는 높여 일련의 모델들을 생성하는 일반기법에이다브스트 : 잔차에 따라 데이터의 가중치를 조절하는 부스팅의 초기 버전그레디언트 부스팅 : 비용함수를 최소화하는 방향으로 부스팅을 활용하는 좀 더 일반적인 형태확률적 그레이디언트 부스팅 : 각 라운드마다 레고드와 열을 제표본추출하는 것을 포함하는 부스팅의 가장 일반적인 형태정규화 : 비용함수에 모델의 파라미터 개수에 해당하는 벌점 항을 추가해 오버피팅을 피하는 방법하이퍼파라미터 : 알고리즘을 피팅하기 전에 미리 세팅을 해야 하는 파라미터1) 부스팅 알고리즘잘못 분류된 관측 데이터에 가중치 증가 > 현재 성능이 제.. 2024. 6. 25.