본문 바로가기

학습노트52

[학습노트] 통계2. 데이터와 표본분포 (1) 표본분포 표본통계량 : 더 큰 모집단에서 추출된 표본데이터들로부터 얻은 측정지표데이터분포 : 어떤 데이터 집합에서의 각 개별 값의 도수분포표표본분포 : 어려 표본들 혹은 재표본들로부터 얻은 표본통계량의 도수분포중심극한정리 : 표본크기가 커질수록 표본평균의 분포가 정규분포를 따르는 경향-> 추론을 위한 표본분포에(신뢰구간이나 가설검정을 계산하는데) t분포같은 정규근사 공식을 사용할 수 있게 함-> 표본평균의 분포표분오차(SE) : 여러 표본들로부터 얻은 표본통계량의 변량(분산, 표본분포의 변동성)-> 표본값들의 표준편차 s를 표본크기n의 제곱근으로 나눈 값-> 공식에 따라서 표분오차를 줄이기 위해선 n,표본의 크기를 키우면 된다-> cf. 표준편차 : 개별 표본들의 분산,  표본조사로 얻은 각 관측값과 표.. 2024. 4. 1.
[학습노트] 통계1. 탐색적 데이터 분석 위치추정 : 데이터의 대부분의 값이 어디에 있을까?(대표성) 평균 : 모든 값의 총합을 개수로 나눈 값가중평균 : 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값중앙값(중간값) : 데이터에서 가장 가운데 위치한 값백분위수 : 전체 데이처의 P%를 아래에 두는 값(= 분위수)가중 중앙값 : 데이터를 정렬한 후, 각 가중치 값을 위에서부터 더할 때, 총합의 중간이 위치하는 값절사평균 : 정해진 개수의 극단값을 제외한 나머지 값들의 평균로버스트하다 : 극단값들에 민감하지 않는다는 것을 의미(=저항성이 있다)특이값 : 대부분의 값과 매우 다른 데이터의 값 참고: https://dacon.io/en/competitions/official/235901/codeshare/5085import pandas as p.. 2024. 4. 1.
[자료노트] TOSS INSIGHT PO가 꼭 알아야 할 개념 Carring Capacity(한계수용능력) 출처 : https://youtu.be/tcrr2QiXt9M?feature=shared   월 활성 유저수(MAU)는 매달 유저수와 나가는 유저수에 따라서 결정된다TotalCustomers = New Customer Today & Lost Customer Today Customer의 정의목적 : TotalCustomers 을 정하기 위함 1. Active에 대한 정의95%이상의 visitor가 꼭 하는 활동page by page, repeatable,meaningful한 action2. Churn에 대한 정의얼마나 안써야 안오는 거라고 정의할까? -1일,4일상식적으로 이정도 안썼으면 loss할 것 같다를 정해야 함(변경불가)-> 예).. 2024. 3. 26.
[태블로] 시각화 기본 실습 스파르타코딩클럽의 강의를 참고하여 정리하였습니다 1. line plot 사용예시 유료 구독자 변화 추이 2022년 대비 2023년 상품 주문 판매량의 증가 추이 매일 얼마나 많은 유저들이 우리 서비스를 이용할까 실습 에어비앤비 호스트 수 추이 연도별(2008-2016년) 에어비앤비 호스트 수 증가 추이 -> X : 연도(Host Since) -> Y : 호스트 수(Host Id) 📍 요구 사항 ✅ 열: Host Since(년) ✅ 행: 카운트(고유)(Host Id) ✅ 마크 레이블: 표시 ✅ 색상: 그래프의 색상을 자유롭게 변경해주세요. ✅ 경로: 라인 패턴 유형을 2번째 선(--)으로 변경해주세요실습 해석 2008년부터 지속적으로 증가하다가 2015년이후 하락함 2. bar plot 사용예시 이번달 가.. 2024. 2. 26.
[강의노트] Python - 머신러닝 - 예측모델링 프로세스 (1) 스파르타코딩클럽의 강의를 참고하여 정리하였습니다 예측모델링 프로세스 데이터 전처리 1. 이상치(outlier) 이상치: 보통 관측된 데이터 범위에서 많이 벗어난 아주 작은/큰 값 1-1. 이상치 발견 방법 1) ESD(extreme studentized deviation)을 이용한 이상치 발견 데이터가 정규분포를 따른다고 가정할 때, 평균에서 표준편차의 3배 이상 떨어진 값 모든 데이터가 정규분포를 따르지 않음(데이터 크기가 비대칭일때->log변환, 샘플 크기가 작을 때) import numpy as np mean = np.mean(data) std = np.std(data) upper_limit = mean + 3*std lower_limit = mean - 3*std 2) IQR(inter quant.. 2024. 1. 31.
[강의노트] Python - 머신러닝 - 로지스틱 회귀 - 실습(1) 사용데이터: Kaggle의 titanic train 데이터셋 목표 1. 탑승한 승객의 정보를 바탕으로 생존 유무를 예측하는 분류 문제 가설 1. 성별과 생존의 관계, 여성일 수록 생존확률이 높을 것이다 -> 여성은 모두 생존했고 남성은 모두 사망했다가설 2. 요금과 생존의 관계, 요금이 높은 고객일 수록 생존했을 것이다 -> 높은 요금운 모두 생존했고, 낮은 요금은 모두 사망했다가설 3. 요금/성별/좌석등급과 생존의 관계, 어릴수록 생존했을 것이다 방법: 로지스틱회귀 Y(종속변수): 사망(0), 생존(1) X(독립변수): 티켓등급, 성별, 요금 등 💡순서 라이브러리 &데이터불러오기 > 데이터 살펴보기(산점도 그려보기, 기초통계량 보기,엔코딩하기) > 선형회귀 훈련하기(가중치/편향 계산) > 평가하기(정확.. 2024. 1. 31.