본문 바로가기

학습노트52

[도서] 통계 101 X 데이터 분석 (1) 1. 통계학이란데이터 분석의 목적데이터를 요약하는 것대상을 설명하는 것기술통계 : 수집한 데이터를 정리하고 요약하는 방법확보한 데이터에만 집중하면서 데이터 자체의 성질을 이해하는 것을 목표로 함추론통계 : 수집한 데이터로부터 데이터의 발생원을 추정하는 방법추론통계의 방법 : 통계적추론, 가설검정 2. 모집단과 표본데이터 분석의 첫 단계는 분석 목적을 정하는 것이다분석의 목적과 알고자 하는 대상에 기초하여 직접 모집단을 설정모집단 : 통계학에서 알고자 하는 대상 전체모집단의 성질을 알 수 있다면 대상을 설명하거나 이해할 수 있고,미지의 데이터를 예측할 수 있다 Q. 어떻게 모집단의 성질을 알 수 있을까?A. 전수조사 but..시간과 비용.. 그렇다면 표본조사추론통계 : 모집단의 일부를 분석하여 모집단의 전.. 2024. 6. 13.
[통계학습] 분류 (2) 5.3.3 일반화선형모형 ~ 5.4 분류 모델 평가하기5.3.6 선형회귀와 로지스틱 회귀의 유사점과 차이점 모델을 피팅하는 방식(최소제곱법을 사용할 수 없다)모델에서 잔차의 측징과 분석 1) 모델피팅보통 선형회귀에서는 모델피팅을 위해 최소제곱법을 사용그러나 로지스틱 회귀에서는 최대우도추정(maximum likelihood estimation : MLE) 사용하여 모델일 피팅> 우리가 보고 있는 데이터를 생성했을 가능성이 가장 큰 모델을 찾는 것로지스틱 회귀에서 종속변수는 0과 1이 아니라 응답이 1인 로즈 오즈비의 추정치이다> MLE는 예쌍 로그 오즈비가 관찰된 결과를 가장 잘 설명하는 모델을 찾는 것 최소제곱법 : 회귀모형과 데이터간 차이(잔차)의제곱을 계산하여 최솟값이 되는 파라미터를 구하는 것 주요.. 2024. 6. 12.
[통계학습] 분류 (1) 범위 : 5.1 나이브베이즈 ~ 5.3.2 로지스틱 회귀와 GLM5.1 나이브베이즈용어정리조건부확률 : 여떤 사건(Y=i)이 주어졌을 때, 해당 사건 (X=i)을 관찰할 확률 P(X | Y)사후확률 : 예측 정보를 통합한 후 결과의 확률  (사전확률에서는 예측변수에 대한 정보를 고려하지 않는다)나이브베이즈 : 주어진 결과에 대해 예측변숫값을 관찰할 확률을 사용하여, 예측변수가 주어졌을때 결과를 관찰할 확률을 사용하다 (주로 범주형)예측변수의 값이 동일한 모든 레코드를 찾는다해당 레코드들이 가장 많이 속한 클래스를 정한다새 레코드에 해당 클레스를 지정한다 베이즈 정리 : 새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 대한 신뢰도를 갱신해가는 방법나이브 베이지 : 사전확률에 추가정보의 확률을 곱해주는 .. 2024. 6. 10.
[도서] 컨버티드 : 마음을 훔치는 데이터 분석의 기술 닐 호인의 컨버티드 책을 요약했습니다  누구의 마음을 훔칠 것인가? 모든 고객을 일회적으로 대하지 말것, 새로운 고객을 만나는게 어렵다는 핑계로 우리 상품에 조금이라도 관심을 보이는 사람을 처음부터 포기하지 말것! 그러나 모든 사람의 가치가 동일한가? (당신은 모든 사람과 친한가요?)100명의 고객을 보아도 회사에 매출을 올려주는 매출액을 기준으로 보면회사가 평가하는 사람의 가치는 모두 다르다 (데이터로) 회사의 충성고객을 찾아라누가 우리와 (언제까지) 함께할 고객인지 알 수 있을까 ?고객의 고객생애가치를 계산해라 : Customer Lifetime Values 1. 필요한 데이터 : 거래날짜, 금액(매출액보다는 영업이익), 식별 아이디수집기간은 평균 구매주기*6 또는 24개월 중 더 긴쪽예를들어 36개.. 2024. 6. 9.
[도서] 수학보다 데이터 문해력 정성규 교수님의수학보다 데이터 문해력 발췌 통계적 가설검정의 딜레마 좋은 가설검정의 방법은 오류 발생률이 낮은 것을 선택하는 것귀무가설 기각 > 1종오류 : 귀무가설이 사실인데 대립가설을 선택하는 오류귀무가설 채택 > 2종 오류 : 대립가설이 사실인데 귀무가설을 선택하는 오류 두 오류는 하나를 얻으려면 다른 하나를 포기해야 하는 트레이드 오프 관계1종 오류는 귀무가설이 사실인 차원에서만 존재하고2종오류는 귀무가설이 거짓인 차원에서만 존재한다 그렇다면, 두 오류중 더 문제가 되는 것은?첫번째 오류가 더 충격이 큼2종 오류의 경우 원래 잘못 알고 있던(귀무가설)을 계속 믿는 것인데1종 오류의 경우 원래 알고 있는게 사실인데 잘못된 선택을 하는것 > 더 악화 해결책(이라기 보다는 대안) 첫번째 오류 발생률을 .. 2024. 6. 7.
[통계학습] 회귀와 예측(2) 4.5 회귀방정식 해석변수 간 상관 : 변수들이 같은 방향으로 움직이려는 경향을 가짐. 예측변수(독립변수)끼리 서로 높은 상관성을 가질 때는 개별 계수를 해석하는 것이 어렵다 -> 한 변수가 올라갈 때 다른 변수도 올라가고 그 반대 경우에도 동일다중공산성 : 예측변수들이 완벽하거나 거의 완벽에 가까운 상관성을 갖는다고 할 때, 회귀는 불안정하며 계산이 불가능하다교란변수 : 중요한 예측변수지만 회귀방정식에 누락되어 결과를 잘못되게 이끄는 변수주효과 : 다른 변수들과 독립된, 하나의 예측변수와 결과변수 사이의 관계상호작용 : 둘 이상의 예측변수와 응답변수 사이의 상호 의존적인 관계 4.5.2 다중공산성오류로 인해 한 변수가 여러 번 포함된 경우요인변수(범주형)로부터 P-1개가 아닌 P개의 가변수가 만들어진 .. 2024. 6. 5.