학습노트/통계28 [통계학습] 통계적 머신러닝(2) 범위 : 6.2 트리 모델 ~ 6.3 배깅과 랜덤 포레스트 6.2 트리모델주요용어재귀분활(recursive partitioning) : 마지막 분활 영역에 해당하는 출력이 최대한 비슷한 결과를 보이도록 데이터를 반복적으로 분할하는 것분할값 : 분할값을 기준으로 예측변수를 그 값보다 작은 영역과 큰 영역으로 나눈다마디(노드) : 의사결정 트리와 같은 가지치기 형태로 구성괸 규칙들의 집합에서, 노드는 분할 규칙의 시각적인 표시잎(leaf) : if-then 규칙의 가장 마지막 부분, 트리의 마지막 가지부분으로 트리모델에서 잎 노드는 어떤 레코드에 적용할 최종적인 분류 규칙을 의미손실(loss) : 분류하는 과정에서 발생하는 오분류의 수, 손실이 클수록 불순도가 높다고 할 수 있다불순도 : 데이터를 분할한 .. 2024. 6. 24. 분류(3) ~ 통계적 머신러닝(1) 5.5 분균형 데이터 다루기불균형 데이터에서 예측 모델링 성능을 향상시킬 수 있는 방법과소표본 : 분류모델에서 개수가 많은 클래스 데이터 중 일부 소수만을 사용하는 것 (유의어 : 다운샘플)과잉표본 : 분류모겔에서 희귀 클래스 데이터를 중복하여, 필요하면 부트스트랩해서 사용하는 것(유의어 : 업샘플)상향 , 하양 가중치 : 모델에서 희귀 혹은 다수 클래스에 높은/낮은 가치를 주는 것데이터 생성: 부트스트랩과 비슷하게 다시 샘플링한 레코드를 빼고 원래 원본과 살짝 다르게 데이터를 생성하는 것z점수 : 표준화 결과K : 최근접 이웃 알고리즘에서 이웃들의 개수주요개념데이터의 심각한 불균형( 즉, 관심있는 결과의 데이터가 희박할 때)은 분류 알고리즘에서 문제가 될 수 있다불균형 데이터를 다루는 한가지 방법은 다.. 2024. 6. 17. [통계학습] 분류 (2) 5.3.3 일반화선형모형 ~ 5.4 분류 모델 평가하기5.3.6 선형회귀와 로지스틱 회귀의 유사점과 차이점 모델을 피팅하는 방식(최소제곱법을 사용할 수 없다)모델에서 잔차의 측징과 분석 1) 모델피팅보통 선형회귀에서는 모델피팅을 위해 최소제곱법을 사용그러나 로지스틱 회귀에서는 최대우도추정(maximum likelihood estimation : MLE) 사용하여 모델일 피팅> 우리가 보고 있는 데이터를 생성했을 가능성이 가장 큰 모델을 찾는 것로지스틱 회귀에서 종속변수는 0과 1이 아니라 응답이 1인 로즈 오즈비의 추정치이다> MLE는 예쌍 로그 오즈비가 관찰된 결과를 가장 잘 설명하는 모델을 찾는 것 최소제곱법 : 회귀모형과 데이터간 차이(잔차)의제곱을 계산하여 최솟값이 되는 파라미터를 구하는 것 주요.. 2024. 6. 12. [통계학습] 분류 (1) 범위 : 5.1 나이브베이즈 ~ 5.3.2 로지스틱 회귀와 GLM5.1 나이브베이즈용어정리조건부확률 : 여떤 사건(Y=i)이 주어졌을 때, 해당 사건 (X=i)을 관찰할 확률 P(X | Y)사후확률 : 예측 정보를 통합한 후 결과의 확률 (사전확률에서는 예측변수에 대한 정보를 고려하지 않는다)나이브베이즈 : 주어진 결과에 대해 예측변숫값을 관찰할 확률을 사용하여, 예측변수가 주어졌을때 결과를 관찰할 확률을 사용하다 (주로 범주형)예측변수의 값이 동일한 모든 레코드를 찾는다해당 레코드들이 가장 많이 속한 클래스를 정한다새 레코드에 해당 클레스를 지정한다 베이즈 정리 : 새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 대한 신뢰도를 갱신해가는 방법나이브 베이지 : 사전확률에 추가정보의 확률을 곱해주는 .. 2024. 6. 10. [통계학습] 회귀와 예측(2) 4.5 회귀방정식 해석변수 간 상관 : 변수들이 같은 방향으로 움직이려는 경향을 가짐. 예측변수(독립변수)끼리 서로 높은 상관성을 가질 때는 개별 계수를 해석하는 것이 어렵다 -> 한 변수가 올라갈 때 다른 변수도 올라가고 그 반대 경우에도 동일다중공산성 : 예측변수들이 완벽하거나 거의 완벽에 가까운 상관성을 갖는다고 할 때, 회귀는 불안정하며 계산이 불가능하다교란변수 : 중요한 예측변수지만 회귀방정식에 누락되어 결과를 잘못되게 이끄는 변수주효과 : 다른 변수들과 독립된, 하나의 예측변수와 결과변수 사이의 관계상호작용 : 둘 이상의 예측변수와 응답변수 사이의 상호 의존적인 관계 4.5.2 다중공산성오류로 인해 한 변수가 여러 번 포함된 경우요인변수(범주형)로부터 P-1개가 아닌 P개의 가변수가 만들어진 .. 2024. 6. 5. [통계학습] 회귀와 예측(1) 범위 : 4.1 단순선형회귀 ~ 4.4 회귀에서의 요인변수 4.1 단순성형회귀응답변수(반응변수) : 예측하고자 하는 변수(Y, 종속변수)독립변수 : 응답치를 예측하기 위해 사용되는 변수( X, 예측변수,픽처속성)레코드 : 한 특정 경우게 대한 입력과 출력을 답고 있는 벡터( 행)절편 : 회귀직선의 절편, X축이 0일때 Y값 -> 회귀식의 b0회귀계수(regression coefficient) : 회귀직선의 기울기 -> 회귀식의 b1적합값 (fitted value) : 회귀직선으로 부터 얻은 추정치(예측값)잔차(residual) : 관측값과 적합값의 차이 (오차)최소제곱 : 잔차의 제곱합을 최소화하여 회귀를 피팅하는 방법lm (limear model) :선형모델 4.1.1 회귀식단순선형회귀를 통해 X가 얼.. 2024. 6. 3. 이전 1 2 3 4 5 다음