본문 바로가기
학습노트/통계

[통계학습] 5장 성향점수

by kime2 2024. 10. 7.

1. 성향점수

1) 성향점수 : 관찰연구에서 두 그룹을 비교할 때, 각 그룹이 여러 특성에서 비슷하게 만들어 주는 도구로

                e(x)를 통제하면, 곧 X를 통제할 때와 동일한 효과가 나타난다는 가정

성향점수가 종일한 상황에서 처치는 무작위 배정된 것과 동일 효과

 

2) 사용시기 : 새로운 교육 프로그램 및 프로덕트의 이벤트 효과를 추정하고자 할때

 

3) 계산방법 

  • 성향점수를 계산할 때 사용할 독립변수를 선택 : 처치에 영향을 미치는 모든 변수를 포함
  • 성향점수 대신, 로지스틱 회귀분석 : 모델의 해석이 중요하고, 선형가정이 적저르 처지여부를 독립변수로 설명하는 모델을 생성하여 로짓함수로 활용
  • 상향점수 매칭 : KNN알고리즘K-d Tree알고리즘

4) 성향점수의 직교화

  • 선형회귀도 선향점수 추정과 매우 비슷하며, OLS는 성향점수 추정과 매우 비슷하게 처치 배정 매커니즘을 모델링
  • 두 접근법 모두 단순히 처치를 직교화
  • OLS는 선형회귀 분석을 사용하여 T(처치)를 모델링 하지만, 성향점수 추정값은 호지스틱 회귀분석을 사용하여 획득

5) 매칭추정량 :관측 가능한 실험 대상의 짝을 찾아 실험군과 대조군을 비교

그러나 다음과 같은 문제점

  • 편향가능성
  • 분산추정의 어려움
  • KNN의 회의성

2. 역확률 가중치(IPW)

1) 역확률 가중치

: 개개인의 특정 처리를 받을 확률의 역수를 가중치로 부여하여

실질적으로 발생이 적은 처치 사례에 더 많은 가중치를 부여

즉, 실험군 속에서 처치 받을 확률이 낮다면, 해당 다상은 대조군과 매우 비슷해 보임

 

2) 역확률과 매칭 

(1) 장점

  • 처리와 통제 그룹 차이를 조정할 수 있으므로, 편향을 비교적 줄일 수 있음
  • 임상 시험과 같은 실험적 연구 외, 관찰연구 에서도 인과관계 추정할 때 유용

(2) 단점

  • 모델의존성
  • 매우 작은 활률오 인한 가중치의 극단값 문제 (0.01의 확률로 처치가 발생하는 대상에게 100의 가중치 부여)

3) 역확률 가중치의 분산

  • 처리 효과와 신뢰성을 평가하기 위한 방법
  • 부트스트랩을통해 IPW추정값의 신뢰구간 계산
  • 큰 가중치를 가진 다는 것 = 몇몇 실험 대상이 최종 추정값에 큰 영향을 미침 = 큰 영향을 주는 소수의 대상들이 분산 증가의 원인
  • 성향점수가 높은 부분에 대조군의 실험 개상이 적거나, 성향점수가 낮은 부분에 실험군의 대상이 적은 부분 큰 가중치
  • Y0|T=1 과 Y1|T=0을 추정할 대상이 작아져 결과의 노이즈 발생

4) 유사모집단

  • e(x)가 낮은 영역군(발생이 적은)실험군은 가중치가 증가하고, 대조군은 감소
  • e(x)가 낮높은 영역군(발생이 많은)실험군은 가중치가 감소하고, 대조군은 증가
  • 이러한 보정을 통해 두 분포가 겹치면서 유사한 집단
  • 가중치가 적용된 데이터에서 실험군과 대조군이 처치를 받거나 받지 않을 확률이 같아짐
  • 관측되지 교란요인이 없다고 가정할 때, 처치 배경은 무작위인것 처럼 보이는 효과

 

[ 용어 ]

  • 공변량 : 통계적 모델이나 분석에서 설명변수로 사용되는 변수로, 주로 종속변수와 관련된 것으로 예상되는 독립변수
  • 불응 : 실험대상이 의도한 처치를 받지 못하는 것
  • 긍정편향 : 사람이나 상황에 대해 긍정적으로 평가하는 인식

3. 이중 강건 추정

  • 디자인기반 : 성향점수, 각 개체가 처리를 받을 확률을 추정
  • 모델기반 : 회귀, 처지 및 공변량을 조건부로 설정하고 잠재적 결과에 대한 평태로 가정

장점

  • 디자인 기반이 잘못되었다면, 결과 모델이 정확하다고 가정
  • 결과모델이 잘못되었다면, 다지안기반이 정확하다고 가정
  • 즉, 정확도를 높일 2번의 기회

4. 처치 모델링이 쉬운 경우

  • 처치 받을 확률을 예측하기 쉬운 상황
  • 특정 이벤트를 처치로 가정했을 때, 이벤트 참여 조건이 정의되어 있는 경우
  • 데이터의 실제 곡률(곡선)을 알면 정확하게 모델링 할 수 있음
  • 그러나, 데이터 생성과정을 알 수 없기 때문에 IPW(역확률)을 활용

 

5. 연속형 처치에서의 일반화 성향 점수

: 각 대상이 특정 처치를 받을 확률을 모델링 하는 것으로, 

성향점수 가중치에서는 비모수적 방식으로 추정되며, T가 연속형일 때, 잠재적 결과Y는 무한적 존개

▶  즉, 연속형 확률변수의 확률은 항생 0으로 P(T=t|X)를 추정할 수 없음

▶ 확률이 밀도 아래의 면적으로 표현되고 한 점의 면적은 항상 0이기 때문

 

1-1) 예제1

이진수가 아니라 처치의 강도나 수준이 연속적인 값을 가질 때(어떤 사람은 광고 1.4시간을 시청했고 등등)

일반화 성향점수는 각 사람이 특정 수준(광고 시청 시간)을 받을 확률을 모델링 함

광고 노출 시간(연속형 처치 변수)에 따른 소비자의 구매 행동(잠재적 결과)을 평가

▶  각 소비자가 특정 시간 동안 광고에 노출될 확률을 추청

 

1-2) 방법

  • 균형 맞추기 : 처치 수준에 따라 집단 간의 차이를 보정하며, 다른 요인들이 결과에 미치는 영향 최소화
  • 인과 효과 추정 : 특정 처치 수준에서의 인과 효과 추정(광고 시청 시간이 구매 금액에 미치는 영향 추정)

▶ 핵심은 각 사람마다 나이, 이전 구매 이력 등 공변량으로 광고 노출 시간을 예측하는 모델을 생성

 

 

2-1) 예제2

은행 대출 금리(T)가 고객이 대출금을 상환하는 기간(Y)에 미치는 영향을 알고자 할때

(상식적으로 금리가 대출 상환기간에 미치는 영향은 음수)

 

2-2) 방법

  • 조건부 밀도함수f(T|X)를 사용
  • 처치를 정규분포에서 추출되었다고 가정 + 등분산 가정
  • 조건부 정규분포의 매개변수인 평균과 표준편차를 추정
  • 회귀분석에서 일반화 성향점수의 역수를 가중치로 사용하면 편향 보정 가능
  • 확률밀도를 통한 가중치 안정화(필수) 

[용어]

안정화 : F(t)에서 멀리 떨어진 포인트(평균에서 멀리 떨어진 점)에도 낮은 중요도를 부여

  • 결과1 : 안정된 가중치는 훨씬 작아져 분산이 작아짐
  • 결과2 :모델링 값이 낮고 낮은 포인트에 더 많은 중요도

 

[요약]

 

1) 매칭에서 성향점수와 IPW는 중요한 개념

실험 전, 실험 후 모두 적용 가능

직교화 : 처치를 잔차화, 공변향과 선형 독립인 새로운 공간으로 투영

IPW :  처치의 차원을 유지, 데이터를 처치 성향점수의 역수로 재조정

 

2) 역확률 가중치(IPW)는 평향을 보정하는 핵심 방법 중 하나이며, 처치를 모델링 한다

3) 이산형 처치일 경우, IPW 사용을 선호

4) 연속형 처치의 경우, IPW보다는 일반화 성향점수나, 처치 반응 등을 통해 추론하는 방법이 더 생산적