1. 성향점수
1) 성향점수 : 관찰연구에서 두 그룹을 비교할 때, 각 그룹이 여러 특성에서 비슷하게 만들어 주는 도구로
e(x)를 통제하면, 곧 X를 통제할 때와 동일한 효과가 나타난다는 가정
성향점수가 종일한 상황에서 처치는 무작위 배정된 것과 동일 효과
2) 사용시기 : 새로운 교육 프로그램 및 프로덕트의 이벤트 효과를 추정하고자 할때
3) 계산방법
- 성향점수를 계산할 때 사용할 독립변수를 선택 : 처치에 영향을 미치는 모든 변수를 포함
- 성향점수 대신, 로지스틱 회귀분석 : 모델의 해석이 중요하고, 선형가정이 적저르 처지여부를 독립변수로 설명하는 모델을 생성하여 로짓함수로 활용
- 상향점수 매칭 : KNN알고리즘K-d Tree알고리즘
4) 성향점수의 직교화
- 선형회귀도 선향점수 추정과 매우 비슷하며, OLS는 성향점수 추정과 매우 비슷하게 처치 배정 매커니즘을 모델링
- 두 접근법 모두 단순히 처치를 직교화
- OLS는 선형회귀 분석을 사용하여 T(처치)를 모델링 하지만, 성향점수 추정값은 호지스틱 회귀분석을 사용하여 획득
5) 매칭추정량 :관측 가능한 실험 대상의 짝을 찾아 실험군과 대조군을 비교
그러나 다음과 같은 문제점
- 편향가능성
- 분산추정의 어려움
- KNN의 회의성
2. 역확률 가중치(IPW)
1) 역확률 가중치
: 개개인의 특정 처리를 받을 확률의 역수를 가중치로 부여하여
실질적으로 발생이 적은 처치 사례에 더 많은 가중치를 부여
즉, 실험군 속에서 처치 받을 확률이 낮다면, 해당 다상은 대조군과 매우 비슷해 보임
2) 역확률과 매칭
(1) 장점
- 처리와 통제 그룹 차이를 조정할 수 있으므로, 편향을 비교적 줄일 수 있음
- 임상 시험과 같은 실험적 연구 외, 관찰연구 에서도 인과관계 추정할 때 유용
(2) 단점
- 모델의존성
- 매우 작은 활률오 인한 가중치의 극단값 문제 (0.01의 확률로 처치가 발생하는 대상에게 100의 가중치 부여)
3) 역확률 가중치의 분산
- 처리 효과와 신뢰성을 평가하기 위한 방법
- 부트스트랩을통해 IPW추정값의 신뢰구간 계산
- 큰 가중치를 가진 다는 것 = 몇몇 실험 대상이 최종 추정값에 큰 영향을 미침 = 큰 영향을 주는 소수의 대상들이 분산 증가의 원인
- 성향점수가 높은 부분에 대조군의 실험 개상이 적거나, 성향점수가 낮은 부분에 실험군의 대상이 적은 부분 큰 가중치
- Y0|T=1 과 Y1|T=0을 추정할 대상이 작아져 결과의 노이즈 발생
4) 유사모집단
- e(x)가 낮은 영역군(발생이 적은)실험군은 가중치가 증가하고, 대조군은 감소
- e(x)가 낮높은 영역군(발생이 많은)실험군은 가중치가 감소하고, 대조군은 증가
- 이러한 보정을 통해 두 분포가 겹치면서 유사한 집단
- 가중치가 적용된 데이터에서 실험군과 대조군이 처치를 받거나 받지 않을 확률이 같아짐
- 관측되지 교란요인이 없다고 가정할 때, 처치 배경은 무작위인것 처럼 보이는 효과
[ 용어 ]
- 공변량 : 통계적 모델이나 분석에서 설명변수로 사용되는 변수로, 주로 종속변수와 관련된 것으로 예상되는 독립변수
- 불응 : 실험대상이 의도한 처치를 받지 못하는 것
- 긍정편향 : 사람이나 상황에 대해 긍정적으로 평가하는 인식
3. 이중 강건 추정
- 디자인기반 : 성향점수, 각 개체가 처리를 받을 확률을 추정
- 모델기반 : 회귀, 처지 및 공변량을 조건부로 설정하고 잠재적 결과에 대한 평태로 가정
장점
- 디자인 기반이 잘못되었다면, 결과 모델이 정확하다고 가정
- 결과모델이 잘못되었다면, 다지안기반이 정확하다고 가정
- 즉, 정확도를 높일 2번의 기회
4. 처치 모델링이 쉬운 경우
- 처치 받을 확률을 예측하기 쉬운 상황
- 특정 이벤트를 처치로 가정했을 때, 이벤트 참여 조건이 정의되어 있는 경우
- 데이터의 실제 곡률(곡선)을 알면 정확하게 모델링 할 수 있음
- 그러나, 데이터 생성과정을 알 수 없기 때문에 IPW(역확률)을 활용
5. 연속형 처치에서의 일반화 성향 점수
: 각 대상이 특정 처치를 받을 확률을 모델링 하는 것으로,
성향점수 가중치에서는 비모수적 방식으로 추정되며, T가 연속형일 때, 잠재적 결과Y는 무한적 존개
▶ 즉, 연속형 확률변수의 확률은 항생 0으로 P(T=t|X)를 추정할 수 없음
▶ 확률이 밀도 아래의 면적으로 표현되고 한 점의 면적은 항상 0이기 때문
1-1) 예제1
이진수가 아니라 처치의 강도나 수준이 연속적인 값을 가질 때(어떤 사람은 광고 1.4시간을 시청했고 등등)
일반화 성향점수는 각 사람이 특정 수준(광고 시청 시간)을 받을 확률을 모델링 함
광고 노출 시간(연속형 처치 변수)에 따른 소비자의 구매 행동(잠재적 결과)을 평가
▶ 각 소비자가 특정 시간 동안 광고에 노출될 확률을 추청
1-2) 방법
- 균형 맞추기 : 처치 수준에 따라 집단 간의 차이를 보정하며, 다른 요인들이 결과에 미치는 영향 최소화
- 인과 효과 추정 : 특정 처치 수준에서의 인과 효과 추정(광고 시청 시간이 구매 금액에 미치는 영향 추정)
▶ 핵심은 각 사람마다 나이, 이전 구매 이력 등 공변량으로 광고 노출 시간을 예측하는 모델을 생성
2-1) 예제2
은행 대출 금리(T)가 고객이 대출금을 상환하는 기간(Y)에 미치는 영향을 알고자 할때
(상식적으로 금리가 대출 상환기간에 미치는 영향은 음수)
2-2) 방법
- 조건부 밀도함수f(T|X)를 사용
- 처치를 정규분포에서 추출되었다고 가정 + 등분산 가정
- 조건부 정규분포의 매개변수인 평균과 표준편차를 추정
- 회귀분석에서 일반화 성향점수의 역수를 가중치로 사용하면 편향 보정 가능
- 확률밀도를 통한 가중치 안정화(필수)
[용어]
안정화 : F(t)에서 멀리 떨어진 포인트(평균에서 멀리 떨어진 점)에도 낮은 중요도를 부여
- 결과1 : 안정된 가중치는 훨씬 작아져 분산이 작아짐
- 결과2 :모델링 값이 낮고 낮은 포인트에 더 많은 중요도
[요약]
1) 매칭에서 성향점수와 IPW는 중요한 개념
실험 전, 실험 후 모두 적용 가능
직교화 : 처치를 잔차화, 공변향과 선형 독립인 새로운 공간으로 투영
IPW : 처치의 차원을 유지, 데이터를 처치 성향점수의 역수로 재조정
2) 역확률 가중치(IPW)는 평향을 보정하는 핵심 방법 중 하나이며, 처치를 모델링 한다
3) 이산형 처치일 경우, IPW 사용을 선호
4) 연속형 처치의 경우, IPW보다는 일반화 성향점수나, 처치 반응 등을 통해 추론하는 방법이 더 생산적
'학습노트 > 통계' 카테고리의 다른 글
[통계학습] 3장 인과추론 소개 (0) | 2024.09.18 |
---|---|
[통계학습] 1장 인과추론 소개 (0) | 2024.09.02 |
오답노트 (0) | 2024.08.19 |
[통계 학습] 칸 아카데미 오답노트6 (0) | 2024.08.12 |
[통계 학습] 칸 아카데미 오답노트5 (0) | 2024.08.03 |