인과 그래프(DAG:directed acyclic graph)
: 연관관계는 인과관계가 아닌 이유를 설명하는 도구, 비순환 + 비가역적 특징
- DAG에서 가장 중요한 정보는 그래프 안에 없을 수 있다는 사실
▶ 한 변수에서 다른 변수로 연결되는 엣지가 없다는 것은 두 변수 사이에 직접적인 인과 관계가 없다고 가정
Q. 컨설팅을 하면 앞으로의 수익이 좋아질까? : 컨설턴트 고용과 회사 실적과의 인과관계 알기
영향1. 컨설팅 ▶ 이후 6개월 수익
영향2. 이전 6개월 수익 ▶ 컨설팅 ▶ 이후 6개월 수익
- 실험군: 컨설팅을 한 회사
- 대조군 : 컨설팅을 하지 않은 회사
- 결과 : 미래 실적차이
- 원인1 : 컨설팅 때문
- 원인2 : 컨설팅을 한 회사는 원래 잘 하는 회사이기 때문
컨설팅 - 수익이 인과관계가 아닌 이유
: 직접적인 인과경로 + 공통원인으로 인한 비인과 경로(뒷문경로)
그래프 모델에 어떤 독립성 및 조건부 독립성 가정이 수반되는 가?
1. 사슬구조
Q. 인과관계는 한 방향이지만, 연관관계는 양뱡향의 경우
인과추론지식(T) ▶ 문제 해결력(M) ▶ 승진(Y)
: 승진가능성이 높을수록 인과추론 지식도 많을 확률이 높음, 인과추론지식이 많을수록 승진 가능성이 높음
인과 관계가 한방향처럼 보여도 두 변수가 서로 연관되어 있으면 두 변수는 독립이 아니다
A. 중간 매개자 문제해결력이 동일한 사람인 경우 T와 Y는 독립적
문제해결력이 동일한 사람들을 볼 때,
인과추론능력에 따라 승진가능성을 유추할 수 없음
E[승진 | 문제 해결력, 인과추론지식] = E[승진 | 문제 해결력]
처치와 결과가 독립적이면...처치는 관측하려는 결과에 아무런 영향을 안주었다는 것?
인과추론에서 독립성 가정이란 처치를 받은 실험군과 받지 않은 대조군의 잠재적 결과에 대한 기댓값이 같음(68P)
2. 분기구조
Q. 공통원인이 있는 경우 => 교란요인
통계학 ▶ 인과추론
통계학 ▶ 머신러닝
- 통계 지식수준을 모드러다도 인과추론을 잘 안다면 머신러닝도 능숙할 가능성이 높음
- 분기 끝의 변수들이 서로의 원인은 아니더라도 같은 원인으로 발생하여 함께 움직임
A. 공통원인이 주어지면(주건) 독립
통계학 지식수준이 주어지면 인과추론과 머신러닝은 독립적이게 됨
3. 충돌부 구조
Q. 두 노드가 하나의 자식을 공유하지만 두 노드의 관계가 없는 경우
두 변수가 공통의 효과를 가진 경우
통계학 ▶ 승진
아부 ▶ 승진
- 통계학과 아부는 독립이지만 승진결과를 알게된다면(조건) 종속관계가 됨
예1) 통계학을 잘 못했을 때 승진을 한다면 아부를 잘 할 가능성이 높음
예2) 아부를 잘 못했을 때 승진을 한다면 통계학을 잘 할 가능성이 높음
A. 조건부를 두지 않을 경우 통계학과 아부는 독립
결과
1. 조건으로 주어진 비충돌부 구조가 포함됨
2. 조건부로 주어지지 않고 자식이 없는 충돌부가 포함됨
D ▶ A ▶ G
C ▶ A
C ▶ B ▶ E
F ▶ E
- D와 C는 종속? : 충돌구조이지만 A를 모를 경우(조건이 없을 경우) 독립
- A가 주어진 경우, D와 C는 종속? : 충돌구조고 A를 알 경우 종속
- G가 주어진 경우, D와 C는 종속? : 충돌구조, 연관성은 연쇄적으로 종속
D ▶ A ▶ G
C ▶ A
- A와 B는 종속? : 공통원인의 조건이 없기때문에 종속
- C가 주어진 경우 A와 B는 종속? 공통원인의 결과를 안다면 독립
C ▶ A
C ▶ B
- G와 F는 종속? : 독립 *G가 뭐로 대체될 수 있을까? C
- E가 주어진 경우 G와 F는 종속? : E를 조건부로 둔다면(E를 안다면) G와 F는 종속
D ▶ A ▶ G
C ▶ A
C ▶ B ▶ E
F ▶ E
컨설팅 - 수익이 인과관계가 아닌 이유
: 직접적인 인과경로(인과관계) + 공통원인으로 인한 비인과 경로(뒷문경로)
연관성과 인과성의 차이
뒷문경로 = 공통원인으로 인한 비인과 경로
식별 = 그래프에서 처치와 결과간의 인과관계를 분리하는 과정
▶ 인과관계를 제거하여도 처치와 결과가 이어진다면 편향이 있는 것
뒷문경로를 차단하여 인과경로 확인하기 : 뒷문보정
이전 6개월 수익 ▶ 컨설팅 ▶ 이후 6개월 수익
이전 6개월 수익 ▶ 이후 6개월 수익
방법 : (이전 6개월 수익을 조건부로 두면) 과거 실적이 비슷한 회사들의 그룹내 컨설팅 여부에 따라 수익성 확인하기
= (1) 조건부 독립성 가정 : 공변량 X수준이 동일한 대상을 비교하면 잠재적 결과는 평균적으로 같음
▶ 공변량 X수준이 동일한 대상 ~ 무작위 배정
(2) 보정공식 = 각 그룹의 크기를 가중치를 사용해서 해당 결과의 평균을 구하는 방법
▶ X를 조건부로 두거나 통제하면 평균 처치 효과는 실험군과 대조군 간 그룹 내 차이의 가중평균으로 식별 가능
(3) 양수성 가정 = 처치의 조선부 확률은 반드시 양수이고 1미만(처치에 따라 반드시 실험군과 대조군이 존재해야 함)
공통원인이 있을 경우 -> 조건부 독립성 가정
모든 경우 -> 양수성 가정을 꼭 필수? Yes
할인(처치)을 한 상점(결과)이 없다
교란편향 발생원인
U(공통원인) ▶ T ▶ Y
U(공통원인)▶ Y
의미 : 처치와 결과가 공통원인을 공유할때 공통원인이 분기구조를 형성하여 차치와 결과 사이에 비인과 연관성 흐름을 만듦
방법 : 보정공식, 조건부 독랍성 가정
선택편향 발생원인
T ▶ M, Y, S
T ▶ M(매개자) ▶ Y▶ S
의미 : 처치와 결과사이에 공통효과나 매개자를 조건부로 설정할때 발상
교란편향
교란 = 비인과적으로 연관성이 흐르는 뒷문경로가 있을 때 발생
교란원인 = 처치와 결과가 공통원인을 공유
대처방법 = 처치와 결과의 모든 뒷문 경로 차단
관리자 자질 ▶ 교육 ▶ 참여도
관리자 자질 ▶ 참여도
* 관리자 자질은 교육(T)와 참여도(Y)외의 뒷문 경로
**그러나 관리자의 자질은 측정 불가
(1) 대리교란요인
모든 뒷문을 알 수 없기 때문에 측정 불가능한 교란의 원인을 대리변수로 측정
▶ 관리자의 자질을 근속기간, 교육수준 등으로 대리한 후 통제(조건부 독립성 가정)
(2) 랜덤화
처치를 무작위로 배정하면 관측할 수 없는 교란원인이 있는 그래프에서 처치의 유일한 원인이 랜덤성인 그래프로 바꿀 수 있음
▶ 랜덤하게 배정하면 랜덤으로 발생하는 교란원인 외 보정이 된다..
> 랜덤하게 대상을 선정하면 편향이 완화된다는?
선택편향
: 처치와 결과사이에 공통효과나 매개자를 조건부로 설정할때 발상
(1) 충돌부 조건부 설정
교란편향을 피하기 위해 무작위 배포하여 신규기능(10%)에 따른 만족감 측정(순고객추천지수)
신규기능 ▶ 고객 만족도 ▶ 순고객추천지수
고객 만족도 ▶ 설문응답
신규기능 ▶ 설문응답
공통효과(충돌) = 설문응답...? 공통원인을 만하는 것인가?
뭐가 공통효과고 매개자 인지..
1. 공통효과에 조건부를 두면 선택편향이 발생
2. 신규기능에서 고객만족도로 가는 인과경로를 삭제하면 순고객추천지수의 직접적인 경로가 닫힌다
3. 설문 응답을 조건두로 두면 순고객추천지수가 신규기능과 연결
선택편향을 보정하는게 어려운 이유
- 선택을 유발하는 모든 요인을 보정하거나
- 결과나 처치가 직접 선택을 유도하거나
- 선택과 숨겨진 공통원인을 공유하지 않는다고 가정
- R을 조건부로 설정하면 T와 Y사이의 비인기 경로를 열게 되므로 선택편향이 발생
- Y -> R <- T와 T-> R <- U -> Y의 경로는 처치가 직접선택을 유발하고 결과가 선택과 숨겨진 공통의 원인을 공유하여 통제 불가
'학습노트 > 통계' 카테고리의 다른 글
[통계학습] 5장 성향점수 (0) | 2024.10.07 |
---|---|
[통계학습] 1장 인과추론 소개 (0) | 2024.09.02 |
오답노트 (0) | 2024.08.19 |
[통계 학습] 칸 아카데미 오답노트6 (0) | 2024.08.12 |
[통계 학습] 칸 아카데미 오답노트5 (0) | 2024.08.03 |