type
Post
status
Published
date
Apr 17, 2023
slug
art-1
summary
因果推断模型
tags
因果推断
category
技术分享
icon
password

潜在因果模型

变量定义: YiY_i:个体ii的观察结果 YitY_i^t:干预变量为tt时的个体ii的潜在结果

一、潜在结果模型中的定义

1.1 潜在结果
考虑两个随机变量TYT、Y,当我们研究的因果效应TYT\rightarrow{Y}时,如果干预变量T=tT=t,个体ii的潜在结果可以表示为YitY_i^{t}。它表示的是个体ii在干预变量T=tT=t时结果变量的值。
 
💡
可以看到潜在结果其实定义的是某个个体的因果量,因此可以很容易的定义个体因果效应。与潜在结果对应的是“观察结果”,即对个体 ii 实际执行了某种干预对应的结果,可以记为YiY_i。假设干预变量T{0,1}T\in{\{0,1\}},那么有Yi=TYi1+(1T)Yi0Y_i=TY_i^1+(1-T)Y_i^0
 
1.2 个体因果效应(ITE)
假设干预变量T{0,1}T\in{\{0,1\}},结果变量YR Y\in{R},那么个体 ii 的ITE就是当这个个体在实验组和对照组时所对应的两个潜在结果的差:
ITE(i)=Yi1Yi0ITE(i)=Y_i^1-Y_i^0
1.3 平均因果效应(ATE)
平均因果效应是指在「群体」层面的因果效应,即是ITE在整体上的期望:
ATE=E[Yi1Yi0] ATE=E[Y_i^1-Y_i^0]
1.4 条件因果效应(CATE)
指特征变量取值为X=x X=x时的群体上的平均因果效应:
CATE=Ei:Xi=x[Yi1Yi0]=E[Yi1Yi0X=x] CATE=E_{i:X_i=x}[Y_i^1-Y_i^0]=E[Y_i^1-Y_i^0|X=x]
当干预效果在不同的子群中存在差异时,CATE 是一个常用的干预效果评估方法,也被称为异质干预效果。
1.5 干预组的平均因果效应(ATT)
特指干预组子群的平均因果效应:
ATT=E[Yi1Yi0T=1] ATT=E[Y_i^1-Y_i^0|T=1]

二、因果推断的目的

对于因果推断,我们的目标是从观察性数据中估计干预效果。从形式上看,给定观察性数据集{Xi,Ti,Yi}i=1N\{X_i,T_i,Y_i\}_{i=1}^N,则因果推断任务的目标是估计上述定义中的各项干预效果。

三、三个假设

潜在因果模型能够进行因果识别主要基于以下几个假设:
  1. 个体处理效应稳定假设(SUTVA),此假设包含两部分
    1. 第一部分,无干预假设,不同个体间的潜在结果是相互独立的,即对任意个体u1u_1的干预不会影响到其他个体。如我的头疼症只应该与我自己吃不吃阿斯匹林有关,别人吃不吃阿斯匹林不应该对我的头疼症产生任何影响。SUTVA使我们可以把样本中每个个体的反应看作独立事件,从而降低了我们需要的样本体积、模型体积和建模时间。
    2. 第二个部分,一致性假设,一个个体被观测到在干预变量T=tT=t下的结果YiY_i(事实结果),也就是他的干预变量T=tT=t时的潜在结果YitY_i^t,即P(YiT=t)=P(YitT=t)P(Y_i|T=t)=P(Y_i^t|T=t)。如一个人服用阿斯匹林并因此康复的人,假如他在临床试验中以随机分配的方式分配到实验组并服用了阿斯匹林,那么他一样会康复。
  1. 可忽略性假设
    1. 在控制混杂因子XX的条件下,潜在结果与是否进行干预是相互独立的。一般表示为:{Y1,Y0} ⁣ ⁣ ⁣TX\{Y^1,Y^0\}\perp \!\!\! \perp{{T}|X}。可以分成两部分进行描述:
      1. 给定变量XX,无论TT的取值,潜在结果YY的取值都相同。即P(Yi1,Yi0X=x,T=ti)=P(Yj1,Yj0X=x,T=tj) P(Y_i^1,Y_i^0|X=x,T=t_i)= P(Y_j^1,Y_j^0|X=x,T=t_j)。即如果两名患者具有相同的背景变量,则无论采取怎样的干预措施,其潜在结果都会是相同的,又或者无论我有没有吃阿斯匹林,阿斯匹林对我头疼症的因果效应都应该是一样的。
      2. 给定变量XX,若个体iijj的潜在结果相同,那么干预TT的分布相同,即可视为随机分配。即P(TX=x,Yi1,Yi0)=P(TX=x,Yj1,Yj0)P(T|X=x,Y_i^1,Y_i^0)=P(T|X=x,Y_j^1,Y_j^0)
    2. 通俗的解释就是,对于混杂因子XX相同的「子群」,是否进行干预是随机的,近似于随机对照试验,从而在混杂因子XX相同的「子群」上,“观察结果” 等价于 “潜在结果”,那么条件平均因果效应:
    3. CATE(x)=E[Yi1Yi0X=x]=E[Yi1X=x]E[Yi0X=x]=E[Yi1X=x,T=1]E[Yi0X=x,T=0]=E[YiX=x,T=1]E[YiX=x,T=0]\begin{aligned}CATE(x)&=E[Y_i^1-Y_i^0|X=x] \\&=E[Y_i^1|X=x]-E[Y_i^0|X=x] \\&=E[Y_i^1|X=x,T=1]-E[Y_i^0|X=x,T=0] \\&=E[Y_i|X=x,T=1]-E[Y_i|X=x,T=0]\end{aligned}
      💡
      第二个等式转换是基于期望的性质,差值的期望等于期望的差值。第三个等式是基于可忽略性假设,即在控制XX的值时,潜在结果与干预相互独立。第四个等式是基于一致性假设,即被观测到的事实结果就是相同干预下的潜在结果。
      💡
      从因果图的角度来描述是否满足可忽略性,就是控制变量XX时,是否阻断了TTYY之间的后门路径,且XX的成员都不是TT的后代。如果是则可以说明YYTT来说是可忽略的。对于可忽略性假设来说也就是XX包含了所有的混杂因子,不存在未观测的混杂因子。
      对比以下两种因果图是否满足可忽略性:
    4. 从图中可知,对于TTYY之间的因果关系,XX是混淆因子,且存在TTYY的后门路径TXYT\leftarrow{X}\rightarrow{Y},当控制了变量XX后就阻断了TTYY的后门路径,且XX不是TT的后代,因此满足可忽略性。因此通过控制变量XX就可以估计出TTYY之间因果效应。(后门准则)
    5. graph LR; T-->Y X-->T X-->Y
      T
      Y
      X
      Mermaid
    6. 从图中可知,对于TTYY之间的因果关系,不存在TTYY的后门路径,那么就算控制了变量XX,因为XXTT的后代,故不满足可忽略性。因此想要通过控制变量XX,无法估计出TTYY之间因果效应。(需采用前门准则)
    7. graph LR; T-->Y T-->X X-->Y
      T
      Y
      X
      Mermaid
  1. 正值假设
    1. 对于任意值XX的干预分配都不是确定的。即P(T=tX=x)>0tx P(T=t|X=x)>0,\forall{t、x}。换句话说就是确保对于任意X=xX=x「子群」,T=0T=0T=1 T=1的结果均存在。从而避免由于对给定的XX,仅包含T=0T=0的结果数据,使得T=1T=1的结果无法估测。
 

四、因果效应估计

假设干预变量T{0,1}T\in{\{0,1\}},要估计ATEATE,若直接采用观测数据进行计算,则很可能由于「混杂因子」的存在,导致估计的包含完全虚假的因果效应:
E[Yi1T=1]E[Yi0T=0]!=E[Yi1]E[Yi0](4.1)E[Y_i^1|T=1]-E[Y_i^0|T=0]!=E[Y_i^1]-E[Y_i^0]\tag{4.1}
对等式左侧进行拆解分析造成等式不成立的原因:
=E[Yi1T=1]E[Yi0T=1]+E[Yi0T=1]E[Yi0T=0]=ATT+selection_bias=ATE+selection_bias+(1π)(ATTATU)(4.2)\begin{aligned}&=E[Y_i^1|T=1]-E[Y_i^0|T=1]+E[Y_i^0|T=1]-E[Y_i^0|T=0] \\&=ATT+selection\_bias \\&=ATE+selection\_bias+(1-\pi)(ATT-ATU) \end{aligned}\tag{4.2}
其中:
  • ATT=E[Yi1T=1]E[Yi0T=1]ATT=E[Y_i^1|T=1]-E[Y_i^0|T=1]:表示干预组的平均因果效应;
  • ATU=E[Yi1T=0]E[Yi0T=0]ATU=E[Y_i^1|T=0]-E[Y_i^0|T=0]:表示控制组的平均因果效应;
  • selection_bias=E[Yi0T=1]E[Yi0T=0]selection\_bias=E[Y_i^0|T=1]-E[Y_i^0|T=0]:表示选择偏差,描述的是干预组和对照组在潜在结果的分布上有差异;
  • ATTATUATT-ATU:差值表示的是因果效应在干预组和控制组之间存在差异,称为混淆偏差。
  • π=P(T=1)\pi=P(T=1):表示干预的概率。则有:
    • ATE=E[Yi1Yi0]=Et[E[Yi1Yi0T=t]]=P(T=1)E[Yi1Yi0T=1]+P(T=0)E[Yi1Yi0T=0]=πE[Yi1Yi0T=1]+(1π)E[Yi1Yi0T=0]=πATT+(1π)ATU(4.3)\begin{aligned}ATE&=E[Y_i^1-Y_i^0]\\&=E_t[E[Y_i^1-Y_i^0|T=t]]\\&=P(T=1)E[Y_i^1-Y_i^0|T=1]+P(T=0)E[Y_i^1-Y_i^0|T=0]\\&=\pi{E[Y_i^1-Y_i^0|T=1]}+(1-\pi)E[Y_i^1-Y_i^0|T=0]\\&=\pi{ATT}+(1-\pi)ATU\end{aligned}\tag{4.3}
因此,一般情况下我们无法直接根据观测数据计算出ATEATE。只有在满足了较强的假设下才可以用观测数据进行ATEATE的估计:
ATE=E[Yi1]E[Yi0]=Ex[E[Yi1X=x]E[Yi0X=x]]=Ex[E[Yi1T=1,X=x]E[Yi0T=0,X=x]]=Ex[E[YiT=1,X=x]E[YiT=0,X=x]](4.4)\begin{aligned}ATE&=E[Y_i^1]-E[Y_i^0]\\&=E_x[E[Y_i^1|X=x]-E[Y_i^0|X=x]]\\&=E_x[E[Y_i^1|T=1,X=x]-E[Y_i^0|T=0,X=x]]\\&=E_x[E[Y_i|T=1,X=x]-E[Y_i|T=0,X=x]]\end{aligned}\tag{4.4}
在上式中,第二到第三等式推导用到了“可忽略性”假设,第三到第四等式的推导用到了SUTVA“一致性”假设。
实际中我们很难满足“可忽略性”假设,因为我们无法观测到所有的混杂因子,就如 第(4.2)式 推导,直接采用观测数据计算ATEATE,由于未观测到的混杂因子导致选择偏差和混淆偏差的发生(其实都可以理解为选择偏差,都是实验组与对照组不够随机)。
“辛普森悖论”就是典型的例子,即存在混杂因子-患者年龄(XX),不同年龄的患者对于使用药物的倾向不同,导致我们若直接计算是否服药和是否康复之间的因果效应就会由于混杂因子-患者年龄的影响而算出“伪效应”,但假设在 是否服药 和 是否康复 之间仅存在患者年龄(XX)这一个混杂因子,那么就可以先估计以患者年龄(XX)为条件的干预效果,然后基于混杂因子的分布进行加权平均,即控制变量XX来阻断了 是否服药 和 是否康复 之间的后门路径。
当无法观测到所有的混杂因子时,有什么比较好的方式进行因果效应估计呢?
常用的一般有两种解决方案:
  • 第一种方案通过创造一个「拟群」(pseudo group)来近似目标组的真实分布。常用的方法包括样本重加权、匹配、基于树的方法、混杂因子平衡、平衡表征学习方法、基于多任务的方法等。创建的拟群可以缓解选择偏差的消极影响,从而得到更加可靠的反事实结果估计;
  • 第二种方案首先仅基于观察性数据训练基础的潜在结果估计模型,然后对选择偏差引起的估计偏差进行纠正。这种方案的代表性方法是基于元学习的方法。
以上方法的出发点就是去构造一个相对较为随机的实验组和对照组,从而有效的进行因果效应的评估。

五、基于假设的因果推断方法

5.1 重加权方法

由于混杂因子的存在,干预组与对照组中协变量(注意混杂因子只是协变量的一种,而协变量是背景变量的一种,这里可以将这三个概念暂时等价)的分布是不同的,这会导致「选择偏差」的出现,换句话说也就是干预的分配与观察性数据中的协变量相关。样本重加权是一种解决选择偏差的高效方法,通过为每个单元分配合适的权重,创建出一个干预组与对照组分布类似的拟群。
在样本重加权方法中,一个关键的概念是「平衡分数」(balancing score)。平衡分数b(x)b(x)是一种通用的权重分数,其是xx的函数且满足T ⁣ ⁣ ⁣Xb(X)T\perp \!\!\! \perp{{X}|b(X)},其中TT是干预变量,XX是协变量。
实际所有的「平衡分数」都有两个性质,可以总结为以下两个定理: (详见 Imbens & Rubin 的 Causal Inference 教科书 第十二章。)
T ⁣ ⁣ ⁣Xb(X)(5.1)T\perp \!\!\! \perp{{X}|b(X)}\tag{5.1}T ⁣ ⁣ ⁣{Y0,Y1}b(X)(5.2)T\perp \!\!\! \perp{\{Y^0,Y^1\}|b(X)}\tag{5.2}
直观上来说,就是对于「平衡分数」相同的「子群」,是否进行干预 与 子群的特征变量 之间是相互独立的,是否进行干预 与 子群的潜在结果 之间也是相互独立的。因此,理论上,如果我们对每一个实验组用户都在对照组里匹配一个得分相等(要求有点严苛)的用户,我们就能得到同质的实验组和对照组,就可以假装我们做了一个 A/B Test 了,接着就可以随意地进行组间比较了。
平衡分数的设计方法有很多种,最常规的是b(x)=xb(x)=x,但直接这么定义可能会由于xx未包含所有的混杂因子,导致构造出的平衡分数不满足上述假设。「倾向评分」是平衡分数的一个特例,其定义如下:
定义 :「倾向评分」(Propensity score)。倾向评分是给定背景变量时干预的条件概率:
e(x)=P(T=1X=x)(5.3)e(x)=P(T=1|X=x)\tag{5.3}
基于倾向评分的重加权方法是目前最常见的一种手段。下图对本节涉及到的重加权方法进行了归类,这里主要详细介绍样本重加权的方法,还可以同时对样本与协变量进行重加权。[1]^{[1]}
notion image
 
5.1.1 基于倾向评分的样本重加权
基于倾向得分的平衡得分称为逆倾向得分权重( Inverse propensity weighting(IPW)),也称作逆策略概率权重(inverse probability of treatment weighting(IPTW)),其为每个样本分配一个权重rr
r=Te(x)+(1T)1e(x)(5.4)r=\frac{T}{e(x)}+\frac{(1-T)}{1-e(x)}\tag{5.4}
其中TT是干预变量(二元),e(x)e(x)是倾向评分。重加权后的 ATE 的计算公式如下:
ATEIPW=1ni=1nTiYie(xi)1ni=1n(1Ti)Yi1e(xi)(5.5)ATE_{IPW}=\frac{1}{n}\sum_{i=1}^n\frac{T_iY_i}{e(x_i)}-\frac{1}{n}\sum_{i=1}^n\frac{(1-T_i)Y_i}{1-e(x_i)}\tag{5.5}
IPW可理解为:样本越倾向选择这个干预策略,那么说明这个策略对该样本可能获得更好的策略效果,所以取逆概率权重来平衡这个策略效果。

结合因果图分析样本重加权是如何帮助估计因果效应的2^2。假设T、Y中间存在后门路径:
graph LR; X-->T X-->Y T-->Y
X
T
Y
Mermaid
构建倾向评分e(x)e(x)相当于在因果图中新增了一个节点:
graph LR; X-->e e-->T X-->Y T-->Y
X
e
T
Y
Mermaid
由于后门路径的存在,无法直接计算ATE,因为P(ydo(t))!=P(yt) P(y|do(t))!=P(y|t)
通过后门准则我们可以分层计算:P(ydo(t))=xP(yt,x)P(x) P(y|do(t))=\sum_x{P(y|t,x)P(x)}
但如果直接计算P(yt)=xP(y,xt)=xp(yt,x)P(xt)P(y|t)=\sum_x{P(y,x|t)}=\sum_x{p(y|t,x)P(x|t)}
会发现导致P(ydo(t))!=P(yt) P(y|do(t))!=P(y|t)的主要原因是由于P(x)!=P(xt) P(x)!=P(x|t)
概率分布P(x)P(xt) P(x)、P(x|t)较难估计,通过贝叶斯公式进行转换P(x)P(xt)=P(t)P(tx)\frac{P(x)}{P(x|t)}=\frac{P(t)}{P(t|x)},只需要使得加权后的P(t)P(tx)=1\frac{P(t)}{P(t|x)}=1即可使P(x)=P(xt) P(x)=P(x|t)
对于实验组P(T=1)=1 P(T=1)=1,对照组P(T=0)=1P(T=0)=1,因此只需要使加权后的实验组P(T=1X=x)=1P(T=1|X=x)=1,加权后的对照组P(T=0X=x)=1 P(T=0|X=x)=1即可使P(t)=P(tx) P(t)=P(t|x)
因此加权方式为:实验组权重1P(T=1X=x)\frac{1}{P(T=1|X=x)},对照组权重1P(T=0X=x)\frac{1}{P(T=0|X=x)}

倾向性得分估算 可采用LightGBM 建模预估,然后选 AUC 比较高的模型。
在实践中,IPW 估计器的正确性高度依赖于倾向评分估计的正确性,倾向评分的轻微错误会导致 ATE 的较大偏差。为了解决这一问题,研究人员提出了「双重稳健估计器」Doubly Robust estimator),也被称为加强 IPW(AIPW):
ATEDR=1ni=1n{[TiYie(xi)Tie(xi)e(xi)m(1,xi)][(1Ti)Yi1e(xi)Tie(xi)1e(xi)m(0,xi)]}(5.6)ATE_{DR}=\frac{1}{n}\sum_{i=1}^n\{[\frac{T_iY_i}{e(x_i)}-\frac{T_i-e(x_i)}{e(x_i)}m(1,x_i)]-[\frac{(1-T_i)Y_i}{1-e(x_i)}-\frac{T_i-e(x_i)}{1-e(x_i)}m(0,x_i)]\}\tag{5.6}
DR 估计器将倾向评分加权与结果回归相结合,可以保证即使部分评分或回归不正确(不能同时不正确),估计器仍具有鲁棒性,详见:参考文献3^3
需要注意的是DR中m(1,xi)m(1,x_i)m(0,xi)m(0,x_i)是根据实验组和对照组分别训练出来的回归模型,以xtx、t为特征预估yy。只要倾向评分或模型能够正确地解释结果中混杂因子与变量之间的关系,DR 估计器就可以给出稳定且无偏的结果。
其他的还有诸如CBPS、CBGPS等方法,这里不再一一描述。采用平衡得分对样本重加权,主要目的就是使不同组别之间的样本得到平衡,从而可以阻断变量之间的后门路径。
20250119-AI时代的独立开发者强化学习基础