Shrinkage priors for Bayesian Substitute Confounders¶

作者: Yordan P. Raykov, Hengrui Luo, Justin D. Strait, Wasiur R. KhudaBukhsh
主题: 因果推断
相关性: 7/10
链接: https://arxiv.org/abs/2606.18535

一、领域脉络与小综述¶

这个方向是什么¶

本子方向关注的是多原因观测研究中基于替代混杂（substitute confounder）的因果推断。根本统计问题是：当未测量混杂因素同时影响多个原因（exposures）时，能否从原因之间的联合依赖结构中恢复出足够的信息，构造一个低维的替代潜伏得分（substitute score），使得在结果回归中用它替代未观测混杂后，对平均潜在结果（或处理效应）的估计仍然是稳定的？这一思路由deconfounder框架（Wang & Blei, 2019a）开创，但其核心困难在于：灵活的原因分配模型可能学到“过度编码”或“单原因”的潜伏表示，从而破坏重叠、导致因果调整失效。当前方法主要围绕：如何正则化分配模型以保持多原因共享结构？如何定义在有偏识别风险下仍可估计的因果目标？本论文正是通过贝叶斯稀疏因子模型与几何视角回答这一耦合问题。

发展脉络¶

奠基工作：
- Wang & Blei (2019a, JASA)：《The blessings of multiple causes》提出deconfounder框架：用低维潜伏变量Z建模原因联合分布，然后在结果模型中用Z的推断值作为替代混杂。其核心识别条件是Kallenberg构造与潜在无混杂（Lemma 4）。
- Imbens (2000, Biometrika)：提出弱无混杂条件并用于多值处理的倾向得分，为替代混杂的忽略性表述提供基础。

主要进展与批评：
- Ogburn et al. (2019, JASA comment) 和 D’Amour (2019, arXiv) 对deconfounder的基础假设进行严格检验：指出多原因依赖结构本身不足以识别因果效应，除非辅助限制。D’Amour给出反例说明灵活分配模型可使替代得分成为原因的充分统计量，从而破坏条件重叠。
- Kong et al. (2022, Biometrika)：证明当原因有无穷多个且潜伏混杂无限维时点识别可能成立，但属于渐近强结构。
- 并行工作：Ranganath & Perotte (2018) 和 Tran & Blei (2017) 提出隐式/变分替代方法，但同样面临重叠与识别问题。

当前frontier与本文定位：
- 识别方面：引入辅助变量（负对照、代理、工具变量）以解决未测量混杂（Miao et al., 2018; Tchetgen et al., 2020; Veitch et al., 2019）。这些方法依赖可检验条件，但需要额外变量。
- 估计方面：正则化因果推断在高维混杂场景下通过平衡权重或岭回归改善稳定性（Bruns-Smith et al., 2025）。论文将其与替代混杂的几何解释结合：分配模型不仅提供得分，还标示出治疗空间中被强混杂的方向。
- 本文的明确位置：将稳定性视角置于替代混杂的核心——不仅关心理想潜伏变量能否识别因果目标，更关心当该变量被估计得分替换时估计误差是否受控。为此，本文用稀疏贝叶斯因子模型（采用全局-局部有序收缩先验）学习保留多原因依赖的分数，并定义投影目标（projected target）避开弱重叠方向。

子线索聚类¶

被引文献大致落在三条子线索：

多原因因果识别的理论基础：包括deconfounder原始文章及其批评（Wang & Blei, 2019a, b; Ogburn et al., 2019; D’Amour, 2019; Kong et al., 2022; Veitch et al., 2019）。核心争论：多原因依赖提供的识别信息有何局限。
辅助变量方法：负对照、代理、工具变量（Miao et al., 2018; Tchetgen et al., 2020; Kuroki & Pearl, 2014; Angrist et al., 1996）。这些方法被认为需要更强结构但能提供点识别，本文将其视为parallel路线而非竞争。
正则化/几何稳定的因果推断：高维混杂下的正则化回归与平衡权重（Belloni et al., 2014; Chernozhukov et al., 2018; Bruns-Smith et al., 2025）。论文将替代得分诱导的几何直接对应到方向特异性正则化。

核心追问的问题¶

（1）多原因依赖结构在何种条件下足以识别因果效应？（2）灵活分配模型如何避免over-encoding与under-sharing，从而维持潜伏水平重叠？（3）当某些治疗方向完全被混杂时，如何定义可估计的因果目标？（4）贝叶斯分配模型的后验收缩率如何转化为因果估计的误差控制？

⚠️ 作者的framing（必须明确标注）¶

作者将缺口frame为：“本文采用互补视角，聚焦于替代下的估计稳定性，而非仅凭理论潜伏混杂的识别。”（Section 1：“We take a complementary view and focus on stability of estimation under substitution, not identification with an oracle latent confounder alone.”）作者据此将核心理论问题转化为：当Z被替换为估计的\hat{Z}时，误差是否受控？并进而提出：分配模型不仅要拟合X，还需保持条件变异性、促进重叠保留。
作者淡化了以下路线：（1）敏感性分析（引入E-values等）被认为“本身不解释如何构造稳定的调整变量或估计量”；（2）辅助变量方法被承认可提供点识别，但被评论为“其有效性依赖于辅助变量的结构假设，通常在复杂治疗机制中难以验证”。
什么明显该被引/该存在、却没出现在intro里？ 论文引用了Bruns-Smith et al. (2025)的增强平衡权重，但未提及与之紧密相关的利用倾向得分进行高维正则化的文献，如Hirshberg & Wager (2021)关于平衡核的minimax视角。这可能是因为论文侧重于“替代学习”而非“权重优化”，但在“几何正则化”主题下，此类缺失可被视为开放缺口。

张力¶

引用文献中未见明显对立的结论。主要张力存在于deconfounder文献内部：Wang & Blei (2019a)持乐观态度，而Ogburn et al. (2019)与D’Amour (2019)指出其识别漏洞——本文的策略正是承认漏洞的存在并通过稳定性和投影目标来规避，而非试图证明一般识别。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
- \(X_i = (X_{i1},\dots,X_{im})^\top \in \mathbb{R}^m\)：个体 \(i\) 的 \(m\) 个原因（处理向量），可观测。
- \(V_i \in \mathbb{R}^d\)：观测到的前处理协变量，可观测。
- \(Y_i \in \mathbb{R}\)：结果变量，可观测。
- \(Y_i(x)\)：当所有原因被设为 \(x\) 时的潜在结果。不可观测。
- \(\mu(x) = \mathbb{E}[Y_i(x)]\)：平均潜在结果，目标estimand。
- \(Z_i \in \mathbb{R}^H\)：未观测的潜伏混杂，不可观测；\(H\) 是因素数。
- \(\Lambda \in \mathbb{R}^{m \times H}\)：因子载荷矩阵，未知参数。
- \(\Psi = \text{diag}(\sigma^2_1,\dots,\sigma^2_m)\)：异质噪声方差，未知。
- \(\hat{Z}_{i,nm}\)：基于样本\(X_{1:n}\)学习的替代分数（估计值）。
- \(r(x,z) = \mathbb{E}[Y_i \mid X_i = x, Z_i = z]\)：结果回归函数。
- \(\varepsilon_{n,m}\)：分数收缩率，\(\mathbb{E}[n^{-1}\sum \|\hat{Z}_i - Z_i\|^2] \leq \varepsilon_{n,m}^2\)。
- \(L(x)\)：结果回归关于\(z\)的Lipschitz常数。
- \(C = \text{span}(\Lambda)\)：混杂子空间。
- \(P_C\), \(P_C^\perp\)：正交投影。
- \(\mu^\perp(x)\)：投影工作目标。

模型（高斯因子分配模型）：

\[X_i = \Lambda Z_i + \varepsilon_i,\quad Z_i \overset{\text{i.i.d.}}{\sim} N_H(0,I_H),\quad \varepsilon_i \overset{\text{i.i.d.}}{\sim} N_m(0,\Psi),\;\Psi\text{对角}.\]

这给出Kallenberg表示：\(X_{ij} = (\Lambda Z_i)_j + \sigma_j \Phi^{-1}(U_{ij})\)，\(U_{ij}\)独立于\(Z_i\)且与潜在结果独立（需额外外生性假设）。基于此，若进一步假设 \(U_i \perp\!\!\!\perp \{Y_i(x): x\} \mid Z_i\)，则Lemma 4给出弱无混杂：\(Y_i(x) \perp\!\!\!\perp X_i \mid Z_i\)。

可观测数据： 每个个体可观测到 \((X_i, Y_i)\)（及可能的一些\(V_i\)但论文主要聚焦于从\(X\)学\(Z\)）。不可观测：\(Z_i\)、\(\Lambda\)、\(\Psi\)、\(\mu(x)\)。识别需要假设：存在\(Z_i\)使得无混杂和潜伏水平正性成立。

第二步：最小内核¶

论文的核心最小内核是：当分配模型为线性高斯因子且载荷满足多原因共享条件时，估计的因子分数\(\hat{Z}_i\)能以\(O(\varepsilon_{n,m})\)的误差替换真实\(Z_i\)进行结果回归调整，从而得到一致的\(\mu(x)\)估计。

最简特例：令 \(m\) 较大，\(H=1\)（单因子），真实加载 \(\Lambda\) 在至少两个原因上非零，其余为0。分配到各原因的噪声方差相同且足够大。\(\hat{Z}_i\) 由后验均值给出。在此特例下： - 命题1：因\(r(x,z)\)关于\(z\) Lipschitz（例如线性），若\(E\|\hat{Z}_i - Z_i\|^2 \leq \varepsilon_n^2\)，则替换误差为\(O(\varepsilon_n)\)。
- 困难在于：当分配模型是大样本MLE，若无结构正则化，\(\hat{Z}_i\)可能过度拟合X（因为\(m\)大，每个原因独立噪声会被部分吸收进\(\hat{Z}_i\)，使\(\text{Var}(X\mid \hat{Z}_i)\)趋于0）。论文的关键想法是：用shrinkage prior迫使加载集中在共享原因上，抑制单因子加载，从而保持残差方差。 这一机制使分数收缩率\(\varepsilon_{n,m}\)可行（如通过后验收缩定理证明）。

在贝叶斯形式（Theorem 12）中，后验分布仅在“分配兼容”机制（定义11：条件独立、定量潜伏重叠、有限维、多原因支撑）上集中，从而保证该收缩。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在多原因观测研究的替代混杂（deconfounder）框架下，解决灵活分配模型导致的过度编码和单原因因子问题，提出稀疏贝叶斯因子分配模型来学习重叠保留的替代分数，并定义投影目标以处理弱重叠方向。
核心工具/方法：使用全局-局部有序收缩先验（Normal-Gamma、MGP、CSP）对因子载荷进行结构化正则化；结合结果回归的Lipschitz连续性，提出回归调整估计量及贝叶斯后验平均因果泛函。
主要结论：在分数收缩条件和结果回归校准下，回归调整估计量一致（Theorem 9）；贝叶斯后验平均因果泛函在后验对分配兼容机制集中时具备相同的一致性（Theorem 12）；定义投影目标（Proposition 2），其可识别且仅在额外结果限制下等于完整平均潜在结果。

关键设定与假设¶

在第二节符号基础上，论文额外要求：

Assumption 5（导向有效稀疏与共享加载）：每个活跃因子至少在两个原因上有有效加载（\(s_h(\delta_m)\ge 2\)），且无单一原因支配（\(\max_j \lambda_{jh}^2 / \sum_k \lambda_{kh}^2 \le 1-\kappa_\Lambda\)）。这是分配侧的条件，采用固定方向（如有序收缩序贯识别）以避免旋转歧义。
Definition 11（分配兼容机制）：要求条件独立、定量潜伏重叠（\(\lambda_{\min}(\Psi) \ge \kappa_X\)）、有限维、有效多原因结构。这是贝叶斯后验集中的目标集。
Assumption 6（投影部分线性结果回归）：存在\(g(Z_i)\)和\(\beta\)使得\(\mathbb{E}[Y_i \mid X_i,Z_i] = g(Z_i) + \beta^\top U_i\)，其中\(U_i = P_C^\perp X_i\)。此假设用于定义投影目标并使其等于完整平均潜在结果。
Assumption 8（潜伏忽略性与正性）：\(Y_i(x) \perp\!\!\!\perp X_i \mid Z_i\) 且 \(p_{X\mid Z}(x\mid z)>0\)。
Theorem 9的估计条件(C1-C4)：Lipschitz连续、平均分数收缩、结果回归校准、经验平均收敛。
Theorem 12的贝叶斯条件：后验集中在分配兼容机制、后验分数收缩、后验结果校准、Lipschitz性与包络条件。

相比已有文献：论文明确弱化了“分配模型必须正确恢复真实Z”的要求，改为“分数收缩可控制替换误差”；但强化了结果侧条件（如校准、Lipschitz）以获得一致性。

主要结果¶

定理9（回归调整平均潜在结果的一致性）：设假设8成立且条件(C1)-(C4)满足，则\(\hat{\mu}_n(x) \xrightarrow{P_0} \mu(x)\)，且偏差有界：\(|\mathbb{E}[\hat{\mu}_n(x)] - \mu(x)| \le L(x)\varepsilon_{n,m} + o(1)\)。直觉：分数收缩将替换误差乘以Lipschitz常数，其余两项（结果校准与经验平均）趋于0。必要条件：分数收缩率\(\varepsilon_{n,m}\to 0\)，结果回归误差消失，经验矩条件。解决的技术难点：处理跨单元通过第一阶段估计产生的相关性；将平均条件（而非均匀条件）用于非独立分数。

定理12（贝叶斯一致性）：在贝叶斯设置下（可能使用cut posterior），若后验集中在\(M_A\)、分数收缩、结果后验校准、Lipschitz与包络条件满足，则后验平均因果泛函\(\mu_n^{pp}(x)\xrightarrow{P_0} \mu(x)\)，偏差同阶。关键：后验不确定性通过平均传播，但需要后验对不良机制的质量趋于0。

命题2（投影目标的识别）：在因子模型下，\(C= \text{span}(\Lambda)\)，若投影\(P_C^\perp\)已知且结果回归满足部分线性结构，则\(\mu^\perp(x)\)由可观测分布唯一确定。否则它仅表示几何受限的工作靶标。必要条件：\(\text{Var}(P_C^\perp X)\)非奇异，\(P_C^\perp\)已知或被一致估计。

证明路线与技术技巧¶

定理9的证明（附录C）： 1. 分解\(\hat{\mu}_n(x)-\mu(x) = (I) + (II)\)，其中(I)是结果回归误差，(II)包含估计分数替换与经验平均项。
2. (I)由条件(C3)直接收敛到0（Markov不等式）。
3. (II)进一步分解为(IIa)+(IIb)：(IIb)由条件(C4)收敛；(IIa)通过Lipschitz条件与Cauchy-Schwarz被\(L(x)\sqrt{\mathbb{E}[n^{-1}\sum \|\hat{Z}_i-Z_i\|^2]}\)控制，条件(C2)保证其为\(L(x)\varepsilon_{n,m}\to0\)。
关键跳跃点：如何将替换误差从每个个体的乘积形式改写为平均形式？利用Lipschitz连续性，使得\(\frac1{n}\sum |r(x,\hat{Z}_i)-r(x,Z_i)| \le L(x) \frac1{n}\sum \|\hat{Z}_i-Z_i\|\)，再通过Cauchy-Schwarz与条件(C2)。全程未需要\(r\)的均匀Lipschitz性，仅需集合\(\mathcal{Z}_{n,m}\)上的Lipschitz。

定理12的证明（附录E）： 1. 引入辅助泛函\(\mu_n^{or}(x) = \int \frac1{n}\sum r_{\theta_Y}(x,Z_i)\,\tilde{\Pi}_n(d\theta)\)。
2. 分解(A) = \(\mu_n^{pp} - \mu_n^{or}\) 和 (B) = \(\mu_n^{or} - \mu(x)\)。
3. (A)：在后验典型集\(\Theta_n(x)\)上用Lipschitz；在补集上用包络控制后验质量（利用\(B_n\equiv\tilde{\Pi}_n(\Theta_n(x)^c)\to 0\) in probability 并与均匀可积性结合）。
4. (B)：拆成后验校准项和 oracle经验平均项，两者均趋于0。
技术技巧：使用Vitali收敛定理处理\(\Theta_n(x)^c\)上的尾项以确保期望的\(o(1)\)；利用后验收缩条件将分数误差从后验积分中提取出来；假设cut posterior以避免结果反馈污染分配几何（虽未严格证明，但陈述中允许cut posterior）。

真实例子与应用¶

ADNI案例研究（Section 6.3）：
- 数据：ADNI基线数据，n=802，Y是基线海马体积（神经退行性生物标志物），X是诊断状态（EMCI/LMCI/AD vs CN）的指示变量。
- 方法：从标准化的年龄、教育、APOE4、FDG（CSF生物标志物被故意排除）学习替代分数。然后在线性结果回归中用这些分数调整，比较诊断对比（与CN的差值）。基准是直接调整CSF biomarkers（log amyloid-β, tau, p-tau）的估计。
- 结果：稀疏FA (NG) 恢复CSF调整效果的69%，平均绝对差距25 mm³（而直接FDG调整只有63 mm³，差距44%）。CSP虽部分恢复但有一因子与年龄相关达0.987，触发崩缩诊断。
- 说明：该例子验证了稀疏先验（NG）能在保持多原因共享结构的同时提供更稳定的调整，而过度收缩（CSP）可能将因子锚定在单一协变量上。同时表明：即使从非侵入性测量学到的低维分数，也能部分恢复侵入性生物标志物的调整效果。

合成实验（Section 6.1）：验证分数收缩与功能MSE的对应关系。在信号强度中等时（信噪比≈0.05），NG和MGP几乎达到Oracle的FMSE（0.016 vs 0.012），而密集FA的标准差大（反映复制间不稳定性）。交互与单原因违背检验表明，即使分数恢复完美，若结果假设被违反，一致性不成立。

🔎 结论是否比证明窄¶

论文在证明中假设了分数收缩率\(\varepsilon_{n,m}\)的精确存在，但并未证明任何具体先验（如NG、MGP）在该模型下确实能实现某特定收缩率（例如\(m\)增加时的速率）。后验收缩定理的陈述是“存在序列\(\varepsilon_{n,m}\)”，未给定量化边界。此外，条件(C3)要求结果回归在估计分数处校准：对于非参数回归需额外风险控制，论文未展开具体条件。对于投影目标（Proposition 2），证明假设投影\(P_C^\perp\)是已知或一致估计的——但论文在贝叶斯部分（Proposition 3）中将其替换为\(H_n\)的后验均值，并说明这是“软正则化”而非硬投影——这种转变在因果解释上不再要求识别假设7，但论文未证明\(H_n\)的算子范数一致性。因此，在声称“投影目标可识别”与“贝叶斯正则化几何”之间存在逻辑缝隙。

四、开放问题¶

有限样本下的收缩率理论：论文未为具体先验（NG、MGP、CSP）在作者设定的有效稀疏条件（Assumption 5）下推导出后验收缩率\(\varepsilon_{n,m}\)与维数\(m\)、样本量\(n\)的直接关系。这是扎根在Theorem 9中条件(C2)的“空心”处（论文仅说“存在收缩率”）。后续若能给出类似于Bhattacharya & Dunson (2011)或Legramanti et al. (2020)的后验收缩率上下界，将是实质性进展。
投影方向的选择与估计的一致性：当\(C\)未知时，论文提出使用\(H_n\)（后验均值负载）来构造软投影。但Proposition 3仅将\(H_n\)描述为“后验诱导的正则化几何”，并未证明当\(n,m\to\infty\)时\(H_n\)是否收敛于某个有因果含义的子空间。需要明确分离“几何正则化工具”与“子空间识别”，并给出\(H_n\)一致估计所需的条件（如因子数正确、旋转固定、特征间隙等）。
结果回归校准与因果目标的连接：Theorem 12的条件3要求后验校准在真实\(Z_i\)上成立。但在实践中，\(Z_i\)不可观测，校准只能通过代理验证。能否发展一种关于结果回归的后验预测检验，其失效即预警替代分数无效？这接近“double robustness”思路——当结果模型误设时，即使分数收缩完美，因果估计仍可能有偏（实验的交互设置已验证）。论文未讨论如何构建对结果模型误设的稳健估计。
向结构化治疗（张量、轨迹）的扩展：论文在Section 7中作为未来工作提出了“张量与函数型模拟”。这与研究者自身在更高阶U-统计量/张量收缩方面的专长高度相关。若能建立类似于因子载荷的“张量秩”条件，并利用tensor network复杂度控制替代分数的计算成本，将是自然合并方向。

Maintained by 陈星宇 · Homepage · Source on GitHub