Balanced Twins: Causal Inference on Time Series with Hidden Confounding¶

作者: Ouali Maha, Ghattas Badih, Flachaire Emmanuel, Charpentier Philippe, Bozzi Laurent
主题: 因果推断
相关性: 7/10
链接: https://arxiv.org/abs/2606.18969

一、领域脉络与小综述¶

这个方向是什么¶

本子方向处理的是时间序列观测数据中的因果效应估计问题，核心特点为：（1）处理分配受未观测混杂因素（隐藏混杂）影响；（2）处理开始时间在不同个体间交错（staggered adoption）；（3）结果序列可能非平稳。目标通常为估计处理组平均处理效应（ATT），且要求先恢复个体处理效应（ITE）。当前成熟度：已有一系列方法和应用，但经典方法在个体级、高频、隐藏混杂下不稳定；黑箱神经方法缺乏可解释性且对外推敏感。本文试图以一个兼具可解释性和稳健性的神经匹配框架填补中间地带。

发展脉络¶

按论文 intro 被引工作排序，作者自己给出的定位是“合成控制思想的现代扩展”，与其竞争的是“横截面因果推断表示学习方法用于时间序列”以及“LSTM-based 时间序列因果方法”。

奠基工作：
Abadie et al. (2010)：提出合成控制方法（SCM），通过加权控制单位凸组合构建反事实，隐含地处理隐藏混杂（需因子模型假设），但限于聚合/单个处理单元，计算昂贵。
Rosenbaum & Rubin (1983)：提出倾向得分（propensity score）作为充分降维统计量，奠定基于分数平衡的识别基础。
Abadie (2005)；Angrist & Pischke (2009)：双重差分（DiD）与回归调整，但严格依赖于平行趋势或无隐藏混杂假设。
主要进展：
Arkhangelsky et al. (2021)（SDID）：同时加权单位和时间，提高平衡，但像聚合方法一样，对高频个体级数据数值不稳定（论文 3.1 节直接指出“remains sensitive to numerical instability and scaling issues”）。
Abadie & L'hour (2021)：惩罚合成控制，扩展至个体级数据，但作者没有引用其具体公式，仅在相关工作中列为 SCM 变体。
Klößner et al. (2018)：SCM 的修正与稳健化。
Gibson & Zimmerman (2021)：系统检验平行趋势假设的敏感性，提示 DiD 的脆弱性。
学习型方法：处理横截面隐藏混杂，但未专门针对时间序列。
Shalit et al. (2017) TARNet/CFRNet：通过表示学习最小化距离平衡处理与控制组，但假设所有混杂可观（no hidden confounding）；用于时间序列时会直接回归，变成黑箱外推。
Shi et al. (2019) DragonNet：加入倾向得分估计头，改进横截面性能；同样假设无隐藏混杂并依赖回归，对非平稳性敏感（论文实验 5.1.2 图 4(c)(d) 证实）。
Louizos et al. (2017) CEVAE：用变分自编码器建模隐藏混杂，但需要观测代理变量（proxy covariates），不适用高频时间序列（论文 2.3 节明确指出其局限）。
近期时序方法：
Bica et al. (2020) Time Series Deconfounder：处理时变混杂，建模动态处理分配；论文作者认为本文设定为静态一次性干预，因此该方法代价大且不必要（“unnecessarily complex”）。
Qian et al. (2021) SyncTwin：与本文最直接相关，用 LSTM 学习时间嵌入，构造反事实，处理交错干预；作者指出其对低频数据好，但对高频噪声敏感且扩展不易（“scalability and stability in high-dimensional, noisy time series”）。
本文位置：作者试图将这些线索统一——保留 SCM 式的解释性加权，用 VAE 代替 LSTM 提升稳定性，放宽凸性约束，统一倾向得分平衡与表示学习。

子线索聚类¶

子线索	代表性工作	核心思路	本文的批评点
经典时间序列因果（DiD / SCM / SDID）	Abadie (2010, 2021), Arkhangelsky (2021), Klößner (2018)	加权控制单位构造反事实，基于平行趋势或因子模型；通常针对聚合单元，且假设无未观测量或平行趋势	个体级计算不稳定、数值问题；假设刚性；不处理非平稳性
神经表示因果推断（横截面）	TARNet/CFRNet (2017), DragonNet (2019), BCAUSS (2023), CEVAE (2017)	用神经网络学习表示，预测潜在结果，正则化平衡；处理横截面隐藏混杂	假设无可观混杂；直接回归+外推对时间序列非平稳性敏感；缺乏可解释的权重
时间序列深度因果路径	SyncTwin (2021), Bica (2020), Liu (2020), Cao (2023)	使用 RNN/LSTM 建模时间动态，构造合成反事实；处理动态/多重处理	SyncTwin: 对高频噪声不稳；Bica 等: 复杂度过高且非必要

核心追问¶

隐藏混杂如何从时间序列中识别？ 经典识别条件（无不可观混杂/平行趋势）被放弃后，用什么假设代替？本文答案是“潜在可恢复性”（Assumption 4）：前处理轨迹包含了处理相关隐藏混杂的充足信息，可用 Lipschitz 连续映射近似恢复。这是一个较弱却无法验证的假设。
如何避开外推风险？ 基于回归（结果建模）的方法在非平稳下会外推错误模式；本文用匹配（加权控制单位） 方法，不建立后处理结果与前处理的函数关系，而是直接利用观察到的控制轨迹。这是关键差异。
交错干预怎么统一处理？ 掩盖处理时间后的前处理窗口，保证表示仅包含前处理信息；匹配阶段不变。这是 SyncTwin 用过的思路（Qian et al. 2021），但本文改成 VAE + 密集层。
解释性与可伸缩性如何兼得？ SCM 有清晰权重但计算昂贵，神经方法快但黑箱；本文用权重回归器（Batch-based）保持大样规模，同时保留权重的直接意义。

⚠️ 作者的 framing¶

作者明确把缺口 frame 成：“现有方法要么在个体级不实用（SCM）；要么是黑箱回归无法处理隐藏混杂与非平稳（DragonNet）；要么对高频噪声敏感（SyncTwin）。我们需要一个兼具 SCM 的可解释性、神经方法的可伸缩性、并能处理隐藏混杂和非平稳性的框架”。

淡化或回避的竞争路线：
逆概率加权（IPW） / 双稳健估计（Augmented IPW / TMLE）：这些方法在横截面隐藏混杂下也有理论（需要代理变量），作者仅引用 Rosenbaum & Rubin (1983) 的倾向得分为基础，但未讨论双稳健框架或高效影响函数（EIF）。
工具变量（IV） / 近端因果推断（Proximal Causal Inference）：这些方法处理隐藏混杂不需要可恢复性假设，而是依赖工具变量或代理变量。作者完全没有提及 IV 路线。
经典时间序列方法（ARIMA 干预分析等）：完全未出现。
什么明显该被引 / 该存在、却没出现在 intro 里：
处理时间内生性（endogenous treatment timing）的计量经济学工作（如 Sun & Abraham 2021, Callaway & Sant'Anna 2021 的“多期 DID”）：这些工作也处理交错干预但利用不同假设（平行趋势处理前的分布等）。本文框架与之正交，但未做比较或定位。
近端因果推断（Tchetgen Tchetgen et al. 2020 等）：这是处理隐藏混杂的主流框架之一，本文完全没碰。
合成控制的正式识别理论（如 factor model 假设，Abadie 2010, 2021）。本文使用相关假设但未引用其识别条件分析。

张力¶

未见明显对立引用。论文引用的工作之间没有直接的矛盾结论。DiD 和 SCM 的批评来自其刚性假设；DragonNet 和 SyncTwin 的批评来自其性能弱点；这些批评在原本文献中也常见。因此论文形成的是“改进型”故事，而非“范式转换”故事。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
\(T_i \in \{0,1\}\)：个体 \(i\) 的处理指示。1 = 处理组，0 = 控制组。
\(Y_{i,t} \in \mathbb{R}\)：个体 \(i\) 在时间 \(t\) 的观测结果。\(Y_i = \{Y_{i,1}, ..., Y_{i,L}\}\) 是整条轨迹。
\(Y^1_{i,t}, Y^0_{i,t}\)：个体 \(i\) 在时间 \(t\) 的潜在结果（处理/控制）。经典因果假设下 \(Y_i = T_i Y_i^1 + (1-T_i) Y_i^0\)。
\(W_i \in \mathbb{R}^K\)：隐藏混杂向量（不可观测）。它同时影响 \(T_i\) 和结果 \(Y_{i,t}\)（图 1 DAG）。
\(g(w) = P(T=1 \mid W=w)\)：真实倾向得分，是 \(W\) 的函数。
\(Y_i^{\text{pre}} = \{Y_{i,1}, ..., Y_{i,t_0-1}\}\)：处理开始前的结果轨迹（前处理部分）。
\(t_0\)：共同处理开始时间（在最小例子中）。
\(L\)：总时间长度。
\(Z_i\)：从 \(Y_i^{\text{pre}}\) 学到的潜表示（低维，VAE 编码器输出）。
\(\hat{g}(Z_i)\)：从潜表示估计的倾向得分。
\(b_{ij}\)：个体 \(i\)（处理）对控制单元 \(j\) 的权重，满足 \(b_{ij} \ge 0\)（但不必和为 1，只在随机化下和为 1）。
\(\hat{Y}^0_{i,t} = \sum_{j \in C} b_{ij} Y_{j,t}\)：反事实估计。
ATT = \(\mathbb{E}\left[ \frac{1}{L-t_0+1} \sum_{t=t_0}^L (Y^1_t - Y^0_t) \mid T=1 \right]\)。
模型：
数据生成机制：个体 \((Y_i^0, Y_i^1, Y_i, W_i, T_i)\) i.i.d. 来自联合分布。隐藏混杂 \(W_i\) 服从某一分布；给定 \(W\)，\(T\) 服从 Bernoulli(\(g(W)\))；给定 \(W\)，潜在结果 \(Y^0, Y^1\) 各按条件分布生成。观测结果 \(Y = T Y^1 + (1-T) Y^0\)。
已知量：\(T_i\)，整条 \(Y_i\) 轨迹（隐含 \(Y_i^{\text{pre}}\)），总样本量 \(n = |T| + |C|\)，处理开始时间 \(t_0\)。
未知量：\(W_i, g(\cdot)\)，潜在结果 \(Y_i^0\)（对处理组）、\(Y_i^1\)（对控制组）。
可观测 vs. 潜在：
可观测：\(T_i\) 和 \(Y_i\) 完整轨迹。
潜在（不可观测但需假设或估计）：\(W_i, g(W_i), Y_i^0\)（对处理组）, \(Y_i^1\)（对控制组）。
关键识别内容：从可观测的 \(Y^{\text{pre}}\) 去恢复 \(W\) 的信息（Assumption 4）。

第二步：最小内核¶

去掉交错干预（所有处理个体同一 \(t_0\)）、去掉高维协变量、只考虑一个连续隐藏混杂 \(W \in \mathbb{R}\)、结果轨迹是一维时间序列。什么是最小内核？

核心数学问题：找一组权重 \(b_{ij}\)（对每个处理单元 \(i\)），使得加权组合的控制单元结果均值可以逼近该处理单元的潜在控制结果均值。经典 SCM 要求权重凸且和为 1，这只能处理随机分配或因子模型下的无混淆情形。本论文的洞察是：在隐藏混杂下，无偏性条件等价于倾向得分加权的矩条件（Proposition 1）。

我们来展示这个最小特例：

特例：假设真实倾向得分 \(g(W)\) 已知（或可精确估计），且我们只想对单个处理单元 \(i\)（\(|T|=1\)）构造权重。这时平衡条件（3）退化为：
\[\mathbb{E}[g(W_i) \mid T_i=1] = \sum_{j \in C} b_{ij} \mathbb{E}[g(W_j) \mid T_j=0].\]
如果进一步假设权重可以完美匹配分布（即找到 \(b_{ij}\) 使得控制组的加权分布与处理组边际分布相同），则 \( \sum b_{ij} g(W_j) \) 的期望等于 \(g(W_i)\) 的期望，这就实现了倾向得分的边际平衡。
但 \(W\) 不可观测。所以本文的核心步骤是用 \(Y^{\text{pre}}\) 学习一种表示 \(Z\)，并估计 \(\hat{g}(Z)\)，来近似替代。Proposition 2 给出了误差 bound：
\[|\hat{g}(Z) - g(W)| \le \varepsilon_P + 2 L_g \varepsilon_W + 2 L_g L_h \varepsilon_Y.\]
其中 \(\varepsilon_W\) 是恢复误差（\(W\) 能否被 \(Y^{\text{pre}}\) 近似？），\(\varepsilon_Y\) 是重构误差（VAE 的 \(Y^{\text{pre}}\) 重构有多准？），\(\varepsilon_P\) 是倾向估计误差。
这个 bound 说明什么？如果把 VAE 训练到重构误差很小 (\(\varepsilon_Y \to 0\))，且恢复本身较好 (\(\varepsilon_W\) 小)，且分类器准确 (\(\varepsilon_P\) 小)，则 \(\hat{g}(Z) \approx g(W)\)。然后用 \(\hat{g}(Z)\) 替入条件（3）去学习权重，逼近 ATT。

所以最小内核就是：

用 VAE（编码+重构）从 \(Y^{\text{pre}}\) 学一个表示 \(Z\)，同时加一个分类头估计 \(\hat{g}(Z)\)；用 Proposition 2 保证 \(\hat{g}(Z)\) 是 \(g(W)\) 的近似；然后在潜空间（加上倾向得分）上训练一个权重回归器，最小化 \(L_z + L_b\)（即匹配潜表示也要匹配倾向得分加权），从而计算 \(\hat{Y}^0_{i,t}\)，进而求 ATT。

这个最小内核不涉及正式识别假设（没有证明双稳健性），纯粹是一个逼近 + 匹配的框架，其成功依赖 VAE 学习的表示确实捕捉到 \(W\) 的相关信息（Assumption 4）。

三、这篇论文做了什么（重点）¶

三句话¶

研究了什么问题：在时间序列存在隐藏混杂（以及交错干预、非平稳性）时，估计 ATT，通过首先恢复个体层面的反事实 \(\hat{Y}^0_{i,t}\)。
核心工具/方法：提出 B-Twin 框架，包含两个模块：（a）VAE 学习潜表示 \(Z\) + 倾向得分头 \(\hat{g}(Z)\)，用重构 + KL + 倾向损失联合训练；（b）权重回归器，在潜空间和倾向得分加权下最小化匹配损失 \(L_z + L_b\)，输出平衡权重 \(\hat{b}_{ij}\)，然后构造 \(\hat{Y}^0_{i,t} = \sum \hat{b}_{ij} Y_{j,t}\)，再聚合 ATT。
主要结论：模拟和真实数据实验表明，B-Twin 在隐藏混杂和非平稳性下比经典方法（SC, DiD, SDID）以及神经基线（SyncTwin, TARNet, CFRNet, DragonNet, BCAUSS）更稳定准确，特别在外推不可靠时；保持可解释性（权重明朗）；计算上可伸缩（batch-based）。

关键设定与假设¶

与第二节的最小记号相比，完整设定增加了： - Assumption 1 (SUTVA)：个体间无干扰。 - Assumption 2 (Positivity)：\(0<g(w)<1\) 对所有 \(w\)。 - Assumption 3 (Latent Ignorability)：\((Y^1, Y^0) \perp\!\!\!\perp T \mid W\)——这是替代经典强可忽略性假设，承认 \(W\) 不可观测但独立于处理给定它。 - Assumption 4 (Latent Recoverability)：\(\|W - h(Y^{\text{pre}})\| \le \varepsilon_W\)。此假设非常强：它说隐藏混杂完全（或至少近似）由前处理轨迹决定。这对高频时间序列可能合理（生活方式体现在消费模式中），但无法检验。相比已有文献，这比 SyncTwin 的因子模型假设更宽松（因子模型要求低秩分解），但也更危险——如果 \(W\) 不仅有轨迹印记还有其他来源（如 survey 未测量变量），就不成立。 - Assumption 5 (Lipschitz Continuity)：\(h\) 和 \(g\) 为 Lipschitz，用于技术 bound。 - 此外，论文假设共同处理开始时间（简化实验），交错处理在附录通过掩码扩展，但未做理论分析。 - 相对于经典合成控制，放宽了权重凸性约束（权重不必和为 1，也不要求非负？实验中未提及负权重是否允许，但训练时用了无符号约束的优化）。这是通过引入倾向得分校正实现的。 - 相对于 DragonNet 等，不必观测所有混杂，依靠可恢复性。

主要结果¶

理论结果（Proposition 1 & 2）： - Proposition 1：给定权重 \(b_{ij}\)，等式 (1)（无偏性条件）等价于积分方程 (2)。在随机化下退化为 \(\sum b_{ij}=1\)。在有隐藏混杂下，须通过倾向得分加权平衡。这个结果是精确的，但依赖于无限样本——没有有限样本界。 - Proposition 2：\(\hat{g}(Z)\) 逼近 \(g(W)\) 的误差 bound（前文已展示）。关键点是误差可控且加性，但它只给出了逼近误差，没有建立当 \(\varepsilon_Y, \varepsilon_P, \varepsilon_W \to 0\) 时 ATT 估计的一致性——这需要 weight regression 的收敛性分析，论文没做。

模拟实验（3 个 DGP + 半合成真实数据）： - DGP1（平稳）：4 种设置（随机、低噪、高噪强混杂、异质效应）。图 3 展示 B-Twin 和 B-Twin-O 在所有设置中分布区间窄且中心接近真值，而 SyncTwin 在高噪声时偏差大，SDID 和 DiD 在混杂下偏差大。 - DGP2（非平稳）：前处理和后处理机制不同。图 4 显示神经基线（TARNet, CFRNet, DragonNet, BCAUSS）偏差/方差显著增大，B-Twin 则保持稳定，说明匹配优于回归外推。 - 消融实验（表 2，图 5）：B-Twin 全模型优于去掉倾向得分或凸性约束的变体，证明倾向得分平衡+柔性匹配的增益。 - 超参数敏感性（图 6）：\(\beta, \gamma, \lambda\) 的选择对最终 ITE 误差影响小，简单稳定领域即可。

真实数据实验： - MIMIC-III 半合成（真效应=0）：图 7 中 B-Twin 置信区间覆盖 0 且较窄；TARNet, BCAUSS 偏离；SyncTwin 强烈负偏。训练时间 B-Twin 中等。 - Sowee 真实（真效应未知）与半合成（真效应=0）：图 8-9 类似，B-Twin 稳定覆盖 0 或小效应，SyncTwin 在放置数据上假阳性大。 - 结论：B-Twin 在匹配框架下对外推依赖小，对非平稳性更稳健。

证明路线与技术技巧（理论型）¶

Proposition 2 证明（Appendix B）： - 目标：bound \(|\hat{g}(Z) - g(W)|\)。 - 整体路线 3 步： 1. 因 \(W\) 可近似由 \(Y^{\text{pre}}\) 恢复，且 \(h\) 是 Lipschitz，所以 \(\|W - h(f_\theta(Z))\| \le \varepsilon_W + L_h \varepsilon_Y\)，导出 \(|g(W) - g(h(f_\theta(Z)))| \le L_g (\varepsilon_W + L_h \varepsilon_Y)\)。 2. 另一分支 \(|\hat{g}(Z) - g(h(f_\theta(Z)))|\) 拆成：\(|\hat{g}(Z) - P(T=1|Z)|\)（由假设 = \(\varepsilon_P\)）+ \(|P(T=1|Z) - g(h(f_\theta(Z)))|\)。关键：\(T \perp\!\!\!\perp Z \mid W\) 给出 \(P(T=1|Z) = \mathbb{E}[g(W) \mid Z]\)。再用 Jensen 和 Step 1 的 bound，得 \(|P(T=1|Z) - g(h(f_\theta(Z)))| \le L_g \varepsilon_W + L_g L_h \varepsilon_Y\)。 3. 三角不等式合并，得 \(\varepsilon_P + 2 L_g \varepsilon_W + 2 L_g L_h \varepsilon_Y\)。

关键跳跃：\(\mathbb{E}[g(W) \mid Z] - g(h(f_\theta(Z)))\) 的 bound 使用了 Jensen 并假设 \(Z\) 包含的信息与 \(W\) 通过 \(Y^{pre}\) 链接良好。严格来说，需要证明 \(Z\) 是 \(W\) 的充分统计量？这里用的是条件独立性 \(T \perp Z \mid W\)，该条件来自 \(Z\) 只从 \(Y^{\text{pre}}\) 构造且 \(Y^{\text{pre}}\) 依赖于 \(W\)；如果 \(Z\) 忽略了 \(W\) 的部分信息，条件独立性可能被破坏（但可以弱化）。论文未讨论该条件是否自动成立。
技术技巧点名：
Triangle inequality（基本）
Lipschitz continuity for chain rule（Assumption 5）
Conditional independence + Law of iterated expectation：将 \(P(T=1|Z)\) 转换为 \(\mathbb{E}[g(W) \mid Z]\)
Jensen’s inequality（bound conditional expectation）
Bayes rule + latent ignorability（用于证明 Proposition 1）

🔎 结论是否比证明窄¶

是。一些 localized claims 需要谨慎：

Proposition 2 的 bound 中包含 \(\varepsilon_P, \varepsilon_Y, \varepsilon_W\)，但这三个量无法从数据中估计（\(\varepsilon_W\) 完全假设）。它不能转化为现实的样品误差控制。论文没有提供如何验证 \(\varepsilon_W\) 小的指导。
ATT 估计量（式 7）未给出任何一致性或收敛速率。论文只靠模拟显示稳定性，无任何在样本量 \(n\) 上的理论保证。真效应=0 的半合成实验证明是“confidence interval overlaps zero”，这不等于无偏或一致。
“Learned propensity score provides an approximation whose error depends on…” 这句实际上只给出了误差依赖于 \(\varepsilon_W, \varepsilon_Y, \varepsilon_P\)，但未说明当这些误差小到多少时限界有多紧。Prop 2 的常数 \(L_g L_h\) 需已知但通过假设有，实际不可验证。
在个体级构造反事实优于群级这句是论文立场，但仅用包含 500/10000 个体的模拟支持；在不同设计下可能反例。
结论中明确说“outperforms … under hidden confounding and non-stationary dynamics”，但只在特定 DGP 下测试，未提供一般性理论说明。

真实例子与应用¶

MIMIC-III 半合成： - 数据：从 MIMIC-III 数据库筛选 ICU 病人，保留 72h 内血压测量，插值到规则网格。 - 构造：只取未用血管升压药的患者。处理分配由年龄通过 logistic 诱导（制造选择偏差），真实效果为0（placebo）。 - 应用 B-Twin 与基线：估计 ATT。B-Twin 置信区间包含 0 且窄；TARNet, BCAUSS 偏离；SyncTwin 强负偏。 - 这个例子想说明：在人工诱导的选择偏差下，B-Twin 的匹配策略减少了假阳性，而回归方法会错误归因。

Sowee 电力数据半合成： - 类似：将真实结局保留，用合成处理分配（logistic based on某因子），真效应=0。 - B-Twin 中心靠近 0 且窄，SyncTwin 假阳性大。说明在真实电力数据分布下，B-Twin 保持稳健。

Sowee 真实数据：所有方法均给出小效应，无进一步结论。

四、开放问题（点到为止，扎根具体语句）¶

潜在可恢复性假设的验证与放松
Assumption 4 是识别基石，但论文未给出任何可检验条件或上界 \(\varepsilon_W\) 的估计。扎根：Proposition 2 的 bound 依赖于 \(\varepsilon_W\)，但 §6 Limitations 仅承认“If the hidden confounders do not leave a sufficiently informative signature…”。一个具体问题：能否构造可检验的 proxy（如利用短期预测误差）来检验 \(Y^{\text{pre}}\) 是否包含了所有处理相关混杂信息？是否可放松为更弱的条件（如线性因子模型）且仍保持一致估计？
ATT 估计量的渐近分布与半参数效率
论文提出的估计量（式 7）是 plug-in + 权重回归 + 倾向加权，但未讨论 n 相合性或半参数效率界。扎根：全文无渐近统计理论，仅在模拟展示有限样本分布。是否可以将其嵌入 one-step / TMLE 框架，推导出正则估计，并与半参数效率下界比较？这需要建立 VAE + weight regression 的 influence function。
交错干预下的一致性
附录 A 通过掩码扩展了框架，但无理论分析：当处理时间与隐藏混杂相关（内生性处理时间）时，掩码是否足够？扎根：Appendix A 仅说“masking process modifies representation learning stage”，但无 Proposition 对应情况。可严格证明收敛性，或说明何时会偏差。
权重回归器的有限样本与超参数鲁棒性理论
论文用模拟显示超参数不敏感（图 6），但无理论解释。L_match 的损失选择（\(\lambda\)）是否影响收敛速率？是否可以给出 oracle 性质（即权重最优时的 ATT 估计误差）。扎根：§4.3 的 L_match 是 heuristic，无任何 bound 连接如何做。即：\(L_z + L_b\) 最小化是否意味着 ATT 估计误差小？这是个明确但技术可行的问题。

Maintained by 陈星宇 · Homepage · Source on GitHub