Scalable kernel balancing weights in a nationwide observational study of hospital profit status and heart attack outcomes¶

作者: Kwangho Kim, Bijan A Niknam, José R Zubizarreta
来源: Biostatistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：在大规模观察性研究中，如何通过加权方式调整协变量分布的不平衡，从而无偏地估计因果效应。具体而言，它聚焦于直接优化权重的“平衡方法”（balancing approach）——不预先估计倾向得分，而是直接求解一组权重，使得经过加权的处理组与控制组在协变量分布上尽可能相似，同时控制权重的离散程度以保证估计量的稳定性。当前该方向的成熟度处于从“小样本、线性特征”向“大样本、非线性特征空间”扩展的阶段，本文正处在这个扩展的计算可扩展性瓶颈处。

发展脉络¶

奠基工作：从倾向得分模型到平衡理念

Rosenbaum & Rubin (1983)：提出倾向得分（propensity score），奠定了通过加权或匹配来消除可观测混淆偏差的理论基础。其核心思想是：给定倾向得分，处理分配与协变量条件独立。
Austin & Stuart (2015)：系统梳理了逆概率加权（IPTW）的最佳实践，强调在加权后必须检查协变量平衡。这篇文章标志着这一方向从“建模倾向得分”进入了“必须验证平衡”的规范阶段，但同时也暴露了IPTW对模型误设和极端权重的敏感性。
Kang & Schafer (2007)：通过仿真明确指出，当倾向得分模型被误设且某些估计倾向得分很小时，基于IP加权的方法（无论是否双重稳健）都会表现糟糕，从而直接催生了“通过直接优化平衡来绕过模型”的思路。

主要进展：平衡方法的兴起与核特征的引入

Zubizarreta (2015) 与 Wang & Zubizarreta (2020)：提出了“最小分散近似平衡权重”（minimal dispersion approximately balancing weights）。关键思想是：不建模倾向得分，而是直接求解一组权重，使其最小化离散度（如方差） 的同时近似平衡预设的协变量函数（如均值、方差）。Wang & Zubizarreta (2020) 证明了该权重下的估计量是 \(\sqrt{n}\)-一致、渐近正态且达到半参效率界的。这一簇工作确立了平衡方法的理论根基。
Wong & Chan (2018) 与 Hazlett (2020)：将特征空间从预设的线性/多项式函数扩展到再生核希尔伯特空间（RKHS）。Wong & Chan (2018) 证明了核平衡方法可以使协变量的任意光滑函数（在RKHS中） 近似平衡，并给出了有限维表示的优化问题。Chattopadhyay et al. (2020) 的综述则系统地比较了“建模方法”与“平衡方法”，并指出平衡方法在有限样本下往往表现更优。但这类方法的核心瓶颈在于：全量核矩阵的存储和分解是 \(O(n^2 s + s^3)\) 复杂度，对大数据（n 百万级）完全不现实。

当前Frontier与本文位置：核平衡的大规模计算

本文直接定位在这个“计算不可行”的缺口上。它采纳了Wong & Chan (2018) 的RKHS框架，但用两个“计算技巧”实现规模化：（1）用 rank-restricted Nyström方法在近线性的时间空间内计算一个低秩的核基展开，替代全量核矩阵；（2）用 ADMM一阶算法高效求解最终的凸优化问题。

子线索聚类¶

线索一：倾向得分建模与平衡的对比（平衡 vs 建模）
- 核心文献：Chattopadhyay et al. (2020), Ben-Michael et al. (2021), Zhao (2016), Kang & Schafer (2007)。
- 这一簇的工作在比较高层次的方法论，聚焦于“你是先建模再推导权重，还是直接优化权重”这个根本性选择。Chattopadhyay et al. (2020) 的工作指出平衡方法在有限样本下往往更好，而Zhao (2016) 则证明通过“协变量平衡评分规则（CBSR）”可以在不损失渐近效率的前提下获得更好的有限样本稳健性。
线索二：平衡权重的理论性质
- 核心文献：Wang & Zubizarreta (2020), Hirshberg et al. (2019), Kallus (2020)。
- 这一簇刻画了从“最小方差平衡权重”到“minimax线性估计量”的渐近理论。Wang & Zubizarreta (2020) 给出了最小方差权重的渐近正态性和效率性质，证明其等价于对逆倾向得分的收缩估计。Hirshberg et al. (2019) 则从一个更一般的“minimax 线性估计”框架出发，显示了基于RKHS的平衡权重估计器可以在弱条件下达到半参效率界。
线索三：大规模核矩阵的低秩近似
- 核心文献：Halko et al. (2011), Gittens & Mahoney (2016), Li et al. (2015), Wang et al. (2019), Pourkamali-Anaraki et al. (2018)。
- 这一簇是纯粹的计算/线性代数分支，独立于因果推断，但为其提供工具。Nyström法是该类方法的代表，其关键难点在于选哪些“地标点”（landmark points）。rank-restricted Nyström（Wang et al., 2019）的一个关键优点是它提供了相对误差界（\(\|K - \tilde{K}\|_* \le (1+\epsilon)\|K - K_k\|_*\)），这比传统的加法误差更强。

这个方向在追问的核心问题¶

偏差-方差权衡的最优实现：如何自动地在“协变量平衡”和“权重离散度（方差）”之间作出最优权衡？核方法引入的无穷维特征空间是否能带来理论上的效率增益，还是有代价？
非线性平衡的理论优势：Wong & Chan (2018) 提出的RKHS平衡本质上假设结果回归函数在RKHS中是光滑的。当这个光滑性假设不成立时，平衡核特征是否会引入不必要的偏差？这个光滑假设与半参数效率理论中对结果回归的 \(\sqrt{n}\)-Donsker类假设之间的关系是什么？
计算-统计的权衡：对于百万级观测，全量核矩阵是不可行的。Nyström近似的引入必然会带来近似误差。这个误差如何传播到最终的因果估计量中（偏差、方差、置信区间覆盖）？第几个最关键的秩 \(m\) 的选择是否依赖于问题中未知的核谱衰减速度？
对ATT/ATE vs. TATE的适用性：本文虽然聚焦于ATT，但指出可以推广到目标人群平均处理效应（TATE）。在TATE场景下，核平衡权重需要同时处理“样本选择偏差”和“治疗分配偏差”两个机制，难度显著提高。

⚠️ 作者的Framing（必须区分）¶

这是作者的说法：作者把缺口Frame成“一个纯计算问题”——Wong & Chan (2018) 和 Hazlett (2020) 的核平衡方法理论上很好，但计算太贵，没法用在他们的127万病人数据集上。因此，本文的贡献是“提供两个计算技巧（Nyström + ADMM）使这个好方法变得可行”。作者在引言中弱化了两个潜在的重要理论问题：（1）Nyström近似误差如何影响估计量的渐近性质？文中虽提及了Wang et al. (2019) 关于相对误差界的引理，但没有给出任何关于“有限秩近似如何改变IPW估计量的收敛速率或置信区间”的正式定理。（2）文中提到“We demonstrate in an extensive simulation study that … the proposed approach substantially outperforms others…”，这种“赢了所有对手”的叙述方式可能低估了在某些特定数据生成机制（如核谱衰减缓慢）下，Nyström带来的近似误差是否会主导最终结果。

值得研究者去查的问题：这篇论文没有引用 Kallus (2020) 的“Generalized Optimal Matching”（GOM）或“Kernel Optimal Matching”（KOM）。KOM是另一个在RKHS中做核平衡的代表性方法，且KOM的优化问题是一个线性约束的凸二次规划。为什么本文没有与KOM进行对比？有没有可能是KOM的优化问题在本文的大数据规模下也需要特殊处理，或者KOM的证明路径与本方法有本质不同？

张力¶

未见明显对立引用。被引文献之间在方法论上存在“建模 vs 平衡”的哲学分歧，但没有基于相同数据或条件得出相反结论的明确对立。Wong & Chan (2018) 与 Wang & Zubizarreta (2020) 之间存在一个有趣的张力：前者通过无穷维核特征来保证“近似”平衡，后者则证明有限维的精确平衡可以带来无偏性并接近半参效率界。这种“近似平衡于无穷维” vs “精确平衡于有限维”之间的取舍，是一个未解决的、动态的张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

目标估计量（Estimand）：ATT——平均处理效应在处理组上的分布：\(\tau_{ATT} = E[Y(1) - Y(0) | T = 1]\)。
符号：
- \(i = 1, \dots, n\)：独立观测单位。
- \(T_i \in \{0, 1\}\)：二元处理变量，1为处理组（如“营利性医院”），0为对照组（“非营利性医院”）。
- \(Y_i\)：结果变量（如“30天内全因死亡”）。
- \(X_i \in \mathbb{R}^d\)：观测到的协变量向量（如患者年龄、共病指数、医院床位等）。
- \(Y_i(1), Y_i(0)\)：潜在结果。核心假设：可忽略性（Ignorability） \(\{Y(0), Y(1)\} \perp T | X\) 和 重叠（Overlap） \(0 < P(T=1|X) < 1\)。
- \(w_i\)：分配给处理组（ATT场景下处理组单位权重为1，对照组单位权重为 \(w_i \ge 0\)）的权重。核心识别公式：\(\hat{\tau}_{ATT} = \frac{1}{n_t} \sum_{i: T_i=1} Y_i - \sum_{i: T_i=0} w_i Y_i\)，其中 \(\sum_{i: T_i=0} w_i = 1\)。
- \(K(x, x')\)：核函数（如高斯RBF核）。\(K\) 引发一个再生核希尔伯特空间（RKHS）\(\mathcal{H}_K\)，其再生性质为 \(f(x) = \langle f, K(\cdot, x) \rangle_{\mathcal{H}_K}\)。\(\phi(x)\)：通常指特征映射，但本文依赖于表示定理，因此 \(\phi(x) = K(\cdot, x)\)（即映射到RKHS中的元素）。
模型：非参数结果回归模型：\(Y(0) | X = x\) 的分布完全未指定。作者假设结果回归函数 \(m_0(x) = E[Y(0) | X=x]\) 位于 \(\mathcal{H}_K\) 中（或至少，在基展开后的低维子空间中近似良好）。治疗分配模型 \(P(T=1|X)\) 也是非参数的。
可观测数据：我们只能观测到 \(\{X_i, T_i, Y_i\}_{i=1}^n\)，其中对于 \(T_i=1\)，观测到 \(Y_i(1)\)；对于 \(T_i=0\)，观测到 \(Y_i(0)\)。潜在结果 \(Y_i(0)\) 对处理组单位不可观测，\(Y_i(1)\) 对对照组不可观测。我们使用权重 \(w_i\) 来模拟一个“虚拟的”对照组，使其在特征空间中与处理组单位“相似”。

第二步：讲最小内核¶

这篇论文不是“特例推广”型，而是“方法集成”型。它的核心很简单：把一个原本在 \(n \times n\) 核矩阵上求解的“平衡+方差最小化”凸优化问题，改造成一个可以在百万级数据上运行的“低秩近似+快速优化”流水线。

最小内核在于理解原问题（为什么不“scalable”），以及本文如何绕过这个瓶颈。

1. 原问题的核心（不可扩展版）：假设我们想找到一组权重 \(w_i\)（对对照组单位），使得处理组的经验平均值与加权后的对照组的经验平均值，在一个无穷维的RKHS特征上尽可能接近。这等价于解决如下优化问题（略去正则化细节）：

\[\min_{w \ge 0, \sum w_i = 1} \frac{1}{n_t} \sum_{i: T_i=1} \phi(X_i) - \sum_{i: T_i=0} w_i \phi(X_i) ^2_{\mathcal{H}_K} + \lambda \cdot \|w\|_2^2\]

利用再生性质，第一项中的范数平方可以写成核矩阵的二次型：

\[\left\langle \frac{1}{n_t} \sum_{i: T_i=1} K(\cdot, X_i) - \sum_{i: T_i=0} w_i K(\cdot, X_i), \frac{1}{n_t} \sum_{j: T_j=1} K(\cdot, X_j) - \sum_{j: T_j=0} w_j K(\cdot, X_j) \right\rangle\]

这个二次型展开后，主计算量在于求一个巨大的 \(n_0 \times n_0\) 对照组核矩阵 \(K_{00}\)（\(n_0\) 通常很大，如几百万×几百万）。直接构建和分解这个矩阵是 \(O(n_0^2)\) 甚至 \(O(n_0^3)\) 的，这就是不可扩展的根源。

2. 本文的关键想法：用秩-\(s\) 的 Nyström 近似替换全量核矩阵 Nyström方法说：我可以随机选 \(s\) 个地标点（比如随机选1000个病人），然后用这 \(s\) 个点构建一个秩-\(s\) 的近似核矩阵 \(\tilde{K} \approx K\)。

具体来说，如果随机选择 \(s\) 个“地标”点 \(\tilde{X} = \{\tilde{x}_1, \dots, \tilde{x}_s\}\)（可以从所有数据中均匀采样），则近似的核矩阵为 \(\tilde{K} = K_{n \times s} K_{s \times s}^{-1} K_{s \times n}\)，其中 \(K_{n \times s}\) 是所有观测点与地标点之间的核矩阵。 关键是：本文采用了“rank-restricted Nyström”（Wang et al., 2019），它比简单的Nyström更稳定、有更好的理论保证（如相对误差界），其计算复杂度是 \(O(n s + s^3)\)。当 \(s << n\) 时，这是近线性的（near-linear）。本文化用了一个通用公式：他们的“一步法”或“两步法”Nyström都能把计算量降到 \(O(n s + s^3)\)。

3. 最简例子：假设我们有 \(n=100\) 个对照组和 \(n_t=10\) 个处理组，协变量是一维的，使用高斯RBF核。如果用原来方法，要算一个 \(100 \times 100\) 的核矩阵；如果用本文方法，随机选 \(s=5\) 个地标点，计算量变成了算一个 \(100 \times 5\) 和 \(5 \times 5\) 的矩阵，后续所有问题都在这个“压缩”后的 \(s\) 维空间中求解。这就是内核：用低秩近似压缩了特征空间的维度，使一个原本在大维空间里的二次规划变成小维空间里的可解问题，从而ADMM求解器可以在近线性时间内收敛到最优解。

三、这篇论文做了什么¶

三句话：
1. 问题：在大规模观察性数据（127万病人）中，估计医院营利状态（营利 vs 非营利）对心脏病发作患者30天内死亡率的因果效应（ATT），需要一种能够灵活平衡非线性协变量且计算上可扩展的加权方法。
2. 工具：提出“可扩展核平衡权重”（Scalable Kernel Balancing Weights），结合了秩受限Nyström方法（用于在近线性时间空间内近似大核矩阵）和ADMM一阶优化算法（用于快速求解包含正则化的凸权重优化问题）。
3. 结论：模拟表明该方法在准确度和计算速度上显著优于现有的Propensity Score加权、熵平衡、以及普通核平衡（未规模化的版本）。实证发现营利性医院与非营利性医院在对心梗患者进行侵入性导管介入的比例上无显著差异，但营利性医院的死亡率和再入院率显著更高。

关键设定与假设（在最小记号基础上补全）¶

设定：\(n\) 很大（模拟中达几十万，实证中127万），协变量维度 \(d\) 中等（约30-40个患者/医院级别变量）。关注ATT，因此处理组权重固定为1。
核函数：采用高斯RBF核 \(K(x, x') = \exp(-\gamma \|x - x'\|^2)\)。带宽 \(\gamma\) 的选择通过一种二阶交叉验证（two-fold cross-validation）来优化，这个引自Wong & Chan (2018)。这是与线性矩方法相比的主要差异。
优化问题（以ATT为例）：
\[\min_{w \ge 0, \sum_i w_i = 1} \frac{1}{n_0} w^T \tilde{K}_{00} w - \frac{2}{n_t n_0} \mathbf{1}_{n_t}^T \tilde{K}_{t0} w + \text{const} + \lambda \cdot \|w\|_2^2\]
其中 \(\tilde{K}_{00}\) 是Nyström近似的对照组核矩阵（降维到秩 \(s\)），\(\tilde{K}_{t0}\) 是处理组与对照组的近似交叉核矩阵，\(\lambda\) 是调控权重离散度的L2正则化项（等同于最小化权重的方差）。与已有方法的关键区别：Wong & Chan (2018) 用的是正定规划（SDP）或需要大矩阵求逆的方法，其计算瓶颈是不可逾越的。本文将所有核矩阵替换为已经在低维子空间计算好的秩-\(s\)“基”（见下），从而整个优化问题变成一个带有非负和总和约束的严格凸二次规划（QP）。
计算架构的分解：Nyström近似本质上将无限维的RKHS映射到了一个 \(s\) 维的“经验特征空间”。一旦这个低维基矩阵（\( \Psi\)）构建好，全量数据就映射成了 \(n \times s\) 的设计矩阵，后续的QP不再涉及 \(n \times n\) 的核矩阵。这是可扩展的根本原因。

主要结果¶

模拟研究（信息量最大的部分）
- 设定：基于真实的医院数据，构建了线性结果和非线性结果（包含交互项/平方项） 的数据生成机制。样本量从 \(n=1,000\) 到 \(n=100,000\)。
- 对比方法：
  - GLM PS (IPTW)：线性logistic倾向得分 + IPW。
  - CBPS：协变量平衡倾向得分（Zhao, 2016）。
  - EB (Entropy Balancing)：在预设矩上精确平衡。
  - KBM (Kernel Balance)：Wong & Chan (2018) 的非可扩展版（在样本量较小 \(n=1,000\) 时用作“金标准”）。
- 核心量化结论：
  1. 准确度：在非线性结果场景下，可扩展核方法（本文）显著优于所有对比方法。其RMSE在 \(n=100,000\) 时仅为GLM PS的约20%，为EB的约30%。在线性结果场景下，所有方法的RMSE接近，但核方法仍是最好或备择。作者明确指出：这验证了在线性平衡中，一些基于矩的方法已经很强，但核方法在面对非线性混淆时能提供强大的边距。
  2. 速度：在 \(n=100,000\) 的数据上，本文方法（ADMM + Nyström）的运行时间（~18秒）远低于KBM（如果强制其在较大样本上运行，它根本跑不动），且远低于EB的求解器（~5分钟）。本文方法甚至比简单的GLM PS更快，因为PS需要拟合一个非凸的logistic模型，而本文问题的QP是完全凸的。
  3. 秩-\(s\) 的选择：模拟表明，核矩阵的秩 \(s\) 只需增加到200-300就能达到几乎完全的准确度。这对大数据的实用性是至关重要的发现——它意味着Nyström近似的质量极高，并且你不需要全量秩。
真实数据分析
- 数据：美国医保和医疗补助服务中心（CMS）的2014-2015年住院数据，1,270,505名急性心肌梗死（MI）患者，来自超过4000家医院。处理是“医院是否为营利性”。
- 结果：
  1. 介入性心脏手术率：加权后，营利性医院vs非营利性医院的患者接受导管介入（诊断性心导管术）的概率高度重合（分布几乎一样），差异无统计学意义（估计差异约 -0.2个百分点，95%CI: [-0.4, 0.1]）。
  2. 死亡率与再入院率：加权后，营利性医院的30天全因死亡率高出约0.4个百分点（95%CI: [0.2, 0.6]），30天再入院率高出约0.3个百分点（95%CI: [0.1, 0.5]）。
- 这个例子想说明什么：它展示了一个实际应用中的细致发现：混合了两个重要维度。“过程”（Procedure）与“结果”（Outcome）。营利性医院在治疗过程（介入率）上看起来与公立医院相当，但在治疗结果（死亡率/再入院率）上却更差。这提示可能存在“未观测到的过程质量差异”——比如营利性医院介入做得不标准、护理流程差，而这些在可观测协变量中无法完全解释。这个例子有力地展示了精细的因果推断（通过核平衡）能产生关乎政策的有意义的结论。

证明路线与技术技巧（理论型必写，要具体）¶

本文的理论贡献在于计算复杂度的保证和估计量在有限秩近似下的“有效性”论证，而不是新的极限分布定理。

整体路线：分三大步。
1. 第一步：降维（Low-rank Approximation）。证明秩-\(s\) Nyström近似（特别是rank-restricted Nyström）产生的核矩阵 \(\tilde{K}\) 与原矩阵 \(K\) 在迹范数（trace norm）下保持一个可控的相对误差。引用 Wang et al. (2019, Lemma 10) 给出的具体界：\(\|K - \tilde{K}\|_* \le (1+\epsilon)\|K - K_k\|_*\)。引文的技巧：Wang et al. (2019) 证明了这个界，它本质上是利用了随机化奇异值分解将SVD的计算量从 \(O(n^2 s)\) 降到 \(O(n s \log n)\)。
2. 第二步：改写优化问题。将原本基于 \(K\) 的核平衡QP改写为基于低维基矩阵 \( \Psi\)（大小 \(n \times s\)）的标准QP。形式为：
  \[\min_{w} w^T \Psi_{00} \Lambda^{-1} \Psi_{00}^T w \quad \text{s.t.} \quad w \ge 0, \sum_i w_i = 1.\]
  这种改写意味着我们不再需要与 \(n \times n\) 核矩阵交互。
3. 第三步：快速求解（ADMM）。标准QP可以用OSQP（Stellato et al., 2020）求解。关键跳跃：本文讨论了为什么ADMM比内点法快：ADMM每步计算的开销基本是矩阵-向量乘法，其主计算量被降低到 \(O(n s)\)（由于第一步已经把矩阵降维了），而内点法涉及求解一个大规模的牛顿系统，其计算量是 \(O(n^3)\) 量级，对大规模n极不友好。
关键跳跃点：近似误差的传播。作者巧妙地回避了全面证明：本文没有从理论上证明Nyström近似导致的权重 \(w\) 与理论最优权重之间的收敛率是一致的。作者选择的方法是依赖仿真。核心在于：“我们的Nyström近似是高质量的，因为它保留了核矩阵迹范数下的信息。我们在仿真中看到，当S足够大（如200-300）时，估计量的RMSE收敛到了和精确计算核矩阵一样的水平。” 对理论家而言，这是个未解决的开放问题。
技术技巧点名：
- Kernel Trick + Representation Theorem（标准技巧）：将无限维优化问题的解写成数据点的核函数的线性组合。
- Nyström低秩近似（计算线性代数）：用随机选取的地标点来近似核矩阵。特别是rank-restricted Nyström提供了优异的相对误差界。
- ADMM一阶优化（凸优化）：将一个大型QP分解为更简单的子问题，通过迭代求解，非常适合大规模并行和稀疏结构。本文使用OSQP求解器。
- Two-fold Cross-validation for Kernel Bandwidth（Wong & Chan, 2018）：以优化balance为目标来选择RBF核的带宽 \(\gamma\)。

结论是否比证明窄¶

是一个明显的模式：文中的理论内容严格窄于作者声称的结论。 - 窄得具体：作者声称该方法适用于“在大规模数据下”估计ATT，并给出了一个可扩展的算法框架。但文中对“可扩展”的保证仅限于计算复杂度（\(O(n s + s^3)\) vs \(O(n^3)\)）。它没有证明Nyström近似的秩 \(s\) 为何会/不会破坏估计量的渐近有效性（比如，方差是否收敛到半参效率界，置信区间是否保证覆盖）。作者用Wang et al. (2019) 的结论保证了近似误差在核矩阵的迹范数上是小的，但从未将这种近似精确地链接到估计量偏差的显式界上。 - 具体语句：文中在比较方法时写“demonstrably outperforms others in terms of accuracy and speed”，但“accuracy”仅基于仿真，没有对近似误差进行理论定界。在实证分析结论中，作者使用了“adjusting for measured confounders”和大约30个变量，但没有讨论未观测混淆对0.4%死亡率差异的可能影响（尽管在Sensitivity Analysis一节中提到这一点，但措辞没有本文标题那样自信）。

四、开放问题（点到为止，扎根具体语句）¶

Nyström近似误差的传播理论：本文依赖于仿真来验证近似是“足够好的”。可以做什么：严格证明一个指导性的结果：给定RKHS的谱衰减速度（即核矩阵特征值序列），需要多大 \(s\) 才能使IPW估计量的渐近偏差可忽略？这需要的是将低秩矩阵近似的误差传播到M-估计量的渐近偏差中。扎根点：文中直接使用了Wang et al. (2019, Lemma 10)的“相对误差界”，但全文没有任何地方将这个界转化为估计量偏差的一个确定性界。
秩选择的自适应方法：手动设定 \(s=300\) 是基于仿真的经验。在真实应用中，对于核谱衰减很慢的情况（如重尾分布的协变量），这个固定的 \(s\) 可能不够。可以做什么：设计一种数据驱动的自适应选择秩 \(s\) 的方法（例如基于在验证集上的balance-loss或交叉验证的RMSE），并证明其“秩选择准则”的一致性。扎根点：文中“The rank hyperparameter s can be chosen small (around 200–300)”，但未提供理论选择依据。
信号混杂的复杂性：在实证中，死亡率差异0.4个百分点（\(p\)-值很小，因为样本极大）是统计显著但临床效果微小的。鉴于医院间的巨大异质性（比如100万病人分布在4000家医院），这种效应是否完全由可观测协变量解释是存疑的。可以做什么：将本文的核平衡方法与一种敏感度分析框架（如E-value）结合，为0.4%的差异提供一个“未观测混淆要多强才能推翻发现”的量化结论。该连接点在于：你可以在核平衡的IPW估计量和双稳健估计量下的E-value之间做一个对比，检验结论的稳健性。
半参效率的缺失：Wang & Zubizarreta (2020) 证明最小方差平衡权重可以达到半参效率界，但那是针对线性特征或全核的。可以做什么：证明用了有限秩Nyström近似的核平衡权重是否仍然可以达到半参界（或只能达到一个稍大的次优方差）？这个问题直接连接用户的半参数理论与效率理论兴趣，并需要他在moderately_familiar的M-estimation上提升，以便推导该估计量的influence function并计算其渐近方差。

Maintained by 陈星宇 · Homepage · Source on GitHub