Privacy-preserving, communication-efficient, and target-flexible hospital quality measurement¶

作者: Larry Han, Yige Li, Bijan Niknam, José R. Zubizarreta
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本文所针对的子方向是：在 多中心（federated / multi-site）观测数据 下，不共享个体级数据 且 仅限有限轮通信 的前提下，对目标人群的因果效应（平均潜在结局）进行推断。它融合了三个传统领域：① 因果推断中的 双重稳健 (doubly robust) 估计；② 联邦学习中的 隐私保护通信协议；③ 医院质量评估中的 风险标准化 (risk-standardization)。其核心统计困难在于：各中心之间的协变量分布、处理分配机制、结局生成机制都可能异质（heterogeneous），而通信与隐私约束又禁止了传统中心化推断。该方向目前正从“联邦均值估计”向“联邦因果推断”过渡，且从“以源中心加权为主”向“灵活目标人群且一轮通信”演进。

发展脉络（基于本文引言与被引论文梳理）¶

奠基：医院质量测量的传统方法
Krumholz et al. (2006)（CMS 模型）：采用分层逻辑回归+随机效应，对 AMI 患者 30 天死亡率做风险标准化，但依赖个体级数据集中分析，且假设医院间效应为随机，不处理选择偏差。
Silber et al. (2010) 指出该模型在低容量医院中预测偏差，说明“医院间异质性”是必须处理的关键，但中心化模型仍无法规避。
联邦学习框架的引入
Li et al. (2020)（综述）：定义联邦学习的挑战（异质性、通信、隐私），但该文献聚焦于预测模型（如均值、分类），不涉及因果推断的处理效应。
联邦因果推断的早期尝试（两轮通信或更多）
Han et al. (2021) – FACE: 提出 Federated Adaptive Causal Estimation，利用密度比加权整合源站点，通过惩罚回归自适应选择源，需两轮通信（先传输密度比，再传输加权统计量）。
Xiong et al. (2021)：同样在联邦设置下估计平均处理效应，先本地计算倾向性得分和逆概率加权统计量，再聚合。但要求预先指定哪些站点是“相似”目标人群，否则会引入极差权重。
Vo et al. (2021)：基于高斯过程的非参数贝叶斯方法，但通信轮次较多（迭代至收敛），且未提供双重稳健性。

共同局限（作者原话框架）：这些方法要么需要识别“正确”的同伴医院（source site），要么多轮通信，要么缺乏双重稳健性。作者据此将缺口定位为：不需要识别源医院、仅需一轮通信、具有双重稳健性的联邦因果估计器。

本文的位置
宣称是首个在 一轮通信、仅交换汇总统计量 条件下，对 任意目标人群 的 平均潜在结局 给出 双重稳健估计 的工作。
将医院质量评估从传统的“医院层面风险标准化”推广到“处理层面（PCI vs MM）的因果效应”，并允许跨医院利用非目标中心的数据来提高精度。

子线索聚类¶

这些被引工作可大致分为三条子线索：

线索	代表文献	共同手段	遗留问题
传统医院风险标准化	Krumholz(2006), Silber(2010), Keele(2020)	集中式逻辑回归/随机效应/平衡权重	依赖个体级数据，无法联邦
联邦学习与联邦推断	Li(2020), Xiong(2021), Vo(2021)	本地计算统计量+聚合，1-2轮通信	缺乏双重稳健处理因果效应；需预选源站点；多轮通信
联邦因果推断与双重稳健	Han(2021)-FACE, Li(2021)-FETA	加权聚合+自适应选择；或转移学习	仍需要识别“相似”医院；FACE需两轮通信；均未处理异质处理机制

本文声称将上述两条线索融合，并填补了“一轮通信 + 双重稳健 + 任意目标人群”的空白。

核心问题与已知瓶颈¶

该方向追问的核心问题如下（2-3个）： 1. 如何在不共享个体协变量分布的全貌下，校正各中心的人群异质性造成的选择偏差？
- 现有方法依赖密度比权重（如 FACE）或倾向性得分聚合（Xiong），但都需要额外的站点识别步骤或通信轮次。
2. 如何保证最终估计量在部分模型误设下仍具有一致性（双重稳健性）？
- 联邦设置下，异质性使得“同时处理倾向性模型和结局模型误设”更困难，因为每个中心的模型独立拟合，无法联合优化。
3. 通信效率与隐私保护的边界在哪里？
- 一轮通信能否同时实现双重稳健？能否扩展到高维协变量？现有联邦因果方法通常在通信轮次和偏差之间权衡。

⚠️ 作者的 framing（必须明确标注为作者说法）¶

作者将核心缺口描述为：“现有联邦因果推断方法要么需要识别适当的同伴医院（otherwise biased），要么需要多轮通信，要么缺乏双重稳健性”。具体而言，他们引述 Han et al. (2021) 和 Xiong et al. (2021) 时说“they can be biased if appropriate peer hospitals are not correctly identified”，而本文通过 构造目标人群特定的汇总权重 并配合 双稳健形式的本地统计量 来避免这一要求。此外，作者淡化或回避了以下竞争路线： - 中心化分析（个体数据先脱敏再集中）：隐私法规（如 HIPAA）要求禁止个体数据外泄，因此中心化在法理上不可行，即使技术上可行。 - 多轮迭代通信（如梯度交换）：作者未深入讨论此类方法的误差累加风险（虽然 Li et al. 2020 提到过），而是直接假设“一轮通信”为硬约束。

明显缺失的被引或该存在而未存在的东西： - 作者未引用 Balanced Risk Set Matching (e.g. Rosenbaum, 2002) 等医院比较中的匹配方法，可能因其需要个体级匹配，不适用于联邦设置。 - 未讨论 差分隐私 (Differential Privacy) 作为额外的保护层。虽然摘要中提到“privacy-preserving”，但实际算法只依赖共享汇总统计量（不满足 ε-DP），作者没有明确指出这一点。

张力¶

被引工作之间未见明显对立结论，但存在 设计理念的分歧：
- 一方主张 自适应选择源站点（Han, 2021；Li, 2021），认为盲目聚合会引入负迁移；
- 另一方（本文）主张 构造通用权重框架，无需识别参数，通过双稳健性容忍部分模型误设，从而减少通信。
这种张力体现在：本文是否真的绕开了“错误源站点”带来的偏差？还是将偏差转移到了模型假设上？文献中未见直接反驳。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

设共有 \( H \) 个医院（站点），医院 \( h \) 的数据包括 \( n_h \) 个患者，\( h=1,\dots,H \)。每个患者的数据为：

\( X \in \mathbb{R}^d \)：协变量（年龄、合并症等），
\( A \in \{0,1\} \)：治疗（0 = 药物治疗 MM，1 = 经皮冠状动脉介入治疗 PCI），
\( Y \in \mathbb{R} \)：结局（如30天死亡率，1=死亡, 0=存活; 或住院天数）。

可观测数据：研究者可看到每个医院内部的 \((X_{hi}, A_{hi}, Y_{hi})\)，但 不能将个体数据跨医院传输。唯一允许交换的是 汇总统计量（如样本均值、样本协方差矩阵、估计系数等），且仅在一轮通信中完成。

潜在结局框架：对每个患者，定义 \( Y(a) \) 为接受处理 \( A=a \) 时的潜在结局（\( a=0,1 \)）。可观测到 \( Y = Y(A) \)。目标 estimand 为 目标人群的平均潜在结局：

\[\mu_a^{\text{target}} = \mathbb{E}\big[Y(a) \mid \text{target population}\big], \quad a=0,1.\]

目标人群可以是任意指定的人群。为简化，本文假设目标人群是 所有 \( H \) 个医院联合的人群分布（即每个患者等权），称为“全局平均潜在结局”。但实际上方法支持任意的权重组合（如仅关注某个特定医院或某个人口亚组）。

识别假设（每个医院内部成立，但不必跨医院相同）： - 无混淆性（unconfoundedness）：\( Y(a) \perp A \mid X \)（给定协变量，处理分配独立于潜在结局）。 - 重叠（positivity）：\( 0 < \mathbb{P}(A=1 \mid X) < 1 \) 几乎处处成立。 - 一致性（consistency）：\( Y = Y(A) \)。

每个医院内部可分别建模倾向性得分 \( e_h(X) = \mathbb{P}(A=1 \mid X, \text{hospital } h) \) 和结局回归 \( m_{h,a}(X) = \mathbb{E}[Y \mid X, A=a, \text{hospital } h] \)。注意这些模型在不同医院间可以不同，且都是对目标人群的“源”模型。

关键挑战：目标人群分布 \( P_{\text{target}}(X) \) 可能与每个源医院的分布 \( P_h(X) \) 不同。因此需要权重校正。

第二步：最小内核——两个医院，平滑处理¶

考虑极端简化情形：只有 两个医院：\( H=2 \)。目标医院为医院1（target），医院2为源（source）。我们想估计医院1的平均潜在结局：

\[\mu_0^{(1)} = \mathbb{E}[Y(0) \mid \text{hospital 1}], \quad \mu_1^{(1)} = \mathbb{E}[Y(1) \mid \text{hospital 1}].\]

由于医院1自身数据足够（但可能样本量小），直接使用医院1的数据做 AIPW（Augmented Inverse Probability Weighting）即可得到一致估计，但方差大。若医院2的数据能帮助估计，则需使用权重重采样使医院2的协变量分布与医院1匹配。

权重构造：定义医院2中第 \( i \) 个患者的权重 \( w_{2i} \propto \frac{f_1(X_{2i})}{f_2(X_{2i})} \)，即医院1对医院2的似然比。若目标人群是医院1，则权重为 \( w_{hi} = \frac{\mathbb{P}(\text{hospital}=1 \mid X_{hi})}{\mathbb{P}(\text{hospital}=2 \mid X_{hi})} \)，可通过在医院2的样本上拟合一个“来源医院”分类器得到，仅需医院2的 \( X \) 分布信息。在实践中，作者使用 近似平衡权重（approximate balancing weights） 方法（Keele et al., 2020），直接令权重使得医院2的加权协变量均值与医院1协变量均值平衡，而不显式估计密度比。

一轮通信协议： 1. 每个医院本地计算出以下汇总统计量：
- 协变量均值向量 \( \bar{X}_h \) 和协方差矩阵 \( S_h \)（用于平衡权重计算）。
- 本地拟合的倾向性得分模型和结局回归模型（拟合时仅用本医院数据）。模型输出（如系数）为汇总统计量。
- 对于目标医院（医院1），还需计算其本地估计 \( \hat{\mu}_{1,a}^{AIPW} \) 以及所需的“增广项”的统计量。 2. 所有汇总统计量发送给中心服务器（或直接广播）。
3. 中心服务器或接收方（如目标医院）利用医院1的协变量均值与医院2的协变量均值，构造医院2的平衡权重（仅需求解一个凸优化问题，无需个体数据）。
4. 然后计算 联邦双重稳健估计量：

\[\hat{\mu}_a^{\text{fed}} = \frac{1}{n_1}\sum_{i=1}^{n_1} \hat{m}_{1,a}(X_{1i}) + \text{涉及医院2的校正项}.\]

其中医院2的校正项形式为：

\[\frac{1}{n_2}\sum_{i=1}^{n_2} w_{2i} \frac{\mathbb{I}(A_{2i}=a)}{\hat{e}_2(X_{2i})} \big(Y_{2i} - \hat{m}_{2,a}(X_{2i})\big).\]

注意这里的 \( \hat{m}_{2,a} \) 和 \( \hat{e}_2 \) 是基于医院2数据拟合的模型，其系数已作为汇总统计量传送到中心。权重 \( w_{2i} \) 通过平衡约束计算，不需要医院2个体 \( X_{2i} \) 显露，而是通过医院2的协方差矩阵和均值来计算权重所满足的矩条件。具体来说，平衡权重满足：

\[\sum_{i=1}^{n_2} w_{2i} X_{2i} = \bar{X}_1,\]

而该线性等式可以在已知 \( \bar{X}_1, \bar{X}_2, S_2 \) 的情况下，由中心服务器解一个简单的二次规划（比如最小化方差或熵）得到 \( w_{2i} \) 的近似解（虽不直接需要个体 \( X_{2i} \)，但需 \( \sum w_{2i} X_{2i} \) 的表达式，实际上可以通过拉格朗日对偶转化为只需要已知的协方差信息？——论文中使用的是“协方差矩阵+均值”即可解出权重，见附录）。这需要一些代数技巧，但确实仅需汇总统计量。

最小内核的结论：在双医院、目标为医院1的情形下，所构造的估计量是双重稳健的：若医院的倾向性模型和结局模型至少有一个正确指定，则 \( \hat{\mu}_a^{\text{fed}} \) 是相合的。其证明思路是：对医院2部分的加权 IPW 项，加上医院1部分的回归项，整体在两种误设方向下都无偏。此处的关键机制是：加权 IPW 部分使用了平衡权重（等价于密度比权重）来校正分布差异，减弱了对医院2模型外推到目标人群的敏感性。

推广到多个医院则只需将每对“源医院-目标医院”的校正项加权求和（权重正比于 \( n_h \) 或其他），即可得到全局估计量。

三、这篇论文做了什么¶

三句话¶

问题：在多医院观测数据下，不共享个体数据且仅一轮通信，估计 目标人群（如全部医院联合人群）的平均潜在结局 \( \mu_a = \mathbb{E}[Y(a)] \)，用于医院质量比较（PCI vs MM对AMI患者的影响）。
方法：提出一个 双重稳健的联邦估计量，其中权重通过 近似平衡权重 实现，仅需各医院交换 协变量均值、协方差矩阵、以及本地模型系数 等汇总统计量；通信仅一轮，且用户可灵活选择目标人群。
主要结论：在51家Candidate Cardiac Centers of Excellence的AMI数据上，联邦全局估计量相比仅用目标医院数据，精度提升59%–91%；63%的医院中，基于联邦估计的医院效能排序与基于单医院估计的排序不同。此外，医院很少同时在PCI和MM上表现优秀。

关键设定与假设¶

额外符号（补全第二节的记号）： - 目标人群权重 \( \nu_h \geq 0, \sum_{h=1}^H \nu_h = 1 \)：表示每个医院的观测在目标人群中的权重（通常取 \( \nu_h = n_h / N \) 使全局人群为所有患者的等权联合分布）。 - \( \hat{\mu}_{h,a}^{\text{DR}} \)：基于医院 \( h \) 本地数据的双重稳健估计量（标准 AIPW）。 - \( \hat{\mu}_a^{\text{fed}} \)：联邦全局估计量，定义为：

\[\hat{\mu}_a^{\text{fed}} = \sum_{h=1}^H \nu_h \hat{\mu}_{h,a}^{\text{DR}} + \sum_{h=1}^H \nu_h \hat{\Gamma}_{h,a}^{\text{bal}},\]

其中 \( \hat{\Gamma}_{h,a}^{\text{bal}} \) 是“平衡调整项”，利用其他医院（医院 \( \ell \neq h \)）的数据，通过平衡权重校正医院 \( \ell \) 的样本到目标人群分布（具体见附录）。

主要假设（原文明确列出的）： 1. 独立同分布假设：每个医院内部，\( (X_{hi}, A_{hi}, Y_{hi}), i=1,\dots,n_h \) 是 i.i.d. 来自该医院的患者总体。 2. 重叠与无混淆性：在每个医院内成立（同前）。 3. 模型估计的常规正则性：倾向性得分模型和结局回归模型采用参数或半参数模型（如逻辑回归、线性回归），且满足某些 Donsker 和 Lipschitz 条件，以保证在本地数据上 MLE 的一致性（在正确指定下）。 4. 目标人群定义：先给定一个参考医院（target，可以是任意医院或一个虚构的全体平均），其他医院通过平衡权重调整到该参考的协变量分布。当目标为全体平均时，每个医院分别作为 target 一次并聚合。 5. 通信模型：每个医院只发送一次汇总统计量（包括本地估计的系数向量、协变量均值、协方差矩阵等），接收方（研究者）计算权重，无需反馈。

与 FACE 相比，本文 不需要预先指定哪些医院是“源”，而是对所有医院统一处理，通过平衡权重自然避免负迁移（因为权重会自然给相似医院更多权重）。但代价是 需要假设目标群体的协变量分布已知（如通过目标医院的样本均值），而 FACE 中目标人群可任意指定。

主要结果¶

理论结果（论文 Section 3）：

Theorem 1 (一致性)：若对每个医院 \( h \)，至少以下之一成立：
(a) 倾向性得分模型 \( e_h(X) \) 正确指定，
(b) 结局回归模型 \( m_{h,a}(X) \) 正确指定，
则对于任意目标人群权重 \( \nu_h \)，联邦估计量 \( \hat{\mu}_a^{\text{fed}} \) 依概率收敛于 \( \mu_a^{\text{target}} \)。

直觉：证明将每个医院的本地双重稳健估计量与基于其他医院数据的平衡加权校正项组合，使得整体 \(\sqrt{n}\)-相合性不受个别医院模型误设影响。关键是校正项本身也是双重稳健的（因为它基于加权 IPW + 回归）。

Theorem 2 (渐近正态性)：在更强的假设下（所有模型正确指定，且正则条件满足），\( \sqrt{N}(\hat{\mu}_a^{\text{fed}} - \mu_a^{\text{target}}) \to N(0, V) \)，方差 \( V \) 可由汇总统计量的一致估计量得到。文中给出了方差估计的具体公式（由三个部分构成：目标医院方差、源医院方差、平衡权重引入的方差）。

效率提升的数值结论：在模拟和真实数据中，联邦估计方差约为单医院方差的 0.5 倍（对于小规模目标医院），与理论匹配。

未证明但声称的：作者在讨论中提到，对于高维协变量（d > n_h），本文方法理论上仍适用，但需要在权重构造中引入正则化（如 L1 平衡），并推断其收敛速度会降。他们没有为此给出正式定理。

证明路线与技术技巧（理论型）¶

整体路线（以 Theorem 1 为例）：

分解：将联邦估计量写成
\[\hat{\mu}_a^{\text{fed}} = \sum_{h} \nu_h \hat{\mu}_{h,a}^{\text{DR}} + \sum_{h} \nu_h \sum_{\ell \neq h} \hat{\Delta}_{\ell,h,a},\]
其中 \( \hat{\Delta}_{\ell,h,a} \) 是基于医院 \( \ell \) 数据推断医院 \( h \) 目标人群的校正项。
本地双重稳健性：对每个医院 \( h \)，由标准 AIPW 理论，\( \hat{\mu}_{h,a}^{\text{DR}} \) 在 (a)∨(b) 下是相合的估计量，收敛到 \( \mu_{h,a} = \mathbb{E}_{P_h}[Y(a)] \)。
校正项的双重稳健性：定义医院 \( \ell \) 对医院 \( h \) 的校正项：
\[\hat{\Delta}_{\ell,h,a} = \frac{1}{n_\ell}\sum_{i=1}^{n_\ell} w_{\ell,h,i} \frac{\mathbb{I}(A_{\ell i}=a)}{\hat{e}_\ell(X_{\ell i})}\big(Y_{\ell i} - \hat{m}_{\ell,a}(X_{\ell i})\big),\]
其中权重 \( w_{\ell,h,i} \) 由平衡约束 \( \sum_i w_{\ell,h,i} X_{\ell i} = \bar{X}_h \) 决定。关键引理表明，在给定 \( \bar{X}_h \) 和医院 \( \ell \) 的协方差矩阵（以及可能的更高阶矩）下，该权重是双重稳健的：若医院 \( \ell \) 的倾向性模型或结局模型正确，则 \( \hat{\Delta}_{\ell,h,a} \) 依概率收敛到 \( \mathbb{E}_{P_h}[Y(a)] - \mu_{\ell,a} \)（即分布差异的校正量）。证明用到平衡权重的矩匹配性质以及双重稳健的表达形式。
聚合：将这两部分累加，最终得到
\[\sum_h \nu_h \mu_{h,a} + \sum_h \nu_h (\mu_{h,a}^{\text{target}} - \mu_{h,a}) = \mu_a^{\text{target}},\]
此处 \( \mu_{h,a}^{\text{target}} \) 为医院 \( h \) 的目标人群平均，但注意目标人群协变量分布是医院 \( h \) 的分布？实际上通过构造，校正项之和正好使得整体收敛到目标人群的均值。

关键跳跃点： - 权重的计算只依赖汇总统计量：需要证明平衡权重 \( w_{\ell,h,i} \) 可由 \( \bar{X}_h, \bar{X}_\ell, S_\ell \) 确定。这依赖于一个简单的线性代数事实：最小化 \( \sum_i w_i^2 \) 约束 \( \sum_i w_i X_i = \bar{X}_h \) 的解可写成 \( w_i = 1 + (X_i - \bar{X}_\ell)^\top \beta \)，其中 \( \beta \) 是 \( S_\ell^{-1}(\bar{X}_h - \bar{X}_\ell) \)。因此权重不必显式计算每个 \( w_i \)，只需知道 \( \beta \) 即可。这确保了通信期间不泄露个体 \( X_i \)。（见论文附录A.1） - 校正项方差估计：方差公式推导中需处理嵌套的双重稳健性和权重扰动，作者采用 delta 方法并忽略权重估计误差的二阶项（因权重为 \( \sqrt{n} \)-相合）。

技术技巧点名： - 近似平衡权重（来自 Keele et al., 2020）——用于避免显式密度比估计，通过矩约束求解权重，对模型误设更稳健。 - 双重稳健估计的 local 实现——每个医院独立用 AIPW，然后聚合，而非联合似然。 - 利用协方差矩阵隐式传递矩信息——这是实现“仅需一轮通信”的核心 trick：权重计算只需要二阶矩，而协方差矩阵本身就是汇总统计量。

真实例子与应用¶

数据：来自 51 家候选心脏卓越中心（Candidate Cardiac Centers of Excellence）的电子健康记录，包括 2014-2018 年间因急性心肌梗死（AMI）入院的患者。分析的治疗是经皮冠状动脉介入治疗（PCI） vs. 药物治疗（MM）。结局为 30 天死亡率（二值）和住院时长（连续）。协变量包括年龄、性别、合并症指数等 22 个变量。

方法应用：
- 每个医院本地拟合逻辑回归（倾向性得分）和线性模型（结局回归），并计算本地 AIPW 估计。
- 汇总每个医院的协变量均值、协方差矩阵、模型系数。
- 目标人群被定义为 所有 51 家医院的患者联合人群（即目标医院权重 \( \nu_h \propto n_h \)）。
- 中心服务器计算每个医院对其他每个医院的平衡权重，然后构造联邦全局估计量 \( \hat{\mu}_a^{\text{fed}} \)。
- 比较 PCI 与 MM 的死亡率和住院时长差异，并对每家医院估计其处理效应（PCI vs MM）。

主要结果：
- 精度提升：联邦估计的标准误比仅用目标医院数据估计的标准误平均下降 59%（住院时长）到 91%（30 天死亡率）。
- 排序改变：在 63% 的医院中，基于联邦估计的“医院效能排序”（按 PCI vs MM 的差异排序）与基于单医院估计的排序不一致，有些医院从显著更优变为不显著，反之亦然。
- 医院专长：很少有医院同时在 PCI 和 MM 上表现优秀（即同时降低两者的死亡率），提示评估应该区分治疗策略。

例子想说明什么：
- 联邦估计能大幅提高统计功效，发现仅在单医院时无法检测到的差异。
- 单医院估计由于方差大，容易产生不稳定的排序，联邦估计提供了更可靠的基准。
- 医院质量评估不应只看整体风险标准化，而应关注不同治疗的特定表现。

🔎 结论是否比证明窄¶

Theorem 1 中的“一致性”是在 每个医院至少有一个模型正确 的条件下成立的。但作者在结论中声称“双重稳健”时，有时会简化为“即使部分模型误设也能保证一致性”。严格来说，是“对每个医院，至少其倾向性或结局模型之一正确”，而不是“全局任意组合误设”。若一个医院的两种模型全错，该医院的个体在整体一致性中仍可通过其他医院数据来补偿吗？从证明来看，如果目标医院自身两种模型都错，则其本地估计 \( \hat{\mu}_{h,a}^{\text{DR}} \) 会偏，而其他医院对该医院的校正项也只能校正到目标医院自身的分布，却不能补偿其模型误设带来的偏差。因此，论文结论实际上比“全局双重稳健”更窄——它要求每个医院单独满足“至少之一”条件。该细节在定理陈述中明确，但在实例讨论中被弱化。
方差估计的渐近正态性在“所有模型正确”假设下得到，未给出模型误设下的稳健方差估计。因此，实际应用中如果模型误设，置信区间可能不准确。作者在模拟中验证了覆盖概率在模型正确时接近95%，对误设场景的考察有限。
无实证的 高维协变量通用性：论文在讨论中声称方法可扩展到高维，但未给出定理，且实证中协变量维数远小于样本量。

四、开放问题（点到为止）¶

对每个医院的模型误设要求能否放松到全局而非个体？
定理1要求每个医院至少一个模型正确。能否构造一个仅要求总体上“大多数模型正确”的估计量，但仍保持双重稳健？扎根于 Theorem 1 的条件结构。
如何处理连续处理或多值处理（如多种手术类型）？
论文仅处理了二值处理。对于多分类或连续处理，平衡权重和倾向性得分模型需扩展，但一轮通信协议能否保持尚无答案。未来方向中提及但未展开。
差分隐私（DP）的附加保证如何纳入？
当前协议只通过限制通信内容保护隐私，不满足ε-DP。若要求严格的DP，统计量的噪声添加会如何影响双重稳健性？作者在讨论中承认是 open question。
高维协变量下的权重构造理论
论文提到正则化平衡权重（如松弛约束），但未提供有限样本理论。当 d 随样本量增长时，需要多少轮通信或多少矩信息才能保持一致性？这是统计-计算折衷的典型问题，与研究者兴趣高度相关。

（以上各条均可在论文的 Section 6 (Discussion) 和 Limitations 部分找到直接表述。）

Maintained by 陈星宇 · Homepage · Source on GitHub