Borrowing information from an unidentifiable model: Guaranteed efficiency gain with a dichotomized outcome in the external data¶

作者: Lu Wang, Yanyuan Ma, Jiwei Zhao
来源: Biometrics
主题: 其他
相关性: 8/10
链接: https://doi.org/10.1093/biomtc/ujag062

一、核心问题与贡献¶

①研究了在主数据含连续结局而外部数据仅含其二值化版本（导致外部模型不可识别）时，如何跨数据源借信息提升回归系数估计效率的问题。②核心工具是基于半参数效率界与影响函数推导出的两类新估计量：一类在误差分布误判下保持渐近一致，另一类保证比仅用主数据的加权最小二乘估计有严格的方差缩减。③主要贡献是打破了数据整合中对结局同质或误差分布正确设定的依赖，在理论上证明了即使从不可识别的外部模型借信息，仍可实现有保证的效率增益。

二、基础设定¶

核心概念与符号
$Y$：连续结局（主数据观测）。
$D = I(Y > c)$：二值化结局（外部数据观测），$c$ 为已知截断点。
$X$：协变量，在主数据与外部数据中均观测。
$\beta$：目标回归系数（如 $E(Y|X) = X^T\beta$）。
WLS：仅使用主数据的加权最小二乘估计量，作为效率比较的基准。
IF (Influence Function)：影响函数，用于构造保证效率提升的估计量。
关键假设
外部模型不可识别性：外部数据仅观测 $D$ 与 $X$，无法识别 $Y|X$ 的完整条件分布。统计学含义：传统基于似然的数据整合在此失效，必须借助半参数投影。
误差分布的参数化工作假设：假设误差服从某参数分布（如正态），用于构建外部数据的似然/得分函数。与已有文献相比，本文放宽了此假设——Estimator 1 允许该假设误判仍保持一致，Estimator 2 在误判下虽可能失去一致性，但在正确设定下保证效率提升。
数据源独立性：主数据与外部数据独立抽样。
问题背景 现有数据整合方法通常要求不同数据源的结局变量尺度一致，或误差分布必须正确设定。最相关的文献是处理协变量重叠或汇总统计量整合的工作（如 Chatterjee et al. 2016），以及处理测量误差的回归校准方法。本文区别在于：外部数据的结局信息严重缺失（降维为二值），导致外部模型不可识别，传统约束似然或逆方差加权方法无法直接应用。

三、主要定理 / 核心结果¶

Estimator 1 的渐近一致性
原文陈述：在误差分布可能误判的情况下，基于广义矩条件构造的估计量 $\hat{\beta}_1$ 依概率收敛于真实参数 $\beta_0$，且具有渐近正态性。
直观解释：通过将误判的外部得分函数与主数据得分函数正交化，使得外部模型的系统性偏差在求期望时被抵消，从而不破坏一致性。
技术难点：在 misspecified sub-model 下处理信息矩阵的奇异性与偏差项的渐近消除。
局限：虽然稳健，但不保证比 WLS 效率更高。
Estimator 2 的保证效率增益
原文陈述：基于影响函数构造的估计量 $\hat{\beta}2$，其渐近方差满足 $V{\hat{\beta}2} \preceq V{WLS}$（即 $V_{WLS} - V_{\hat{\beta}_2}$ 半正定），且在非退化条件下严格小于 WLS 的渐近方差。
直观解释：利用半参数理论，将外部数据中关于 $D$ 的信息转化为对 $Y$ 估计的方差缩减。即使 $D$ 丢失了 $Y$ 的连续信息，它仍提供了 $Y$ 尾部概率的约束，这种约束等价于在切空间上增加了额外的得分函数方向，从而缩小了渐近方差界。
技术难点：证明方差差的半正定性，即证明外部数据的得分函数在主数据切空间上的投影非零，且投影方向必然压缩方差。
局限：依赖于误差分布的正确设定以保证一致性；若误判，虽可能仍有效率增益，但会产生渐近偏差。

四、证明框架 / 方法设计¶

证明主干逻辑：构造法 + 半参数效率理论 + 矩阵半正定比较。
关键逻辑步骤
建立主数据与外部数据的联合半参数模型，推导包含不可识别参数的联合得分函数。
在切空间中，计算仅用主数据的 WLS 的影响函数，以及加入外部数据约束后的影响函数。
通过影响函数的方差比较（利用投影定理），将效率增益问题转化为证明协方差矩阵差的半正定性。
证明外部数据的得分向量在主数据切空间上的投影非零，从而保证方差差的正定性。
最关键的技巧性引理/跳跃点：从"不可识别"的外部模型中提取"可识别"的得分函数分量。因为外部模型参数不可识别，直接求似然得分无效。跳跃点在于：虽然联合参数不可识别，但关于目标参数 $\beta$ 的投影得分是可识别的，且该投影得分与主数据得分正交/半正定缩减。
数学工具评价：是经典半参数效率理论（Bickel et al. 1993）与模型误判理论（White 1982）的巧妙组合。并非全新分析框架，但在不可识别设定下构造保证效率增益的估计量具有理论新意。

五、与研究者兴趣的关联¶

连接子方向：Semiparametric efficiency theory（特别是 misspecified sub-model 下的效率界与数据整合）。
可借鉴思路："从不可识别模型借信息"的投影机制。在 Proximal CI 中，常遇到不可识别的混杂代理变量（如无效的负对照）。本文将不可识别参数的得分函数投影到可识别切空间的技巧，可迁移至 Proximal CI 中处理无效工具变量的稳健估计问题，或在高维推断中利用不可识别的辅助信息进行方差缩减。
值得精读的参考文献：
Chatterjee, N., et al. (2016). Constrained maximum likelihood estimation for model calibration using summary-level information from external big data sources. （数据整合与约束似然的经典框架，对比本文理解如何处理不可识别性）
Rotnitzky, A., et al. (2019). Semiparametric inference with misspecified sub-models. （理解 misspecified sub-model 下的影响函数与效率界理论）

六、延伸思考与练习¶

假设扰动：若外部数据不仅二值化结局 $D=I(Y>c)$，还存在协变量测量误差（即外部数据的 $X$ 有误差），结论如何变化？技术上需要引入测量误差模型的得分函数，并重新计算切空间投影，可能导致效率增益不再有保证（需要额外的可识别性条件）。
开放问题：当外部数据的截断点 $c$ 未知或随主数据变化时，如何构造保证效率增益的估计量？这涉及 nuisance parameter 的更新与奈曼正交性的破坏。
理解检测题：假设外部数据不提供 $D=I(Y>c)$，而是提供 $E[Y|X]$ 的一个有偏估计（如来自文献的汇总统计量，偏差未知）。请基于本文的投影/影响函数逻辑，简述如何构造一个保证比 WLS 更有效的估计量，并指出其方差缩减的来源与潜在的偏差代价。

Maintained by 陈星宇 · Homepage · Source on GitHub