Improving Efficiency of Regression Analyses by Integrating Data from Population-Representative Surveys: A Model-Assisted Calibration Approach¶

作者: Yanhao Lu, Lingxiao Wang
主题: 因果推断
相关性: 7/10
链接: https://arxiv.org/abs/2606.31381

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的核心问题是：如何利用一个大型外部概率抽样调查（如 NHIS）的辅助信息，来提高一个较小内部概率抽样调查（如 NHANES）中回归分析的统计效率，同时保持对有限总体的有效推断（design-consistent inference）。这个子方向位于调查抽样（survey sampling）、数据整合（data integration） 和半参数效率理论（semiparametric efficiency） 的交汇处。其成熟度属于方法活跃期：基础工具（校准估计、广义回归估计）已有数十年历史，但将其系统性地应用于“两个独立概率样本”的数据整合场景，并处理复杂抽样设计下的方差估计，是近年来的前沿。

发展脉络（history）¶

奠基工作：校准估计与广义回归估计（GREG）
Deville & Särndal (1992) 和 Wu & Sitter (2001) 提出了校准估计（calibration estimation） 框架，通过调整样本权重使其满足对辅助变量总体总量的已知约束，从而改进对总体总量和均值的估计。这是整个方法的理论基石。
Särndal (2007) 系统总结了校准方法在调查理论中的实践。
核心遗留问题：这些方法主要针对总体总量/均值的估计，而非回归系数；且要求辅助变量的总体总量已知（或来自一个更大的、可计算总体总量的外部调查）。
主要进展：校准方法向回归分析和两相设计的扩展
Lumley, Shaw & Dai (2011) 建立了调查校准、缺失数据和半参数模型之间的连接，将校准方法（包括广义排秩估计，generalized raking）推广到两相研究（two-phase studies）中的回归分析。其关键洞察是：可以用影响函数（influence functions） 作为校准的辅助变量，从而将校准从总体均值估计扩展到回归系数估计。
Breslow et al. (2009) 和 Shin et al. (2020) 在流行病学两相设计（如巢式病例对照、case-cohort）中，展示了校准权重如何提高回归参数和纯风险（pure risk）估计的效率。
Wang (2025) 将校准方法进一步推广到复杂调查设计下的两相样本或合并样本，处理了更一般的抽样权重结构。
核心遗留问题：这些两相设计方法都假设外部数据（Phase I）是内部数据（Phase II）的超集（即 Phase II 是 Phase I 的随机子集）。当外部数据来自一个独立抽取的概率样本（如 NHIS）时，这个假设不再成立，方法不能直接应用。
当前 Frontier：数据整合中的效率提升与模型鲁棒性
Angelopoulos et al. (2023) 提出预测驱动推断（prediction-powered inference），利用机器学习预测来缩小置信区间，但要求内部数据是“金标准”且外部预测模型无偏。
Chatterjee et al. (2016)、Zhang et al. (2020)、Zheng et al. (2022) 提出利用外部汇总统计量（如回归系数估计值）来约束或增强内部模型的似然函数，但严重依赖结果模型的正确设定，且无法处理复杂抽样设计（Zhang et al., 2020 原文承认这一点）。
Chen, Li & Wu (2020) 针对非概率样本与概率样本的整合，提出了双重稳健估计，但非概率样本的“代表性”假设难以验证。
Hu, Ning & Tchetgen Tchetgen (2023) 从半参数数据融合角度，研究了利用有偏或噪声汇总数据时的效率悖论，但未涉及复杂抽样设计。
Wang et al. (2025) 开发了伪权重（pseudoweights）与调查校准方法，用于开发美国代表性的肺癌风险模型，但该方法针对的是“队列+调查”的特定结构，而非两个独立概率调查。
本文的位置：本文填补了上述两条线索之间的空白——它将校准方法从“两相设计”推广到“两个独立概率样本”的数据整合，同时保留了设计一致性（不依赖结果模型正确设定），并处理了复杂抽样设计下的方差估计。它同时覆盖了外部数据提供个体级数据（microdata） 和仅提供汇总统计量（summary statistics） 两种场景。

子线索聚类¶

线索 A：校准与广义排秩（Calibration / Generalized Raking）
核心工作：Deville & Särndal (1992), Wu & Sitter (2001), Lumley et al. (2011), Wang (2025)。
特点：设计驱动，不依赖模型正确设定；核心工具是影响函数校准和泰勒线性化方差估计。
线索 B：基于似然或约束的数据整合（Likelihood-based / Constrained Integration）
核心工作：Chatterjee et al. (2016), Zhang et al. (2020), Zheng et al. (2022)。
特点：模型驱动，通常假设结果模型正确；利用外部汇总统计量作为约束；无法处理复杂抽样设计（Zhang et al., 2020 原文明确提及）。
线索 C：预测驱动推断（Prediction-Powered Inference）
核心工作：Angelopoulos et al. (2023)。
特点：利用机器学习预测；提供有限样本有效的置信区间；但要求内部数据是金标准，且外部预测无偏。
线索 D：非概率样本与概率样本的整合
核心工作：Chen, Li & Wu (2020), Wang et al. (2025)。
特点：处理选择偏差；通常需要倾向性得分或双重稳健方法。

这个方向在追问的核心问题¶

如何在不依赖结果模型正确设定的前提下，利用外部数据提高回归效率？
主流方法（线索 B）依赖模型正确设定，而校准方法（线索 A）提供了设计驱动的替代方案。
当外部数据仅提供汇总统计量（而非个体级数据）时，能否实现类似的效率增益？
这是实际应用中的关键约束（数据保密、访问限制）。
如何正确估计整合后估计量的方差，同时考虑两个独立复杂样本的抽样变异性？
这是设计一致推断的核心挑战。
当内部和外部样本代表略有不同的有限总体时（如不同年份的调查周期），方法是否仍然稳健？
这是实际应用中几乎必然面临的偏离。

⚠️ 作者的 framing（必须明确标注成“这是作者的说法”）¶

作者把缺口 frame 成什么：作者声称，现有数据整合方法（如 Chatterjee et al., 2016; Zhang et al., 2020）“不能处理复杂抽样设计”（原文：“One of the major challenges in integrating data from multiple national surveys is appropriately accounting for their stratified multistage cluster sampling designs, which cannot be easily accommodated by existing likelihood-based approaches (Zhang et al., 2020).”）。同时，现有校准方法（如 Lumley et al., 2011; Wang, 2025）“依赖于 Phase II 是 Phase I 随机子集的假设，不能直接推广到一般调查整合场景”（原文：“these existing calibration methods rely on individual-level Phase I microdata and the assumption that the Phase II sample is a random subset of the Phase I sample. Consequently, they cannot be readily extended to general survey integration settings”）。因此，作者将自己的方法定位为“填补这一空白”的“显然的下一步”。
哪些竞争路线被他淡化或回避了：
预测驱动推断（Angelopoulos et al., 2023） 被引用，但作者将其归入“需要个体级辅助信息”的类别，没有深入讨论其与校准方法的理论联系（如校准是否可视为一种特殊的预测驱动推断）。
双重稳健方法（Chen, Li & Wu, 2020） 被引用，但作者将其定位为“非概率样本”场景，淡化了其概率样本整合中的潜在应用。
半参数数据融合（Hu et al., 2023） 未被引用——这是一个明显的缺失，因为该文系统研究了利用有偏汇总数据时的效率界，与本文的“外部汇总统计量”场景高度相关。
什么明显该被引 / 该存在、却没出现在 intro 里？
Hu, Ning & Tchetgen Tchetgen (2023) 的“Semiparametric data fusion: Efficiency and paradoxes with noisy or biased summary sources”未被引用。该文直接讨论了利用有偏汇总数据时的效率悖论，与本文 Section 4（仅用汇总统计量）的场景有直接理论关联。
关于“统计-计算权衡”的文献：本文方法涉及预测模型的构建（步骤 b），但未讨论预测模型复杂度与估计效率之间的权衡——这是一个值得研究者去查的问题。

张力¶

未见明显对立引用。被引工作之间在方法论上互补而非矛盾：校准方法（线索 A）与似然方法（线索 B）服务于不同的假设场景（设计驱动 vs. 模型驱动），各自有其适用边界。作者在 intro 中明确指出了这些边界，没有制造人为的对立。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
U = {1, ..., N}：有限总体（finite population），大小为 N。
Y_i：个体 i 的结果变量（outcome）。
X_i = (X_{1,i}^T, X_{2,i})^T ∈ ℝ^p：协变量向量。X_1 是“容易获取的”协变量（在所有样本中都能观测到），X_2 是“昂贵的”协变量（只在内部样本中观测到）。
Z_i：辅助变量（ancillary variables），与 X_2 相关，但与 Y 在给定 X 的条件下独立。不进入结果模型，但用于预测 X_2。
β = (β_1^T, β_2)^T：回归系数向量（要估计的 estimand）。β_FP 是有限总体中的真实值（即解总体估计方程得到的值）。
s_1：内部样本（internal sample），大小 n_1。在其中观测到 (Y_i, X_{1,i}, X_{2,i}, Z_i, w_i^{(s1)})。
s_2：外部样本（external sample），大小 n_2 > n_1。在其中观测到 (Y_i, X_{1,i}, Z_i, w_i^{(s2)})，但观测不到 X_{2,i}。
δ_i^{(s1)}, δ_i^{(s2)}：抽样指示变量（1 表示被抽中）。
π_i^{(s1)} = P(δ_i^{(s1)} = 1)：包含概率（inclusion probability）。
w_i^{(s1)} = 1/π_i^{(s1)}：逆包含概率权重（sampling weight）。
u_i(β)：个体 i 对得分函数（score function）的贡献。例如，对于线性回归（恒等链接），u_i(β) = (Y_i - β^T X_i) X_i。
U(β) = Σ_{i∈U} u_i(β)：有限总体得分函数。
Δ_i = [U_β^{-1} u_i(β)]|_{β=β_FP}：个体 i 的影响函数（influence function），其中 U_β = E[∂U(β)/∂β]。这是校准的关键辅助变量。
X_{2,i}^* = f(X_{1,i}, Z_i)：对昂贵协变量 X_2 的预测值（来自一个预测模型）。
X_i^* = (X_{1,i}^T, X_{2,i}^*)^T：用预测值替换 X_2 后的“代理协变量”向量。
u_i^*(β^*)：基于代理协变量 X_i^* 的得分函数贡献。
F_i(η)：校准调整因子（calibration adjustment factor），用于调整内部样本的权重。
S = s_1 ∪ s_2：合并样本（pooled sample），大小 n = n_1 + n_2。
模型：
工作模型（working model）：g(E[Y|X]) = β_1^T X_1 + β_2 X_2，其中 g(·) 是已知链接函数（如恒等、logit、log）。这个模型不一定是正确的——估计量的设计一致性不依赖其正确性。
数据生成机制：有限总体 U 是固定的（非随机）。Y_i 和 X_i 是 U 上的固定值。随机性完全来自抽样过程：s_1 和 s_2 是从 U 中独立抽取的概率样本，其包含概率 π_i^{(s1)} 和 π_i^{(s2)} 由复杂抽样设计（分层、整群、不等概率）决定。
预测模型：X_{2,i}^* = f(X_{1,i}, Z_i) 是一个辅助模型，用于预测 X_2。这个模型可以是任何统计学习模型（如线性回归、随机森林）。其正确性不是必需的，但预测质量影响效率增益的大小。
可观测数据：
内部样本 s_1：{(Y_i, X_{1,i}, X_{2,i}, Z_i, w_i^{(s1)}), i ∈ s_1}。这是唯一能观测到 X_2 的数据集。
外部样本 s_2：{(Y_i, X_{1,i}, Z_i, w_i^{(s2)}), i ∈ s_2}。X_2 缺失。
想要但观测不到的：X_2 在 s_2 中的值。整个有限总体的 (Y_i, X_i) 值。

第二步：讲最小内核¶

最简特例：考虑一个线性回归（恒等链接）、只有一个昂贵协变量 X_2、外部样本提供个体级数据的场景。假设 X_1 只包含截距项（即 X_1 = 1），且没有辅助变量 Z。那么： - 结果模型：E[Y|X_2] = β_0 + β_2 X_2。 - 内部样本 s_1：观测到 (Y_i, X_{2,i}, w_i^{(s1)})。 - 外部样本 s_2：观测到 (Y_i, w_i^{(s2)})，没有 X_2。

在这个特例下，本文的核心思路是什么？

内部估计 β̂_{s1}：直接用 s_1 的加权最小二乘估计 β̂_{s1}。这个估计是设计一致的，但方差大（因为 n_1 小）。
构建代理变量：由于没有 Z，无法预测 X_2。但我们可以用 X_1 = 1（截距）作为“预测”，即 X_2^* = 1。这看起来没用，但为了说明机制，我们假设有一个完美的预测 X_2^* = X_2（即我们神奇地知道 s_2 中每个人的 X_2 值）。那么：
代理模型：E[Y|X_2^*] = β_0^* + β_2^* X_2^*。
在合并样本 S = s_1 ∪ s_2 上，用加权最小二乘估计 β̂_S^*。由于 X_2^* = X_2，β̂_S^* 就是基于 n = n_1 + n_2 个观测的估计，其方差远小于 β̂_{s1}。
校准：校准的目标是调整 s_1 的权重，使得调整后的 s_1 在代理模型上的估计等于 β̂_S^*。具体地，我们寻找调整因子 F_i，使得： Σ_{i∈s_1} w_i^{(s1)} F_i · u_i^*(β̂_S^*) = 0，其中 u_i^*(β^*) = (Y_i - β_0^* - β_2^* X_{2,i}^*) · (1, X_{2,i}^*)^T 是代理模型的得分函数。这个方程强制调整后的 s_1 在代理模型上的得分与 s_2 的得分一致（因为 β̂_S^* 使合并样本的得分为零）。
最终估计：用调整后的权重 w_i^{(p.clb)} = w_i^{(s1)} F_i 在 s_1 上估计原始模型 E[Y|X_2] = β_0 + β_2 X_2，得到 β̂_{p.clb}。

为什么这能提高效率？

β̂_{p.clb} 可以近似写为：β̂_{p.clb} ≈ β̂_{s1} + Θ · (β̂_S^* - β̂_{s1}^*)，其中 β̂_{s1}^* 是只用 s_1 估计的代理模型系数，Θ 是 β̂_{s1} 和 β̂_{s1}^* 之间的协方差矩阵。
当 X_2^* 与 X_2 高度相关时，β̂_S^* 的方差远小于 β̂_{s1}，且 β̂_{s1}^* 与 β̂_{s1} 高度相关（Θ ≈ I）。因此，β̂_{p.clb} 的方差近似等于 β̂_S^* 的方差，即利用了外部样本的大样本量。
当 X_2^* 与 X_2 不相关时，Θ ≈ 0，β̂_{p.clb} ≈ β̂_{s1}，不会引入偏差。

核心数学困难：如何在不观测 X_2 的情况下，构建一个与 X_2 高度相关的代理变量 X_2^*？本文的答案是：利用辅助变量 Z（与 X_2 相关，且在 s_2 中可观测）来预测 X_2。预测模型的质量直接决定了效率增益的大小。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在两个独立概率样本（内部样本 s_1 观测昂贵协变量 X_2，外部样本 s_2 不观测 X_2）的数据整合场景下，如何利用校准方法提高回归分析的效率，同时保持对有限总体的设计一致推断。
核心工具 / 方法：提出了模型辅助校准（model-assisted calibration） 框架，利用影响函数或得分函数作为校准辅助变量，通过调整内部样本的权重来匹配外部样本的信息。该方法覆盖了外部数据提供个体级数据（pooled-sample calibration）和仅提供汇总统计量（external-sample calibration）两种场景。
主要结论：所提估计量是设计一致的，且渐近正态。其效率增益取决于外部样本大小和预测模型的质量。泰勒线性化方差估计量能正确反映两个独立复杂样本的抽样变异性。模拟和真实数据应用（NHANES + NHIS）验证了方法的有效性。

关键设定与假设¶

假设 (A.1)：s_1 和 s_2 是从同一个有限总体中随机抽取的，且包含概率为正（0 < π_i^{(k)} ≤ 1）。这是设计一致性的基础。如果两个样本代表不同的有限总体（如不同年份的调查），该假设可能被违反。
假设 (A.2)：s_1 和 s_2 是独立抽取的。这简化了方差分解（协方差项为零）。在实际中，如果两个调查使用相同的抽样框但独立抽取，该假设合理。
数据协调假设：变量 Y, X_1, Z 在 s_1 和 s_2 中以相同方式测量，以避免测量误差或数据协调问题导致的偏差。这是实际应用中的关键挑战（如 NHANES 和 NHIS 中自报 BMI 的差异）。
预测模型：X_2^* = f(X_1, Z) 可以是任何模型。其正确性不是必需的，但预测质量影响效率增益。这是“模型辅助”的含义——模型帮助提高效率，但不驱动一致性。
与已有文献的对比：
放宽了 Lumley et al. (2011) 和 Wang (2025) 中“Phase II 是 Phase I 随机子集”的假设。
放宽了 Chatterjee et al. (2016) 和 Zhang et al. (2020) 中“结果模型正确设定”的假设。
强化了“两个样本代表同一有限总体”的假设（相对于非概率样本整合方法）。

主要结果¶

定理 3.1（Pooled-Sample Calibration 的一致性）：
陈述：GREG 型 pooled-sample 校准估计量 β̂_{p.clb} 可以近似写为增广估计量 β̂_{s1} + Θ^T (β̂_S^* - β̂_{s1}^*)，其中 Θ 是 β̂_{s1} 和 β̂_{s1}^* 之间的协方差矩阵。在假设 (A.1)-(A.2) 和正则条件下，β̂_{p.clb} 是设计一致的，且渐近正态。
直觉：校准通过“借用”外部样本在代理模型上的估计 β̂_S^* 来修正内部估计 β̂_{s1}。修正项的大小由 Θ 控制，Θ 反映了代理模型与真实模型之间的相关性。
必要条件：s_1 的样本量 n_1 足够大，使得 β̂_{s1} 是设计一致的；预测模型 f 使得 β̂_S^* 是 β_{FP}^* 的一致估计。
解决的技术难点：如何在不假设 Phase II ⊂ Phase I 的情况下，构建校准方程。作者的解决方案是：用合并样本 S 的加权估计 β̂_S^* 作为校准目标，而不是用 s_2 的估计。这要求 s_1 和 s_2 的权重在合并样本中按比例缩放（步骤 c 中的 a_k = n_k / n）。
定理 4.2（External-Sample Calibration 的一致性）：
陈述：在假设 (A.1)-(A.2) 和正则条件下，β̂_{e.clb} 是设计一致的，且渐近正态。
直觉：当外部个体级数据不可用时，用外部汇总统计量 β̂_{s2}^* 代替 β̂_S^*。校准方程强制调整后的 s_1 在代理模型上的得分与 s_2 的得分一致（即 Σ_{i∈s_1} w_i^{(s1)} F_i · u_i^*(β̂_{s2}^*) = 0）。
必要条件：除了 (A.1)-(A.2)，还需要 s_2 的样本量足够大，使得 β̂_{s2}^* 是 β_{FP}^* 的可靠估计。当 n_2 较小时，外部校准可能比内部估计效率更低（模拟结果证实了这一点）。
解决的技术难点：如何在不访问 s_2 个体级数据的情况下，构建校准方程。作者的解决方案是：用得分函数 u_i^*(β̂_{s2}^*) 作为校准辅助变量（Lemma 4.1），这只需要 β̂_{s2}^* 和 s_1 的个体级数据。
方差估计（Section 5）：
推导了 Var(β̂_{p.clb}) 和 Var(β̂_{e.clb}) 的封闭形式，将方差分解为来自 s_1 和 s_2 的两个部分（利用假设 (A.2) 消除协方差项）。
提供了泰勒线性化方差估计量，可以处理复杂抽样设计（分层、整群、不等概率）。对于外部校准，方差估计不需要 s_2 的个体级数据，只需要 Var_{s2}(β̂^*)（即 β̂_{s2}^* 的方差-协方差矩阵）。

证明路线与技术技巧¶

整体路线（以 Pooled-Sample Calibration 为例）：

定义估计方程系统：将 β 和校准参数 η 的估计方程堆叠成一个系统 Ψ(θ) = 0，其中 θ = (β^T, η^T)^T。Ψ 包含两个部分：U(β)（原始模型的得分方程）和 Q(η)（校准方程）。
泰勒展开：在真实参数 θ_0 处对 Ψ(θ̂) 进行一阶泰勒展开，得到 θ̂ - θ_0 ≈ -[E[∂Ψ/∂θ]]^{-1} Ψ(θ_0)。
方差分解：利用假设 (A.2)，将 Var(Ψ(θ_0)) 分解为来自 s_1 和 s_2 的两个独立部分。每个部分的方差可以用 Horvitz-Thompson 型方差估计量（考虑复杂抽样设计）来估计。
推导 β̂_{p.clb} 的方差：从 θ̂ 的方差中提取 β 的部分，得到公式 (13)。
证明一致性：证明 β̂_{p.clb} 是 β_{FP} 的一致估计。关键点是：校准方程 (4) 确保调整后的 s_1 在代理模型上的得分与合并样本 S 的得分一致，而 β̂_{s1} 本身是设计一致的，因此修正项 Θ^T (β̂_S^* - β̂_{s1}^*) 是 o_p(1)。

关键跳跃点：

从“两相设计”到“独立样本”的跳跃：在两相设计中，校准目标（Phase I 的总体总量）是已知的或可直接从 Phase I 计算。在独立样本场景中，没有这样的“总体总量”。作者的跳跃是：用合并样本 S 的加权估计 β̂_S^* 作为校准目标。这要求 s_1 和 s_2 的权重在合并样本中按比例缩放（步骤 c），以确保 β̂_S^* 是 β_{FP}^* 的设计一致估计。
从“影响函数校准”到“得分函数校准”的跳跃（Lemma 4.1）：当外部个体级数据不可用时，无法计算 s_2 的影响函数。作者的跳跃是：证明用得分函数 u_i^*(β̂_{s2}^*) 作为校准辅助变量，与用影响函数是渐近等价的。这只需要 β̂_{s2}^* 这个汇总统计量，而不需要 s_2 的个体级数据。

技术技巧点名：

泰勒线性化（Taylor linearization）：用于推导估计量的渐近方差，是调查抽样中的标准技术。本文将其扩展到两个独立样本的场景。
影响函数（Influence function）：作为校准辅助变量，将校准从总体均值估计推广到回归系数估计（继承自 Lumley et al., 2011）。
Horvitz-Thompson 方差估计：用于估计 s_1 和 s_2 各自的抽样方差，可以处理复杂抽样设计。
增广估计量（Augmented estimator）：定理 3.1 将校准估计量表示为 β̂_{s1} + Θ^T (β̂_S^* - β̂_{s1}^*) 的形式，这类似于半参数理论中的“增广逆概率加权”（AIPW）估计量，但这里的“增广”项来自代理模型而非结果模型。

真实例子与应用¶

数据：NHANES 2003-2004（内部样本 s_1, n=1,543）和 NHIS 2003-2004（外部样本 s_2, n=24,086），以及 NHANES 2001-2002 和 2005-2006 的合并数据（作为另一个外部数据源 s_3, n=3,107）。
场景：估计10 年全因死亡率与总身体脂肪（total body fat） 的关联，调整年龄、性别、种族、吸烟、饮酒、体力活动等协变量。总身体脂肪是昂贵协变量（仅在 NHANES 中通过 DXA 测量），外部样本中不可用。
方法应用：
用自报 BMI 作为总身体脂肪的预测变量（X_2^* = f(BMI)）。
对 NHIS 外部数据，应用 pooled-sample 和 external-sample 校准。
对 NHANES 其他周期数据（s_3），同样应用两种校准方法，并将结果与基准估计（使用三个 NHANES 周期的合并数据，其中总身体脂肪全部可观测）进行比较。
结果：
两种校准方法都显著缩小了置信区间。例如，总身体脂肪的 log-OR 置信区间宽度从内部估计的 49.39 缩小到 pooled 校准的 25.96 和 external 校准的 23.67（使用 NHIS 作为外部数据）。
当使用 NHANES 其他周期作为外部数据时，校准估计与基准估计非常接近，验证了方法在假设满足时的有效性。
当使用 NHIS 作为外部数据时，点估计与基准略有偏离（可能由于测量差异），但效率增益更大（因为 NHIS 样本量更大）。
校准方法检测到了总身体脂肪和曾经吸烟的显著效应，而这些在仅用 NHANES 的分析中不显著。
这个例子想说明什么：
验证理论：展示了校准方法在真实复杂抽样数据中的有效性。
展示相对优势：与仅用内部样本相比，校准方法大幅提高了效率；与基准估计相比，校准方法在外部数据与内部数据略有差异时仍能保持合理表现。
揭示实际挑战：NHIS 和 NHANES 之间的测量差异（如自报 BMI）可能导致点估计的微小偏差，但效率增益仍然显著。

🔎 结论是否比证明窄¶

窄结论 1：定理 3.1 和 4.2 的证明依赖于线性链接函数（如恒等、logit、log）下的广义线性模型。作者在 Section 2 中明确将模型限制为 g(E[Y|X]) = β^T X。对于更一般的非线性模型（如 Cox 比例风险模型），方法的扩展需要额外的证明。作者在真实例子中使用了 logit 模型，符合这一限制。
窄结论 2：方差估计公式 (13) 和 (14) 依赖于假设 (A.2)（s_1 和 s_2 独立）。如果两个样本不是独立的（例如，它们共享部分抽样框或使用相同的 PSU），方差估计需要修正。作者在 Section 5 中明确提到了这一依赖。
窄结论 3：External-sample calibration 的方差估计（公式 14）要求 Var_{s2}(β̂^*) 是已知的或可估计的。在实际中，这通常意味着外部调查的发布结果必须包含回归系数的标准误。如果外部调查只发布点估计而不发布标准误，该方法无法直接应用。
泛泛 claim：作者在 Discussion 中声称方法可以“自然扩展到多个外部数据源”，但没有提供证明或算法。这是一个conjecture，而非已证明的结论。

四、开放问题（点到为止，扎根具体语句）¶

当预测模型质量较低时，如何保证效率增益？
作者承认：“the efficiency gain achieved by the calibration method can be relatively small when the correlation between the expensive covariate and its predictor is low”（Section 8）。扎根点：Table 1 中“Reduced prediction model”的结果显示，当预测模型不包含 X_3 的信息时，对 β_{x3} 和 β_{x1:x3} 的效率增益为零。开放问题：是否存在一个最小预测质量阈值，低于该阈值时校准方法不如直接使用内部样本？能否推导出效率增益关于预测相关性的显式表达式？
当内部和外部样本代表不同有限总体时，如何修正方法？
作者指出：“This strong assumption may restrict the applicability of the methods to integrating probability samples from different populations”（Section 8）。扎根点：真实例子中 NHIS 与 NHANES 的点估计差异暗示了假设 (A.1) 的可能违反。开放问题：能否结合倾向性得分加权（如 Wang, 2025）来放松“同一有限总体”的假设？当外部数据仅提供汇总统计量时，如何实现这种修正？
当外部样本量小于内部样本量时，如何避免效率损失？
作者观察到：“the external-sample calibration estimator can be slightly less efficient than the internal-sample estimator”（Section 6, Figure 2(b)）。扎根点：当 n_2 较小时，β̂_{s2}^* 的抽样变异性可能超过校准带来的方差缩减。开放问题：能否推导出外部样本量的最小要求（作为预测质量、内部样本量、模型维度的函数），使得校准方法保证效率增益？或者，能否设计一种自适应校准方法，在外部信息不足时自动退回到内部估计？
如何将方法扩展到更一般的非线性模型（如 Cox 模型）？
作者的方法局限于广义线性模型（公式 1）。扎根点：真实例子中使用了 logit 模型，但许多流行病学研究使用 Cox 比例风险模型。开放问题：对于 Cox 模型，影响函数的形式更复杂（涉及累积基线风险），校准方程如何构建？方差估计如何适应部分似然（partial likelihood）的估计方程结构？

Maintained by 陈星宇 · Homepage · Source on GitHub