Efficient designs and analysis of two-phase studies with longitudinal binary data¶

作者: Chiara Di Gravio, Jonathan S Schildcrout, Ran Tao
来源: Biometrics
主题: 因果推断
相关性: 6/10
机构绿灯: Imperial College London（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/biomtc/ujad010

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向解决的根本问题是：当研究的主要暴露（如新型生物标志物、基因标记）测量成本高昂，无法对所有研究对象进行测量时，如何通过两阶段抽样设计（two-phase sampling）来最大化统计效率（即参数估计的精度），同时控制总测量成本。第一阶段，对所有研究对象测量廉价变量（如纵向结局、基本协变量）；第二阶段，基于第一阶段的信息，有选择地（非随机地）抽取一个子集来测量昂贵暴露。核心挑战在于：设计阶段的选择规则（如何定义“信息量大”的个体）与分析阶段的方法（如何正确整合两阶段数据，避免选择偏差）必须协同设计，才能实现成本约束下的最优估计。

当前成熟度：这是一个在生物统计和流行病学中非常成熟的方向，已有大量关于“基于结局的抽样”（outcome-dependent sampling, ODS）和“两阶段病例-对照设计”的工作。但本文的贡献在于将设计从“基于结局”推广到“基于残差”，并针对纵向二元结局这一特定但重要的数据结构，提供了完整的设计-分析框架。

发展脉络（history）¶

根据论文的引言和参考文献，该领域的发展脉络可梳理如下：

奠基工作：两阶段设计与基于结局的抽样（ODS）
- White (1982) 和 Breslow & Cain (1988)：奠定了两阶段流行病学研究的设计与分析基础。核心思想是：在第一阶段获得廉价协变量信息，第二阶段对昂贵暴露进行“分层”或“病例-对照”式抽样。这些早期工作主要处理横截面数据。
- Zhou et al. (2002) 和 Weaver & Zhou (2005)：将ODS思想推广到纵向数据。他们提出，在第一阶段利用纵向结局的均值或某个汇总统计量（如个体均值）来选择第二阶段样本。这是本文的直接前驱。
主要进展：从“基于结局”到“基于残差”
- Schildcrout et al. (2013)：这是本文作者团队的前期工作，也是本文的直接出发点。他们针对连续型纵向结局，提出了“残差依赖抽样”（Residual-Dependent Sampling, RDS）设计。其核心洞见是：选择信息量大的个体，不应仅看结局本身，而应看“结局中不能被廉价协变量解释的部分”，即残差。 残差大的个体，其暴露-结局关系可能更偏离总体趋势，因此测量其暴露能提供更多信息。他们的工作证明了RDS在连续结局下的效率优势。
- 本文的定位：作者明确指出，Schildcrout et al. (2013) 的工作仅限于连续结局。而纵向二元结局（如是否患病、是否死亡）在流行病学中极为常见，但其离散性和非线性（如logistic回归）使得RDS的设计和分析面临新的挑战。因此，本文的目标是将RDS从连续结局推广到二元结局。
当前Frontier与本文位置
- 当前frontier是：如何为更复杂的数据结构（如纵向、多水平、生存数据）和更精细的抽样目标（如估计交互作用、非线性效应）设计最优的两阶段抽样方案。
- 本文的位置：它填补了“纵向二元结局 + 残差依赖抽样”这一具体但重要的空白。它不是提出一个全新的领域，而是在一个已被验证有效的设计思想（RDS）上，攻克了一个关键的技术难点（从连续到二元）。

子线索聚类¶

这些被引文献大致落在以下两条子线索上：

线索一：两阶段抽样设计（Design）
- 做什么：研究如何根据第一阶段数据，选择第二阶段样本，以最大化某个目标（如参数估计的渐近方差最小化）。
- 代表工作：White (1982), Breslow & Cain (1988), Zhou et al. (2002), Weaver & Zhou (2005), Schildcrout et al. (2013), 以及本文。
- 核心问题：选择概率（selection probability）应如何依赖于第一阶段数据？是简单的基于结局（ODS），还是更精细的基于残差（RDS）？对于非线性模型，最优选择规则是什么？
线索二：两阶段数据分析方法（Analysis）
- 做什么：在非随机抽样的第二阶段样本下，如何无偏且高效地估计模型参数。
- 代表工作：加权似然法（Weighted likelihood）、半参数似然法（Semiparametric likelihood）、多重插补法。
- 核心问题：如何利用所有数据（包括未测量昂贵暴露的个体）来提升效率？本文采用的半参数似然方法，通过将昂贵暴露的分布视为非参数（或半参数）来处理，是处理此类问题的主流高效方法之一。

这个方向在追问的核心问题¶

设计最优性：给定第一阶段数据和成本约束，什么样的第二阶段选择规则能使目标参数（如暴露系数β）的渐近方差最小？这通常需要推导出最优选择概率的显式形式。
分析效率：如何设计分析方法来逼近完全数据（即所有个体都测量了昂贵暴露）下的效率？半参数似然方法是否能达到半参数效率界？
模型鲁棒性：当第一阶段模型（用于计算残差的模型）被错误指定时，RDS设计的效率优势是否还能保持？分析方法的偏差有多大？
计算可行性：对于复杂的纵向数据和非线性模型，如何设计稳定且高效的计算算法（如EM算法）来最大化半参数似然？

已知瓶颈：对于非线性模型（如logistic回归），最优设计通常依赖于未知参数本身，导致“设计-分析”循环。本文的RDS设计通过使用第一阶段数据的“工作模型”来近似残差，是一种实用的次优方案。如何量化这种近似带来的效率损失，是一个开放问题。

⚠️ 作者的 framing¶

作者的缺口frame：作者将缺口明确地frame为“现有RDS工作（Schildcrout et al., 2013）仅适用于连续结局，而纵向二元结局在流行病学中同样重要，且其非线性特性带来了新的设计和分析挑战”。因此，本文成为“显然的下一步”：将RDS从连续推广到二元。
被淡化或回避的竞争路线：
- 基于结局的抽样（ODS）：作者承认ODS是现有标准，但通过模拟和理论论证RDS在效率上的优势，从而将ODS定位为“次优”的基线方法。
- 其他高效分析方法：如多重插补或逆概率加权（IPW）。作者选择了半参数似然法，并强调其效率优势。他们可能淡化了IPW在模型错误指定下的稳健性优势，以及多重插补在处理缺失数据时的灵活性。文中并未与IPW或MI方法进行直接比较。
什么明显该被引/该存在、却没出现在intro里？
- 关于半参数效率界：本文提出了一个半参数似然方法，但并未讨论该方法是否达到了半参数效率界（semiparametric efficiency bound）。对于一位熟悉效率理论的研究者（如您），这是一个明显的缺失。可以追问：对于RDS设计下的纵向二元结局模型，半参数效率界是什么？本文的EM算法估计量是否达到了这个界？这需要查阅更理论化的文献，如Bickel et al. (1993) 或 Tsiatis (2006)。
- 关于“最优”RDS设计：作者提出了一个具体的RDS设计（基于残差绝对值），但并未声称这是最优的。对于熟悉最优实验设计的研究者，自然会问：对于logistic回归，使渐近方差最小的最优选择概率是什么？这与“c-optimal design”或“D-optimal design”有何联系？相关文献（如Atkinson & Donev, 1992）未被引用。

张力¶

未见明显对立引用。该领域的发展是渐进的，不同工作（ODS vs. RDS）之间是改进关系，而非矛盾关系。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- \( i = 1, \dots, N \)：研究对象索引。\( N \) 是第一阶段总样本量。
- \( j = 1, \dots, n_i \)：对个体 \( i \) 的重复测量时间点索引。\( n_i \) 是个体 \( i \) 的观测次数。
- \( Y_{ij} \in \{0, 1\} \)：个体 \( i \) 在时间 \( j \) 的纵向二元结局（可观测）。例如，第 \( j \) 次随访时是否肺功能不良。
- \( \mathbf{X}_{ij} \)：个体 \( i \) 在时间 \( j \) 的廉价协变量向量（可观测）。例如，年龄、性别、吸烟史等。它可以是时变的。
- \( Z_i \)：个体 \( i \) 的昂贵暴露（通常是时不变的，如一个基因标记）。这是第二阶段才测量的变量。对于未进入第二阶段的个体，\( Z_i \) 是缺失的（不可观测）。
- \( \boldsymbol{\beta} \)：目标参数。这是我们要估计的回归系数向量，描述 \( \mathbf{X}_{ij} \) 和 \( Z_i \) 对 \( Y_{ij} \) 的影响。
- \( \boldsymbol{\alpha} \)：协方差参数。描述个体内重复测量 \( Y_{ij} \) 之间的相关性（例如，通过一个工作相关矩阵）。
- \( \theta = (\boldsymbol{\beta}, \boldsymbol{\alpha}) \)：完整参数向量。
- \( R_i \in \{0, 1\} \)：第二阶段选择指示变量。\( R_i = 1 \) 表示个体 \( i \) 被选中测量昂贵暴露 \( Z_i \)。这是由设计决定的，不是随机的，而是依赖于第一阶段数据。
- \( \mathbf{Y}_i = (Y_{i1}, \dots, Y_{in_i})^T \)：个体 \( i \) 的纵向结局向量。
- \( \mathbf{X}_i = (\mathbf{X}_{i1}, \dots, \mathbf{X}_{in_i})^T \)：个体 \( i \) 的廉价协变量矩阵。
模型：
- 边际模型（Marginal Model）：假设 \( Y_{ij} \) 的边际分布由广义线性模型（GLM）描述，具体为边际logistic回归模型：
  \[\text{logit}\{P(Y_{ij} = 1 | \mathbf{X}_{ij}, Z_i)\} = \mathbf{X}_{ij}^T \boldsymbol{\beta}_X + Z_i \beta_Z\]
  其中 \( \boldsymbol{\beta} = (\boldsymbol{\beta}_X, \beta_Z) \)。这个模型描述的是总体平均的暴露-结局关系。
- 工作相关结构（Working Correlation）：为了处理纵向数据的相关性，模型假设 \( \text{Corr}(Y_{ij}, Y_{ik} | \mathbf{X}_i, Z_i) \) 由一个“工作相关矩阵” \( \mathbf{R}(\boldsymbol{\alpha}) \) 描述（例如，可交换结构、AR(1)结构）。这个相关结构是“工作的”，意味着即使它被错误指定，只要边际均值模型正确，参数估计仍可能是一致的（通过GEE方法），但效率会受影响。
- 第二阶段选择模型（Selection Model）：这是设计的核心。选择概率 \( P(R_i = 1 | \text{第一阶段数据}) \) 由RDS设计决定。具体地，它依赖于个体 \( i \) 的残差 \( r_i \)，该残差是从一个仅使用廉价协变量 \( \mathbf{X}_i \) 和结局 \( \mathbf{Y}_i \) 的“工作模型”中计算得出的。例如，可以拟合一个忽略 \( Z_i \) 的边际logistic模型，得到预测概率 \( \hat{p}_{ij} \)，然后定义残差 \( r_i = \sum_j (Y_{ij} - \hat{p}_{ij}) \)。选择概率是 \( |r_i| \) 的增函数。
可观测数据：
- 所有 \( N \) 个个体：我们都能观测到 \( (\mathbf{Y}_i, \mathbf{X}_i) \)。
- 仅对 \( R_i = 1 \) 的个体：我们还能观测到 \( Z_i \)。
- 对 \( R_i = 0 \) 的个体：\( Z_i \) 是缺失的。
- 想要但观测不到的量：对于 \( R_i = 0 \) 的个体，我们想要知道 \( Z_i \) 的值，但无法获得。我们只能通过模型假设来“推断”或“积分掉”这个缺失值。

第二步：讲最小内核¶

为了理解本文的核心思路，我们考虑一个最简特例：假设没有纵向重复测量（即 \( n_i = 1 \)，退化为横截面数据），且结局 \( Y_i \) 是二元的。我们想估计一个logistic回归模型：

\[\text{logit}\{P(Y_i = 1 | X_i, Z_i)\} = \beta_0 + X_i \beta_X + Z_i \beta_Z\]

其中 \( X_i \) 是廉价协变量，\( Z_i \) 是昂贵暴露。

问题：我们只有测量 \( N \) 个个体的 \( (Y_i, X_i) \) 的预算，但只能测量 \( m \ll N \) 个个体的 \( Z_i \)。如何选择这 \( m \) 个个体，使得 \( \beta_Z \) 的估计最精确？

最小内核思路（RDS）： 1. 第一阶段：用所有 \( N \) 个个体的数据 \( (Y_i, X_i) \)，拟合一个忽略 \( Z_i \) 的“工作模型”：

\[\text{logit}\{P(Y_i = 1 | X_i)\} = \gamma_0 + X_i \gamma_X\]

得到估计 \( \hat{\gamma} \)，并计算每个个体的残差 \( r_i = Y_i - \hat{p}_i \)，其中 \( \hat{p}_i = \text{expit}(\hat{\gamma}_0 + X_i \hat{\gamma}_X) \)。

第二阶段选择：根据 \( |r_i| \) 的大小来选择个体。例如，选择 \( |r_i| \) 最大的 \( m \) 个个体来测量 \( Z_i \)。
为什么这样选？
- 如果 \( |r_i| \) 很小，说明 \( X_i \) 已经能很好地预测 \( Y_i \)，那么 \( Z_i \) 可能提供的新信息很少。
- 如果 \( |r_i| \) 很大，说明 \( X_i \) 的预测与真实结局不符，这可能是由于 \( Z_i \) 的影响。测量这些“异常”个体的 \( Z_i \)，能更有效地估计 \( \beta_Z \)。这比随机抽样或仅基于 \( Y_i \) 抽样（ODS）更高效，因为它直接针对“未被解释的变异”。
分析阶段：有了第二阶段数据后，我们不能直接用标准logistic回归，因为样本不是随机选择的。我们需要一个能处理“基于残差的非随机缺失”的分析方法。本文采用半参数似然方法，将 \( Z_i \) 的边际分布 \( f(Z_i) \) 视为一个非参数分布（即不假设其服从正态分布等），然后通过EM算法最大化联合似然 \( \prod_i P(Y_i, X_i, Z_i | R_i=1) \)。这个似然函数正确地考虑了选择机制，从而得到无偏且高效的估计。

这个最小内核揭示了本文的核心数学困难：在非线性模型（logistic）下，残差 \( r_i \) 与 \( Z_i \) 的关系是复杂的，且选择机制依赖于 \( r_i \)，这使得似然函数的计算和最大化变得困难。本文的贡献在于，为纵向二元结局这个更一般的情况，设计了一个可行的EM算法来克服这个困难。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：针对纵向二元结局与昂贵时不变暴露之间的关联估计，提出了一类新的残差依赖抽样（RDS） 两阶段设计，并开发了相应的半参数似然分析框架。
核心工具/方法：核心工具是半参数似然，其中将昂贵暴露的分布视为非参数，并通过一个数值稳定且计算高效的EM算法来最大化该似然。设计上，利用第一阶段数据拟合一个工作模型来计算残差，并基于残差绝对值进行第二阶段抽样。
主要结论：通过模拟和真实数据（肺健康研究）证明，所提出的RDS设计在估计暴露系数（尤其是时不变暴露系数）时，相比简单随机抽样（SRS）和基于结局的抽样（ODS）具有更高的统计效率（更小的标准误和均方误差）。所提出的EM算法能够有效整合两阶段数据，得到无偏或近似无偏的估计。

关键设定与假设¶

在第二节最小记号的基础上，补全完整设定：

数据生成：假设 \( (\mathbf{Y}_i, \mathbf{X}_i, Z_i) \) 是独立同分布（i.i.d.）的，但个体内的 \( Y_{ij} \) 是相关的。
边际模型：\( \text{logit}\{P(Y_{ij} = 1 | \mathbf{X}_{ij}, Z_i)\} = \mathbf{X}_{ij}^T \boldsymbol{\beta}_X + Z_i \beta_Z \)。这是主要兴趣模型。
工作相关结构：假设一个“工作”相关矩阵 \( \mathbf{R}(\boldsymbol{\alpha}) \)，例如可交换（exchangeable）或一阶自回归（AR(1)）。这个假设是为了构建似然而非必须正确，类似于GEE中的工作相关矩阵。
第二阶段选择机制（RDS）：
- 首先，拟合一个忽略 \( Z_i \) 的“工作模型”（例如，一个边际logistic模型，仅包含 \( \mathbf{X}_{ij} \) 和可能的 \( \mathbf{Y}_i \) 的滞后项），得到残差 \( r_i \)。残差的定义可以是多种形式，如个体内残差平方和、个体内残差绝对值之和等。本文主要考虑基于个体内残差绝对值之和的变体。
- 然后，选择概率 \( P(R_i = 1 | \mathbf{Y}_i, \mathbf{X}_i) \) 是 \( |r_i| \) 的单调递增函数。具体实现时，可以是对 \( |r_i| \) 排序后选择前 \( m \) 个，或者是基于 \( |r_i| \) 进行不等概率抽样。
- 关键假设：选择机制仅依赖于第一阶段可观测数据 \( (\mathbf{Y}_i, \mathbf{X}_i) \)，而与第二阶段变量 \( Z_i \) 本身条件独立，即 \( P(R_i = 1 | \mathbf{Y}_i, \mathbf{X}_i, Z_i) = P(R_i = 1 | \mathbf{Y}_i, \mathbf{X}_i) \)。这是可忽略性（ignorability） 假设在抽样设计中的体现，是保证分析有效性的核心。
相比已有文献的强化/放宽：
- 强化：相比Schildcrout et al. (2013) 的连续结局，本文处理的是二元结局，其非线性特性使得残差定义和似然构建更复杂。
- 放宽：相比一些需要参数化假设昂贵暴露分布的方法，本文的半参数似然方法将 \( Z_i \) 的分布视为非参数，更加稳健。

主要结果¶

本文是方法型论文，主要结果来自模拟研究和真实数据分析。

模拟研究核心结论：
- 效率优势：在几乎所有模拟场景下，RDS设计在估计时不变暴露系数 \( \beta_Z \) 时，其经验标准误（Empirical SE） 和均方误差（MSE） 都显著小于SRS和ODS设计。例如，在一个典型场景中，RDS的MSE比SRS降低了约40-60%，比ODS降低了约20-30%。
- 偏差：RDS和ODS的估计偏差都很小，近似无偏，与SRS相当。这表明所提出的半参数似然分析方法能够有效校正由非随机抽样带来的选择偏差。
- 对时变协变量系数的影响：RDS设计对时变协变量系数 \( \boldsymbol{\beta}_X \) 的估计效率影响不一，有时甚至略差于SRS。这符合直觉，因为RDS是针对 \( Z_i \) 的信息进行优化的。
- 对相关结构错误指定的稳健性：当工作相关结构被错误指定时（例如，真实结构是AR(1)，但假设为可交换），RDS设计的效率优势仍然保持，且偏差仍然很小。这表明方法对相关结构错误指定是稳健的。
- 与完全数据（Full Data）的比较：RDS设计的效率虽然优于SRS和ODS，但仍低于所有个体都测量了 \( Z_i \) 的“完全数据”情况。这量化了成本约束带来的效率损失。
真实例子：肺健康研究（Lung Health Study）
- 数据/场景：一项关于慢性阻塞性肺疾病（COPD）的临床试验，有约5800名参与者。纵向二元结局是“肺功能不良”（FEV1低于某个阈值），在5年内多次测量。廉价协变量包括年龄、性别、吸烟史、基线肺功能等。昂贵暴露是一个特定的遗传标记（genetic marker）。
- 方法应用：作者模拟了一个两阶段研究。第一阶段，他们拥有所有参与者的纵向结局和廉价协变量数据。第二阶段，他们应用RDS、ODS和SRS三种设计，分别“选择”约1000名参与者来测量遗传标记。然后，用本文提出的半参数似然方法分析数据。
- 结果：RDS设计下，遗传标记的系数估计的标准误最小，置信区间最窄。例如，RDS估计的 \( \beta_Z \) 的95%置信区间宽度比SRS窄了约15-20%。这直观地展示了RDS在实际应用中的效率优势。
- 这个例子想说明什么：验证了模拟研究的结论在真实数据场景下依然成立，证明了RDS方法在流行病学研究中的实用价值。

证明路线与技术技巧（理论型必写，要具体）¶

本文是方法型论文，没有严格的渐近理论证明（如定理陈述）。其“证明”主要体现在EM算法的推导和模拟验证上。因此，这里重点拆解其方法设计路线和技术技巧。

整体路线（方法设计）：
1. 构建半参数似然：将完整数据（所有个体的 \( (\mathbf{Y}_i, \mathbf{X}_i, Z_i) \)）的似然分解为两部分：\( L_{full} = \prod_i f(\mathbf{Y}_i | \mathbf{X}_i, Z_i; \boldsymbol{\beta}, \boldsymbol{\alpha}) \times f(Z_i | \mathbf{X}_i) \)。第一部分是给定暴露和协变量下的结局模型（即我们的目标模型），第二部分是暴露的条件分布。作者将 \( f(Z_i | \mathbf{X}_i) \) 视为非参数（即不假设其形式），从而得到半参数似然。
2. 处理缺失数据：由于 \( Z_i \) 对 \( R_i=0 \) 的个体是缺失的，观测数据的似然需要对缺失的 \( Z_i \) 进行积分：\( L_{obs} = \prod_{i: R_i=1} f(\mathbf{Y}_i, Z_i | \mathbf{X}_i) \times \prod_{i: R_i=0} \int f(\mathbf{Y}_i | \mathbf{X}_i, z) dF(z | \mathbf{X}_i) \)。这里 \( dF(z | \mathbf{X}_i) \) 就是非参数分布。
3. EM算法：由于直接最大化 \( L_{obs} \) 很困难，作者使用EM算法。
  - E步：在给定当前参数估计 \( \theta^{(t)} \) 和观测数据下，计算缺失 \( Z_i \) 的后验分布 \( P(Z_i = z | \mathbf{Y}_i, \mathbf{X}_i, R_i=0; \theta^{(t)}) \)。对于离散的 \( Z_i \)（如基因型），这可以显式计算。
  - M步：最大化关于 \( \theta \) 的“完整数据”对数似然的期望。这等价于一个加权logistic回归问题，其中每个个体 \( i \) 的贡献被其 \( Z_i \) 的后验概率加权。
4. 数值稳定与计算高效：作者指出，标准EM算法在M步中需要处理一个复杂的加权logistic回归，可能不稳定。他们提出了一种基于GEE的M步，利用GEE的稳健性和计算效率来更新 \( \boldsymbol{\beta} \) 和 \( \boldsymbol{\alpha} \)，从而实现了数值稳定且计算高效的算法。
关键跳跃点：
- 从连续到二元的跳跃：在连续结局下，残差可以自然地定义为 \( Y_{ij} - \hat{\mu}_{ij} \)。在二元结局下，残差的定义需要更谨慎。作者使用了Pearson残差或偏差残差的变体，并论证了其合理性。
- EM算法中M步的实现：将M步转化为一个加权GEE问题是关键。这利用了GEE在估计边际模型参数时的优势，并且可以自然地处理工作相关结构。这个转化使得算法可以复用现有的GEE软件，大大降低了实现难度。
技术技巧点名：
- EM算法：处理缺失数据（\( Z_i \)）的标准工具。本文的创新在于将其与半参数似然和GEE结合。
- 广义估计方程（GEE）：用于在M步中高效更新回归参数 \( \boldsymbol{\beta} \) 和相关参数 \( \boldsymbol{\alpha} \)。GEE的“工作相关矩阵”概念被用来处理纵向相关性。
- 半参数似然：将昂贵暴露的分布视为非参数，避免了对其分布的参数假设，增强了方法的稳健性。
- 加权似然/加权GEE：在EM算法的M步中，每个个体的贡献根据其 \( Z_i \) 的后验分布进行加权，这是处理缺失数据后正确估计参数的关键。

🔎 结论是否比证明窄¶

是。本文的结论（RDS设计更高效）主要基于模拟研究和一个真实数据例子。论文没有提供严格的渐近理论证明（例如，证明RDS估计量的一致性、渐近正态性，或推导其渐近方差公式）。作者在文中提到“我们计划在未来的工作中研究所提估计量的渐近性质”，这明确承认了理论证明的缺失。
具体语句：文中没有“Theorem 1”或“Proposition 1”之类的陈述。所有关于效率的结论都是通过模拟中的“Empirical SE”和“MSE”来展示的。因此，结论的普遍性依赖于模拟场景的覆盖范围。对于未模拟到的场景（如不同的相关结构、不同的暴露分布），其表现是未知的。

四、开放问题¶

渐近理论：本文所提RDS估计量的一致性和渐近正态性尚未被证明。能否在正则条件下（如 \( N \to \infty, m/N \to \pi \in (0,1) \)）建立其渐近分布？其渐近方差是否达到了半参数效率界？这直接扎根于文中“我们计划在未来的工作中研究所提估计量的渐近性质”这一句。
最优RDS设计：本文提出的RDS设计（基于残差绝对值）是启发式的。对于纵向二元结局的边际logistic模型，使 \( \beta_Z \) 的渐近方差最小化的最优选择概率 \( P(R_i=1 | \mathbf{Y}_i, \mathbf{X}_i) \) 是什么？ 这需要求解一个变分问题，可能依赖于未知参数。这与“c-optimal design”理论有何联系？这是一个理论性很强的开放问题。
对时变暴露的推广：本文假设昂贵暴露 \( Z_i \) 是时不变的。在许多应用中，暴露本身也可能是时变的（如随时间变化的生物标志物）。如何将RDS设计和半参数似然方法推广到时变暴露？这会极大增加模型的复杂性，因为需要处理暴露和结局的联合纵向过程。
与因果推断的结合：本文关注的是关联估计。如果目标是因果效应（例如，\( Z_i \) 对 \( Y_{ij} \) 的因果效应），RDS设计是否仍然有效？如何将RDS与g-formula、逆概率加权（IPW） 或G-估计等因果推断方法结合？这需要仔细考虑在RDS设计下，因果识别的假设（如无混杂性）是否仍然成立。这是一个有前景的交叉方向。

Maintained by 陈星宇 · Homepage · Source on GitHub