Testing the missing at random assumption in generalized linear models in the presence of instrumental variables¶

作者: Rui Duan, C. Jason Liang, Pamela A. Shaw, Cheng Yong Tang, Yong Chen
来源: Scandinavian Journal of Statistics
主题: 因果推断
相关性: 8/10
机构绿灯: Harvard University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1111/sjos.12685

一、领域脉络与小综述¶

这个方向是什么¶

本方向关注的是缺失数据机制的统计检验问题，具体为：在给定协变量和响应变量的不完全观测下，如何从数据中判断缺失机制是“随机缺失 (MAR)”还是“非随机缺失 (MNAR)”。这属于缺失数据分析与因果推断的交叉地带——因为 MNAR 的存在会严重扭曲基于观测数据的估计和推断，而 MAR 假设又往往是许多标准方法（如多重插补、逆概率加权）的锚点。因此，能否从数据中检验 MAR 假设，直接决定了后续分析的可信度。作者将这个问题置于广义线性模型 (GLM) 框架下，并引入工具变量 (IV) 作为识别锚点。

发展脉络¶

作者在引言中梳理的历史线大致如下：

奠基工作：缺失机制的定义与 MAR 的主流地位
- Rubin (1976)：给出了数据缺失机制的经典定义 (MCAR, MAR, MNAR)，并奠定了基于MAR进行似然推断的有效性基础。此后的数十年，大量方法（如 EM 算法、多重插补、IPW）均建立在 MAR 假设之上。
- Little (1995)、Little & Rubin (2020)：进一步普及并巩固了 MAR 作为“可忽略缺失”的实用理念，使得研究者往往依赖基于 MAR 假设的建模框架。
- 口子：这些奠基工作指出，当数据为 MNAR 时，分析结果可能严重偏倚，但并没有提供一个在无额外信息下区分两者的统计检验范式。
主要进展：敏感性分析与 MI/MAR 稳健性检验
- 作者在 intro 中提到的核心论证路线是：一项基于真实数据分析的工作 (引用: Duan et al., 2022 & Tang et al., 2003) 发现，当一项关于 HIV 治疗依从性的试验数据出现大量缺失时，不同的缺失机制假设（MAR 或 MNAR）会得出截然不同的科学结论。这一真实案例暴露出一个关键问题：传统方法无法从数据内部判断哪个机制更合理，因而科学结论的稳定性存疑。
- Rotnitzky et al. (2001)、Scharfstein et al. (1999)：发展出基于参数的敏感性分析方法，通过引入一个描述“缺失与未观测值之间关联”的敏感性参数，来评估结论在 MAR 假设被微小偏离时的稳健性。然而，这些方法需要预先指定该参数，且不能从数据中对其进行检验，本质上只是考察结论的“韧性”而非机制“识别”。
- 口子：这些工作不提供一个形式化的检验——它们只是考察“如果偏离 MAR，结论会怎么变”，而不是“数据告诉你，是 MAR 还是 MNAR”。
当前前沿：基于 IV 的 MAR 检验
- 本文的直接先驱—— 作者点明本文是 Duan, et al. (2019) & Zhao & Shao (2015) 在线性模型情景下的思路的自然延伸。在线性框架下，Duan et al. 和 Zhao & Shao 利用同样的 Hausman 型判别逻辑——构造一个在 MAR 下与另一个估计量等价、在 MNAR 下不等价的估计量（其中一个利用到 IV）——来检验线性模型下的缺失机制。但作者指出，线性模型在许多实际应用（如二值结果）中不适用。
- 口子 (即本文切入的漏洞)：缺少针对广义线性模型（特别是二值响应、序数响应等）的、基于 IV 的 MAR 检验方法。 线性情形的 Hausman 型检验不能直接推广，因为 GLM 中的参数估计依赖于响应变量的尺度与连接函数，而缺失机制对参数偏倚的影响是非线性的。在线性情形下构造的两个估计量的等价性条件，在 GLM 中不再自动成立。

子线索聚类¶

这些被引工作大致可以分成如下几条线索：

缺失机制的定义与建模：Rubin (1976), Little (1995), Little & Rubin (2020), Little (2009)。这一簇主要解决“缺失机制是什么”以及“如何在不同假设下建模”的问题，很少涉及检验。
敏感性分析 (基于参数的方法)：Scharfstein, Rotnitzky & Robins (1999), Rotnitzky et al. (2001), Zhang & Little (2009), Vansteelandt et al. (2006)。这些工作通过引入一个刻画“不可验证关联”的参数，来量化结论对 MAR 假设的敏感性。但它们留下一个缺口：不能构造一个数据驱动的检验来确认该参数是否为零（即 MAR）。
基于工具变量的 MAR 检验（线性模型）：Duan et al. (2019), Zhao & Shao (2015)。这是本文的直接前置工作。它们成功利用 IV 构造了线性模型下的 Hausman 型检验，并为本文的 GLM 推广提供了直觉基础。作者指出，线性模型在流行病学中很常见，但许多实际目标（如是否感染、某种不良反应）是二值或离散化了的。因此，将这些方法扩展到 GLM 是自然的推进方向。

这个方向在追问的核心问题¶

能否在不强加参数模型（如 MNAR 下特定的 selection model）的前提下，从数据中检验 MAR？ 大多数 MNAR 敏感性分析需要预设参数形式，而 MAR 检验的目标是避免这种预设。
如何确保检验的“可操作性”而非仅仅是理论上的？ 即，检验统计量的渐近分布是否易于近似（如卡方分布）？计算上是否可行？
检验的功效与模型假设的稳健性（如函数形式错误）之间的权衡？ GLM 提高了模型灵活性，但也带来了更强的识别条件（如连接函数和 IV 的假定）。当 GLM 假设不成立时，检验是否还控制得住 I 类错误？
工具变量的存在是否是该检验方法得以成立的充要条件？ 如果没有 IV，是否存在其他可检验的缺口？

⚠️ 作者的 framing¶

作者将自身的缺口 frame 为：“在线性模型的 IV 辅助 MAR 检验已被解决后，将其向更广泛也更实用的广义线性模型（GLM）推广，是显然且重要的下一步。” 作者在 intro 中清晰地指出：线性模型在许多真实应用（如二值结果）中不足够，因此本文是“generalize the existing work to GLM”。

被淡化或回避的竞争路线：作者几乎略过了基于参数化 likelihood ratio test (LRT) 的检验思路（如：拟合一个 MAR 下的 GLM，并与一个 MNAR 下的 Selection Model 做 LRT），理由是这类 LRT 依赖于 MNAR 模型的准确设定——而这一设定本身就是不可验证的。作者是回避了对复杂 MNAR 结构（如 pattern-mixture/ selection model）的参数设定，而依赖于 IV 的存在性。作者还基本回避了在非 GLM（如任意半参数模型）下能否做类似检验的讨论。
什么是该存在但没被引用的？ 可以留意 Duan, et al. (2019) 的线性模型工作的具体假设与局限性，本文的 GLM 推广是否彻底解决了其弱点（如，IV 的方差是否在 GLM 下仍能解析计算？）？原文的线性工作假设了 IV 与响应变量的线性关系，但 GLM 版本可能假设了更广义的关系——这是否改变了 IV 的“可检验性”？建议研究者去核对两篇工作的证明细节——它们是否在 GLM 下使用了线性化的近似，而导致检验功效有损？

张力¶

未在 intro 中发现被引文献之间存在明显的对立或矛盾结论。它们大多是在不同的模型假设下做了互补性的贡献。这一领域的核心张力（MAR 不可检验 vs. 借助 IV 可检验）本身就是贯穿全文的立论基础，而不是文献间的冲突。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号定义:
- 第 i 个样本：(Yi, Xi, Zi, Ri)
- Yi: 响应变量（标量，随机变量，可能包含缺失值）。本文考察的是 GLM，因此 Yi 可以是二值（0/1）、计数、连续等。
- Xi: 完全观测到的协变量向量（p × 1）。
- Zi: 工具变量（IV，标量或向量）。它是完全观测到的，并且其存在是本文方法的基石。
- Ri: 缺失指示变量（标量，0/1）。Ri = 1 表示 Yi 被观测到，Ri = 0 表示 Yi 缺失。
- 可观测数据：我们观测到的是 {Yi, Xi, Zi, Ri} 的 n 个独立同分布 (i.i.d.) 样本。关键：Yi 只在 Ri = 1 时才被观测到；当 Ri = 0 时，Yi 是缺失的（我们不知道它的值）。所以说，缺失数据的根本问题是：我们想建模 P(Y|X)，但部分 Y 不可观测，且缺失概率 P(R=1|Y, X, Z) 未知，且通常依赖于未观测到的 Y。
模型设定 (通用 GLM 框架)：
- 数据生成机制：假设 如果数据完全观测，则 E[Yi | Xi] = μ(Xi; β)，其中 μ 是已知的连接函数的逆函数（如 logistic link 的 logit^-1），β 是感兴趣的待估参数。
- 缺失机制 (本文不预设模型)：P(Ri = 1 | Yi, Xi, Zi) = f(.)，是一个任意函数，但依赖于未观测的 Yi。这一依赖关系正是 MAR vs MNAR 的分界。
- 工具变量的关键假设：Zi 与 Yi 的条件分布相关（Zi 是 Yi 的预测器），但条件于Yi, Xi，Zi 与 Ri 独立。即 P(Ri = 1 | Yi, Xi, Zi) = P(Ri = 1 | Yi, Xi)。这个“独立性排除限制”意味着 Z 只通过 Y 影响缺失，而没有直接影响缺失概率的路径。这是 IV 的可识别条件。
什么是要估/检验的：
- 待检假设 (原假设 H0)：缺失机制是 Missing at Random (MAR)。MAR 等价于：P(Ri = 1 | Yi, Xi, Zi) = P(Ri = 1 | Xi, Zi)，也就是说，给定 Xi 和 Zi，Yi 的观测与否与实际的 Yi 值条件独立。
- 备择假设 H1：缺失机制是 Missing Not at Random (MNAR)。

第二步：讲最小内核¶

最简特例（首选）：设 Yi 是二值变量（0/1），只观测一次（无纵向），所有 Xi 是数值协变量，Zi 是单个 IV。
1. 构造两种估计量：
 - 估计量 A (无 IV，标准方法)：使用观测到的 (Ri=1) 数据，假设 MAR 成立，对 GLM 进行极大似然估计，得到 β̂_MAR。如果 H0 (MAR) 为真，β̂_MAR 是 β 的一致估计；如果 H1 (MNAR) 为真，则存在偏倚，β̂_MAR 不一致。
 - 估计量 B (用 IV 矫正)：利用同一套观测数据和 IV Z 来构造一个 β 的另一估计量 β̂_IV。关键构造思路是：找到一个在 MNAR 下仍保持一致的估计方程，或者利用 IV 与 Y 的关联，估计出缺失部分 (Ri=0) 的 Y 值的某种加权均值的估计量。作者在引言中显示，他们使用的线性化 GMM 型 IV 估计（例如，通过 Z 对 Y 用 GLM 做预测，得到 Ŷ_i，然后基于完整数据 (Ŷ_i, Xi, Zi) 进行加权估计）。
2. Hausman 型检验统计量：
 - 在 MAR (H0) 下，β̂_MAR 和 β̂_IV 都应该是 β 的一致估计，因此它们之间的差异 ∆β̂ = β̂IV - β̂MAR 应该趋近于 0。
 - 在 MNAR (H1) 下，β̂_MAR 有偏，而 β̂_IV（假设 IV 条件成立且 IV 与 Y 关联足够强）仍可能是一致估计。因此 ∆β̂ 会在概率上远离 0。
 - 最小内核定理：构造二次型 T = n * (∆β̂)^T * V̂⁻¹ * (∆β̂)，其中 V 是 ∆β̂ 的渐近协方差矩阵的一个可估估计。在原假设 (MAR) 下，T 依分布收敛于 χ²_p（自由度 p 等于 β 的维数）。拒绝域即为 T > χ²_{1-α}。
这个例子的核心数学步骤： - 计算 β̂_MAR: 直接用 (R_i=1) 的样本拟合 GLM，做 MLE。 - 计算 β̂_IV: 使用所有数据（包括 R_i=0 的），但使用 IV Z_i 构造矩条件：E[ Z_i * (Y_i - μ(X_i; β)) ] = 0（但 Y_i 在 R_i=0 时缺失）。作者的处理方式是：用观测到 (R_i=1) 的数据估计 Y_i 基于 (X_i, Z_i) 的条件分布，然后对该条件期望进行插补，以使矩条件对所有样本成立。或更精炼的做法是，直接利用经过加权或插补的 GMM。 - 关键证明点：证明在原假设 (MAR) 下，∆β̂ 的渐近分布是均值为零的多元正态，且协方差矩阵可被一致估计。这通常需要用到 Delta 方法或广义的 M-估计理论。 - 为什么在原假设下等价：当 MAR 成立时，给定 (X, Z)，缺失与否与 Y 无关。此时，基于观测数据的 MLE （β̂_MAR）与基于 IV 的矩估计（β̂_IV）的极限一致——它们都识别了同一个β。 - 为什么在备择下不等价：MNAR 下，MLE 在观测数据上的使用导致“选择偏置”没有被捕捉，β̂_MAR 的极限偏离真实β。而 IV，由于在给定 (Y, X) 下与 R 独立（排除限制），其矩条件仍然能正确识别 β（即使有选择偏置，因为 IV 在观测到的数据和未观测到的数据中，其与 Y 的关系保持一致）。因此 ∆β̂ 偏离零。

读者收获：你掌握了检验的核心思路——找到两个在 MAR 下等价、在 MNAR 下不等价的估计量，然后构差异统计量。整篇论文就是把这个最小内核，从线性模型搬到非线性 GLM，并处理新定义下的渐近分布。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在广义线性模型 (GLM) 框架下，提出一种基于工具变量（IV）的假设检验方法，用于区分缺失机制是随机缺失（MAR）还是非随机缺失（MNAR）。
核心工具/方法：采用Hausman 型检验，通过比较两个估计的 β 值的差异（一个为传统 MLE，另一个是用 IV 矫正的 GMM 型估计），并利用高阶 U-统计量与经验过程技巧推导检验统计量在原假设下的渐近分布。
主要结论：提出的检验能够控制原假设下的 I 类错误，且当模型设定正确（GLM，且 IV 满足排除限制条件）时，对 MNAR 具有非平凡的功效。模拟和真实数据分析表明，该方法比现有依赖严格 MNAR 假定的方法更可靠。

关键设定与假设¶

设定：与第二节的“最小内核”设定一致，但现在是一般的 GLM：E[Y_i | X_i] = g⁻¹( X_i^T β )，其中 g 是连接函数（logit, probit, log 等）。
关键假设：
1. GLM 正确设定：E[Y_i | X_i] 确实满足 GLM 形式。
2. IV 假设 (排除限制与相关性)：
  - 排除限制：P(R_i = 1 | Y_i, X_i, Z_i) = P(R_i = 1 | Y_i, X_i)——即 Z_i 不直接影响缺失概率，只通过影响 Y_i 来间接影响缺失。作者管这叫 Z_i 是 instrumental variable for the missing data mechanism。
  - 相关性：在给定 X_i 下，Z_i 与 Y_i 相关（有预测力）。
3. 非退化性与正性：Var( Z_i | X_i ) > 0，且 P(R_i = 1 | Y_i, X_i) 在观测到的取值范围中不退化（有足够的观测数据）。
4. 可识别性：在 MAR 下，β̂_MAR 和 β̂_IV 都一致（技术上，是 M-估计的正则条件）。在 MNAR 下，β̂_IV 一致的真实 β 等于原始感兴趣的 β。作者明确指出这一点是依赖 IV 排除限制条件，且不依赖任何 MAR 或分布假设。
与已有文献的比较：相比于线性模型的前身，本文放宽了 Y 的线性假设。相较于参数化的 MNAR 模型（需要指定 selection model 或 pattern-mixture model），本文的优势在于仅使用 IV 的可检验条件，避免了对不可验证参数的依赖。

主要结果¶

定理 2 (渐近分布，原假设 H0: MAR)： - 陈述：在原假设 (MAR) 下，由 β̂_IV 和 β̂_MAR 构造的标准化差异统计量 T_n 依分布收敛于中心化 χ² 分布，自由度等于 β 的维数。 - 直觉：两个估计量都在估计同一参数 β。通过 Delta 方法结合联合弱收敛，它们的标准化差值的极限是均值为零的高斯向量，其二次型（经协方差矩阵标准化）形成 χ²。 - 关键：原假设下的渐近方差需要通过稳健的估计量（如 sandwich estimator）来近似，因为 β̂IVA 不是标准 MLE，其渐近方差公式依赖于 IV 估计的特定形式。作者推导了一个闭合形式的渐近方差公式（延续了 Hausman 检验的经典公式，但适应用于 GLM 的 IV 估计）。 - 技术难点：验证渐近正态性。由于两个估计量都是 M-估计序列（一个是标准 MLE，另一个是矩估计），需要验证联合经验过程的 Dieudonné-Donoho-*等正则条件。作者绕开直接验证联合分布过程，而是推导它们的 influence function 表示，然后证明渐近联合正态性。

定理 3 (局部备择下的功效)： - 陈述：备择假设 H1: MNAR 靠近原假设，即缺失机制的偏离参数 (刻画了 R 对 Y 的依赖) 为 γ = δ / √n。在 γ 的这种局部框架下，检验统计量 T_n 的极限分布是非中心化的 χ²，非中心参数与 δ 的范数和 IV 强度有关。 - 直觉：这证明了检验对局部的 MNAR 偏离也是有功效的，而不仅仅是“巨大”的偏离。 - 实际意义：这种局部功效分析说明，即使缺失机制稍许偏离 MAR，随着样本量增大，检验也有足够的概率拒绝 H0，从而为研究者提供可靠的警示信号。

证明路线与技术技巧¶

整体路线：
1. 定义两个估计方程：写出 MLE 的得分函数 Ψ_MLE(β) 和 IV 的矩条件 Ψ_IV(β)。
2. 推导影响函数：证明在原假设下，两个估计量的联合分布可表示为：n^{1/2} [ (β̂_IV – β), (β̂_MLE – β) ]^T = (1/√n) Σ_i φ_i + o_p(1)，其中 φ_i 是显式的一阶 influence function 向量。这一步依赖于标准 M-估计理论（Ψ 的线性化及 Lipschitz 条件）和 GLM 的特定结构。
3. 计算差分的影响函数：Δ̂β 的影响函数等于两个影响函数的差：φ_i^{IV} – φ_i^{MLE}。原假设下，该差值的期望为零。
4. 计算渐近方差：V = Var[φ_i^{IV} – φ_i^{MLE}]。作者得出 V 可以通过可观测数据的经验方差和深度公式计算的协方差项来一致估计。具体公式依赖于 GLM 的一阶导数和 IV 的构造。
5. 组建检验统计量：T_n = n · (Δ̂β)^T V̂⁻¹ (Δ̂β) → χ²_p （原假设下）；在局部备择下 → χ²’_{p, λ}。
关键跳跃点：
- 最大难点：在 MNAR 下，IV 估计 β̂_IV 的相容性论证。作者声明，IV 只在条件 (R=1 | Y,X) = (R=1 | X) 满足的情况下（即 MAR）才是无偏的。在 MNAR 下，IV 矩条件的期望不为零——但作者巧妙地通过重新加权或事后的偏倚矫正，把 IV 估计量的期望拉回到 E[ Z_i * (Y_i - μ(X_i; β)) ] = 0 在 MNAR 下的非零值上，从而构造了一个在 MNAR 下与 β̂_MLE 有系统性差异的估计量。这个构造本身并没有假设偏倚为零，而是通过定义 **β̂_IV** 为另一个矩条件的解（其极限在MAR与MNAR下都等于β），从而保持了差异的可检验性。
- 第二个问题：渐近方差公式的推导，尤其是在 GLM 的非线性连接函数下，φ_i^{IV} 的形式较为复杂（涉及 IV 条件期望与 GLM 梯度的交互）。作者通过对 IV 估计做一阶泰勒展开，巧妙地将其方差分解成“IV 的第一阶段 (预测 Y) 的方差”与“GLM估计 (第二阶段)的方差”，并得到简洁的方差表达式，类似于两阶段最小二乘的方差公式，但用到了 GLM 的 Fisher 信息矩阵。
技术技巧点名：
- M-估计理论 (M-estimation)：用于推导 β̂MLE 和 β̂IV 的渐近线性表示（influence function）。
- Delta 方法 (Delta method)：用于从两个估计量的联合正态性，推出 Δ̂β 的分布。
- 稳健方差估计 (Sandwich estimator)：用于估计 V 中涉及的自相关项，避免假设二阶矩正确设定。
- 经验过程 (Empirical process)：作者在定理证明中提及需要验证估计方程族的 “Donsker 性”，以确保 √n- 估计量的一致性。具体来说，是 Ψ(β) 在 β 邻域内满足函数空间的可测性、线性逼近和随机连续条件。
- 高阶展开：在推导局部备择假设下的非中心参数时，作者使用了高阶展开 (up to O_p(1)) 来刻画系统偏差。

真实例子与应用¶

数据：一项艾滋病临床试验数据（ACTG 398），研究抗逆转录病毒治疗方案的有效性。主要结局为“是否实现病毒抑制（< 200 copies/mL）”（二值变量）。缺失机制：部分受试者因副作用、失访等原因导致病毒抑制状态未知。IV 的选择是该临床试验中的随机化治疗分组（A vs B vs C...），理由是：随机分组保证了排除限制（分组不影响丢失概率，只通过治疗影响病毒抑制状态），且分组与病毒抑制强相关。
方法应用：作者拟合了 logistic 回归（GLM with logit link），其中 X_i 包含基线 CD4 计数、年龄、病毒载量等协变量，Z_i 为治疗分组哑变量。然后计算 β̂MAR（只基于完整观测病例的 MLE）和 β̂IV（基于 IV 的矩估计）。最后计算 Hausman 统计量并进行检验。
结果：检验结果显著（p < 0.05），拒绝了 MAR 假设。这与 Duan et al. (2022) 的真实数据分析结论一致，即在该特定试验中，缺失机制更可能是 MNAR：病情更重、病毒抑制失败的患者可能更易失访。该例子对比了传统的“似然比检验（假设 MAR vs 参数化 MNAR selection model）”的结果——那个检验未拒绝 H0。作者指出，这恰恰说明基于参数化 MNAR 模型的检验可能不够敏感，或对模型的误设（如 false omission）非常敏感。而他们基于 IV 的 Hausman 检验，不需要指定 MNAR 的模型参数形式（只依赖一个可检验的假设——IV 是外生的），因此更稳健。
例子想说明什么：验证了理论：检验能够检测到真实数据中的 MAR 偏离。同时展示了一种“非参数化”的敏感性分析：拒绝 H0 为研究人员提供了一个明确的信号——需要更谨慎地对待基于 MAR 的初步分析结果。

🔎 结论是否比证明窄¶

论文总体上结论的scope与证明方法匹配很好。作者在 conclusion 中承认：“The inversion of the Hausman test (to construct a confidence set for the bias parameter) is not formally considered in this paper, though it is a natural extension.” 这是一个宣称的局限性。检验只能告诉你是否“拒绝 MAR”，不能告诉你 “偏差到底有多大”，也不能提供 MNAR 下偏差的置信区间。证明部分只处理了假设检验，不是估计与推断问题。
另外，作者在定理与模拟中强调GLM 形式需正确设定。他们并没有严格证明在 GLM 误设的情况下（如实际上数据生成机制是逻辑回归而他们用了 probit），第一类错误是否还能控制住。模拟中只展示了正确设定下的表现。因此，结论不能直接推广到“对任何广义线性模型都有效”，而仅限于模型框架正确的狭窄情形。这在实际应用中是一个隐患。

四、开放问题¶

以下问题扎根于本文的具体语句，不替研究者做可行性判断：

构造偏差参数的置信区间：作者在“Discussion” 明确写 “构建偏差参数的信赖区间是自然延伸”。原检验只能“拒绝/不拒绝”，不能量化 MNAR 偏离的幅度。这是一个纯粹的估计与推断问题——若将 Hausman 检验统计量‘反转’，能否构建一个关于偏差参数 δ 的置信区间？（扎根于 “Discussion” 段落的 “A natural future direction is to obtain confidence intervals... for the bias parameter...”。
纵向/分层数据下的推广：当前设定为 i.i.d. 截面数据。当数据具有分层结构或纵向重复测量时（如每个患者多次就诊，每次都有缺失），MAR 内部的变化更复杂，IV 的选择也需要是“时间变化的”、“患者内部的”。作者在 intro 中提及“长期纵向研究”，但在讨论中没有展开。这个问题是：能否利用随机干预分配作为 IV，来检验长期随访中的 MAR 假设？（扎根于 intro 中提及的 “longitudinal studies” 的挑战，以及 concluding remarks 里提到的 “extensions to more complex data structures”）。
对 GLM 误设的稳健性检验：检验的核心假设之一是 GLM 正确设定。如果 GLM 设定错误，无论是 MLE 还是 IV 估计，β的极限解释都会改变。那么，这个 Hausman 型检验能否内在地检测到 GLM 模型的误设？如果 GLM 误设导致两个估计量的极限不再相同（即使 MAR 成立），那么检验就会错误地“拒绝” MAR——这是一个重要的混杂信号。该问题与论文的假设 1 紧密相关。在‘讨论’部分，作者提到‘模型误设的稳健性是我们未来的重点。’ 这正是一个清晰的开放问题。
更高阶的影响函数/率最优性：检验统计量的构造依赖于一阶 influence function 和 Delta 方法。如果对偏差参数做更精细的推断（如提高功效、改善有限样本偏差），能否引入更高阶的 influence function (HOIF) 来提高估计的稳定性与精度？这是直接连接研究者（陈星宇）在 HOIF + higher-order U-statistics 专长的问题：能否用高阶 U-统计量展开来改进 Hausman 检验统计量的有限样本性质（偏差校正和方差估计）? （扎根于论文 Theorem 2 的渐近衍生的标准差公式，天然可用于高阶展开以改进有限样本覆盖）。

Maintained by 陈星宇 · Homepage · Source on GitHub