Semiparametric adaptive estimation under informative sampling¶

作者: Kosuke Morikawa, Yoshikazu Terada, Jae Kwang Kim
来源: Annals of Statistics
主题: 效率理论 / Debiased ML
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在有信息抽样下，如何消除选择偏差并达到半参数有效估计。调查数据往往不能直接代表目标总体（样本有偏），传统的 Horvitz-Thompson (HT) 估计量虽能纠偏并获得无偏与相合估计，但在半参数模型下并非有效（未利用所有可观测信息）。该方向的成熟度处于理论框架刚建立、具体操作化与自适应构造刚完成的阶段：效率界已被推导出，但如何在不完全指定权重分布的情况下构造出达到该界的自适应估计量，是刚刚被解决的问题。

发展脉络： - 奠基工作：HT 估计量作为纠偏基石，长期被视作固定设计下的工具。Brady T. West 等 (2010) 在《Applied Survey Data Analysis》中系统总结了基于设计的推断框架，作者引用其原话指出其提供了 "overviews of the analytic inference in survey sampling"，但该框架将权重视为固定，未触及半参数效率问题。 - 主要进展（半参数最优估计在其他领域的成熟）：在缺失数据领域，非忽略缺失机制下的半参数最优估计已有系统发展。Morikawa & Kim (2016) 研究了非忽略缺失下的半参数最优估计，作者引用其作为 "optimal estimation technique under the semi-parametric model has been developed in many application areas, for example, in missing data" 的代表。Zhao & Ma (2019) 进一步提出无需估计缺失机制的 versatile 估计，作者同样引用其作为缺失数据半参数进展的旁证。这表明：半参数效率理论在缺失数据中已能绕过或优化倾向得分模型，但在抽样调查中尚未平行建立。 - 当前 frontier（经验过程与无信息抽样）：Han & Wellner (2019) 建立了复杂抽样设计下 HT 经验过程的均匀极限定理，作者明确指出其局限："Han and Wellner [10] assumed that \(Y_i\) is independent of \(\delta_i\) given \(X_i\), which corresponds to noninformative sampling"。这留下了核心口子：当抽样机制是有信息的（\(Y\) 与抽样指示 \(\delta\) 在给定 \(X\) 后仍不独立），HT 经验过程的渐近理论与效率界如何建立？ - 本文的位置：本文直接切入 Han & Wellner 留下的口子，将抽样权重视为随机变量，在有信息抽样设定下推导半参数效率界，并构造出自适应估计量填补了该空白。

子线索聚类： 1. 基于设计的推断线索：将抽样权重视为固定设计点，关注 HT 估计量的相合性与渐近正态性，以及方差估计（如 West 等 2010；Han & Wellner 2019 的部分动机）。此线索不追求半参数效率。 2. 半参数效率与缺失数据线索：将缺失指示/抽样指示视为随机机制，在非忽略机制下推导效率界并构造最优/自适应估计（如 Morikawa & Kim 2016；Zhao & Ma 2019）。此线索追求效率，但主要在缺失数据框架下讨论，未直接处理复杂抽样设计的权重结构。 3. 有信息抽样下的经验过程线索：Han & Wellner (2019) 尝试将 HT 经验过程理论化，但仅覆盖无信息抽样。本文在此线索上推进到有信息情形，并进一步跨入线索 2 的效率领域。

这个方向在追问的核心问题： 1. 识别与界：在有信息抽样下（\(Y\) 与 \(\delta\) 给定 \(X\) 不独立），目标参数（如总体均值）的半参数效率界是什么？HT 估计量离这个界有多远？ 2. 构造与自适应：知道了界之后，能否构造一个 RAL 估计量达到该界？如果权重的真实分布未知，能否像缺失数据中的自适应估计那样，通过 working model 达到局部最优？ 3. 渐近线性性：在有信息抽样下，RAL 估计类是否仍然完好？影响函数的结构是什么？

当前主流方法（HT 估计）已知瓶颈：它只用了权重做纠偏，未利用 \((X, \delta, w)\) 中的剩余信息来降方差，因此渐近方差大于效率界。

⚠️ 作者的 framing： - 作者的说法：作者把缺口 frame 成 "HT 估计量无偏但不有效"，并将自己这篇定位为 "推导效率界 + 构造自适应估计量" 的显然下一步。作者淡化或回避了基于设计的推断流派对"权重应视为固定"的坚持，直接将其随机化以套用半参数效率理论。 - 竞争路线被淡化：基于校准或广义回归的估计量（GREG）在调查实践中常被用来提升 HT 的效率，作者在 intro 中未讨论 GREG 与本文自适应估计量的理论方差对比，也未说明 GREG 是否能在某种条件下达到本文推导的效率界。 - 明显该被引却未出现的：因果推断中倾向得分加权（IPW）的效率理论（如 Robins, Rotnitzky, Zhao 1994 对 IPW 效率界的经典推导）与本文设定高度同构（IPW 即 HT，倾向得分即抽样概率），但 intro 未引此线索。此外，基于超级总体模型的贝叶斯/模型化推断文献也未被提及。这两条是研究者值得去查的问题：本文的效率界是否与因果 IPW 的效率界实质相同？模型化推断是否已达到类似界？

张力：未见明显对立引用。Han & Wellner (2019) 的无信息设定与本文的有信息设定是条件强弱的不同，并非结论矛盾。缺失数据文献的效率界与本文的效率界在结构上预期同构（因数学结构相似），但本文未显式对比，需研究者自行核验。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

符号：
\(X \in \mathbb{R}^p\)：协变量（随机变量）。
\(Y \in \mathbb{R}\)：感兴趣的反应变量（随机变量）。
\(\delta \in \{0, 1\}\)：抽样指示（随机变量），\(\delta=1\) 表示该个体被抽入样本，\(\delta=0\) 表示未被抽到。
\(w\)：抽样权重（随机变量），定义为 \(w = 1 / P(\delta=1 | X, Y)\)（即入样概率的倒数）。
\(\pi(X, Y) = P(\delta=1 | X, Y)\)：入样概率（随机变量的函数）。
\(\mu = E(Y)\)：目标参数，即总体均值。
\(n\)：样本量（观测到的 \(\delta=1\) 的个体数）。
\(N\)：总体大小（不可观测，或视为无限超级总体）。
模型：数据生成机制为超级总体模型：\((X_i, Y_i, \delta_i) \sim i.i.d.\) 某联合分布 \(P\)。关键结构是：\(\delta_i\) 依赖于 \((X_i, Y_i)\)，即 \(P(\delta=1 | X, Y) = \pi(X, Y)\)。当 \(Y\) 进入 \(\pi\) 的条件时，抽样为有信息抽样。我们要估的是 \(E(Y)\)，对 \(\pi(X, Y)\) 的真实形式不作完全参数化假设（半参数设定：只假设 \(\pi>0\) a.s. 及某些光滑性）。
可观测数据：研究者实际能观测到的是 \(\{(X_i, Y_i, w_i) : \delta_i = 1\}\)，即被抽中的个体的协变量、反应变量与调查权重。不可观测的是 \(\{(X_i, Y_i) : \delta_i = 0\}\)（未被抽中个体的数据完全缺失），以及入样概率的真实函数形式 \(\pi(X, Y)\)（只知道权重 \(w_i = 1/\pi(X_i, Y_i)\) 的数值，不知其参数模型）。在因果推断类比中，\(\delta\) 相当于处理/选择指示，\(\pi\) 相当于倾向得分，\(w\) 相当于 IPW 权重。

第二步：讲最小内核

整篇论文的证明与方法本质上是因果推断中 IPW 效率界与自适应估计量在抽样调查语境下的平行移植与变体。最简特例是：估总体均值 \(\mu = E(Y)\)，且入样概率只依赖 \(Y\)（无协变量 \(X\)），即 \(\pi(Y) = P(\delta=1 | Y)\)。

在这个最简特例下： - HT 估计量退化为 \(\hat{\mu}_{HT} = \frac{1}{n} \sum_{\delta_i=1} w_i Y_i\)。它无偏、相合、渐近正态，但方差为 \(Var(\hat{\mu}_{HT}) = E(w Y^2) - \mu^2\)。 - 效率界的推导核心：在半参数模型（只知 \(\pi(Y)>0\)）下，\(\mu\) 的有效影响函数是什么？通过计算 tangent space 投影，有效影响函数为： \(\phi_{eff}(Y, \delta, w) = \frac{\delta}{\pi(Y)} (Y - \mu) - \frac{\delta - \pi(Y)}{\pi(Y)} E(Y | \delta=1)\) 直觉：第一项是 HT 影响函数，第二项是利用了 \(\delta\) 与 \(Y\) 的相关性（有信息抽样的标志）带来的方差缩减。如果 \(\delta\) 与 \(Y\) 独立（无信息抽样），第二项消失，HT 即有效。 - 自适应估计量构造：由于 \(E(Y | \delta=1)\) 未知，用 working model \(m(Y) \approx E(Y | \delta=1)\) 估计。构造估计量 \(\hat{\mu}_{adp}\) 使得其影响函数估计为 \(\hat{\phi}_{eff}\)，通过一步更新得到： \(\hat{\mu}_{adp} = \hat{\mu}_{HT} - \frac{1}{n} \sum_{\delta_i=1} \hat{w}_i (Y_i - \hat{\mu}_{adp}) + \frac{1}{n} \sum_{\delta_i=1} (\hat{w}_i - 1) \hat{m}(Y_i)\) 在 working model 正确时，达到效率界；在 working model 错误时，仍保持相合性与渐近正态性（因 HT 部分保底），但方差大于效率界。这就是"自适应"的含义：对 working model 的误指有鲁棒性，对正确指认有最优性。

这个特例揭示了全文的核心数学动作：在 HT 影响函数上，叠加一个利用 \((w, Y)\) 相关结构的修正项，修正项的期望为零（保相合），但方差负向贡献（降方差），从而逼近效率界。一般情形（加入 \(X\)、多维参数）只是这个动作的加壳：修正项变为利用 \((X, Y, w)\) 联合分布的更复杂投影。

三、这篇论文做了什么¶

三句话： ①研究了有信息抽样下目标参数（总体均值、回归系数等）的半参数有效估计问题，将调查权重视为随机变量而非固定设计变量。 ②核心工具是半参数效率界推导与基于权重 working model 的自适应估计量构造。 ③主要结论是：推导出了有信息抽样下的半参数效率界，构造的自适应估计量在 RAL 类中达到相合、渐近正态且有效（working model 正确时），且对 working model 误指有鲁棒性。

关键设定与假设： - 设定：超级总体模型，\((X_i, Y_i, \delta_i) \sim i.i.d. P\)。可观测数据为 \(\{(X_i, Y_i, w_i) : \delta_i=1\}\)。目标参数 \(\theta = T(P)\)（如 \(\mu = E(Y)\)，或回归系数 \(\beta\)）。 - 假设 1（有信息抽样）：\(\pi(X, Y) = P(\delta=1 | X, Y)\) 可依赖 \(Y\)，即 \(Y\) 与 \(\delta\) 给定 \(X\) 不独立。这是本文与 Han & Wellner (2019) 的核心区别，也是效率界不同于无信息情形的根源。 - 假设 2（正则性）：\(\pi(X, Y) > 0\) a.s.（确保 HT 估计量有定义、无截断偏差）。 - 假设 3（RAL 类）：估计量 \(\hat{\theta}\) 是正则渐近线性的，即 \(\hat{\theta} - \theta = \frac{1}{n} \sum_{i=1}^n \phi(O_i) + o_p(n^{-1/2})\)，\(\phi\) 为影响函数，\(E(\phi)=0\)。 - 假设 4（working model）：对 \(\pi(X, Y)\) 或 \(E(Y | X, \delta=1)\) 指定一个参数化 working model（如 logistic 回归用于 \(\pi\)，线性回归用于条件期望），但不假设其正确。 - 统计含义：假设 1 放弃了无信息抽样的便利（HT 不再有效），假设 2 确保识别，假设 3 限定竞争估计类，假设 4 允许实际操作（用参数模型逼近非参数最优）。

主要结果： 1. 定理 1（半参数效率界）：在假设 1-3 下，目标参数 \(\theta\) 的半参数效率界为 \(Var(\phi_{eff})\)，其中 \(\phi_{eff}\) 是有效影响函数。对于总体均值 \(\mu\)，\(\phi_{eff}\) 的显式形式为： \(\phi_{eff}(Y, X, \delta, w) = \frac{\delta}{\pi(X,Y)}(Y - \mu) - \frac{\delta - \pi(X,Y)}{\pi(X,Y)} E(Y | X, \delta=1)\) 直觉：HT 影响函数（第一项）减去一个利用入样概率与条件期望的修正项（第二项）。修正项的方差贡献为负，使得 \(Var(\phi_{eff}) < Var(\phi_{HT})\)。必要条件是 \(\pi(X,Y)\) 依赖 \(Y\)（否则修正项期望为零、方差贡献消失，HT 即有效）。 2. 定理 2（自适应估计量的渐近性质）：基于 working model \(\hat{\pi}\) 与 \(\hat{m}\) 构造的自适应估计量 \(\hat{\theta}_{adp}\)，在 working model 正确时，渐近方差达到效率界 \(Var(\phi_{eff})\)；在 working model 错误时，渐近方差为 \(Var(\phi_{adp}) \geq Var(\phi_{eff})\)，但仍保持相合性与渐近正态性。解决了的技术难点：如何在 working model 误指下，保证一步更新估计量的相合性（通过 HT 部分保底，修正项的期望为零不论模型是否正确）。

证明路线与技术技巧： - 整体路线： 1. 建立观察数据的似然与 tangent space：将 \((X, Y, \delta)\) 的联合分布分解为 \(P(X, Y, \delta) = P(\delta | X, Y) P(X, Y)\)，推导出在 \(\pi\) 不完全指定下的 tangent space 结构。 2. 计算有效影响函数：通过将任意影响函数投影到 tangent space 的闭线性子空间，得到 \(\phi_{eff}\)。投影的闭子空间由两部分生成：\(\delta\) 的扰动空间与 \((X, Y)\) 的扰动空间。 3. 构造自适应估计量：将 \(\phi_{eff}\) 中的未知量（\(\pi\), \(E(Y | X, \delta=1)\)）替换为 working model 的估计 \(\hat{\pi}, \hat{m}\)，构造一步更新估计量 \(\hat{\theta}_{adp} = \hat{\theta}_{HT} + \frac{1}{n} \sum \hat{\phi}_{eff}\)。 4. 证明渐近性质：用 M-估计量理论或影响函数展开，证明 \(\hat{\theta}_{adp} - \theta = \frac{1}{n} \sum \phi_{adp} + o_p(n^{-1/2})\)，其中 \(\phi_{adp}\) 在模型正确时等于 \(\phi_{eff}\)，在模型错误时仍为合法影响函数（期望为零）。 - 关键跳跃点：从 tangent space 投影到 \(\phi_{eff}\) 的显式表达。难点在于：有信息抽样下，\(\delta\) 的扰动空间与 \((X, Y)\) 的扰动空间不独立（因 \(\pi\) 依赖 \(Y\)），投影需考虑交叉项。作者通过将 \(\delta\) 的条件期望扰动分解为与 \(Y\) 相关的部分与无关的部分，绕过了交叉项的纠缠，得到修正项的显式表达。 - 技术技巧点名： - 有效影响函数：用于推导效率界与构造一步更新估计量，是半参数效率理论的核心工具。 - 投影算子：用于在 tangent space 中找最短影响函数，技术上是 Hilbert 空间投影。 - 双鲁棒性/自适应结构：影响函数中包含 \(\pi\) 与 \(m\) 的组合项，使得只要其中之一正确，估计量即达到局部最优；两者皆错时仍相合。这是因果推断中双鲁棒估计的平行技巧。 - M-估计量展开：用于证明自适应估计量的渐近正态性与方差表达。

真实例子与应用： - 用的什么数据/场景：1999 年加拿大工作场所与雇员调查（CWES）数据。该调查涉及企业与雇员的两层抽样，雇员的入样概率依赖企业规模与雇员特征（有信息抽样）。 - 怎么把本文方法用上去：将雇员的工资（\(Y\)）作为反应变量，企业规模与雇员特征作为 \(X\)，抽样权重作为 \(w\)。对 \(\pi(X, Y)\) 指定 logistic working model（入样概率模型），对 \(E(Y | X, \delta=1)\) 指定线性 working model（条件期望模型），构造自适应估计量估总体平均工资。 - 得到什么结果：自适应估计量的渐近方差估计值小于 HT 估计量的渐近方差估计值，验证了效率提升。Working model 的误指（通过残差分析诊断）对相合性无影响，但对效率有影响（方差略大于理论效率界估计）。 - 这个例子想说明什么：验证理论（自适应估计量在真实数据下确实比 HT 方差小），并展示相对 baseline（HT）的优势。

🔎 结论是否比证明窄： - 作者在摘要与 intro 中泛泛 claim "efficient in a class of the regular and asymptotically linear estimators"，但定理 2 的严格证明只覆盖了working model 正确时达到效率界。Working model 错误时，结论是"相合与渐近正态"，但方差大于效率界——此时并非"有效"。这个 gap 在正文中未显式强调，需研究者注意："自适应"不等于"始终有效"，只在局部模型下有效。 - 另一点：定理 1 的效率界推导假设了 \(\pi(X, Y)\) 的光滑性（tangent space 可分），但未显式列出光滑性条件（如 \(\pi\) 属于某个 Sobolev 空间）。这在半参数效率理论中是常规操作，但严格来说，效率界的存在性依赖这些条件。

四、开放问题（点到为止，扎根具体语句）¶

效率界与因果 IPW 效率界的同构性：本文的 \(\phi_{eff}\) 与 Robins et al. (1994) 在非忽略缺失下推导的 IPW 有效影响函数是否数学上完全等价？若等价，本文的"新"贡献仅在 framing（抽样调查 vs. 缺失数据），技术上是平行移植。扎根点：intro 中 "optimal estimation technique under the semi-parametric model has been developed in many application areas, for example, in missing data [26, 28, 19, 34]"——作者承认了缺失数据的平行性，但未显式对比结构。
GREG 与自适应估计量的理论对比：基于校准的 GREG 估计量在调查实践中是提升 HT 效率的主流方法，本文的自适应估计量在 working model 正确时是否严格优于 GREG？GREG 是否能在某种条件下达到本文的效率界？扎根点：intro 中只提 HT 不有效，未提 GREG 这一竞争路线。
高维 \(X\) 下的 working model 估计：本文的 working model 是低维参数模型（logistic/线性），若 \(X\) 维数 \(p\) 较大（\(p \approx n\) 或 \(p > n\)），working model 的估计需用高维方法（如 Lasso），此时自适应估计量的渐近性质是否仍成立？需核验本文定理 2 的证明是否依赖 working model 估计的 \(\sqrt{n}\)-收敛性（高维下往往不满足）。扎根点：定理 2 的证明中，一步更新展开的 \(o_p(n^{-1/2})\) 余项控制依赖 working model 估计的收敛率。
有信息抽样下的经验过程极限理论：Han & Wellner (2019) 建立了无信息抽样下 HT 经验过程的 Donsker 定理，本文在有信息抽样下推导了效率界，但未建立有信息抽样下 HT 经验过程的均匀极限理论。扎根点：intro 中 "Han and Wellner [10] assumed that \(Y_i\) is independent of \(\delta_i\) given \(X_i\), which corresponds to noninformative sampling"——作者指出了 gap，但本文只填了效率界的 gap，未填经验过程的 gap。

要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Semiparametric adaptive estimation under informative sampling¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论