Combining the list-experiment and direct question to improve estimation of abortion incidence¶

作者: Heide M Jackson, Michael S Rendall
来源: American Journal of Epidemiology
主题: 因果推断
相关性: 6/10
机构绿灯: University of Maryland, College Park（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/aje/kwaf185

一、领域脉络与小综述¶

这个方向是什么¶

本方向致力于解决一个经典且棘手的测量问题：当调查涉及高度敏感行为（如堕胎、吸毒、政治敏感态度）时，直接询问（direct question, DQ）会造成系统性低估（underreporting），且低估程度在各个亚群之间不均（differential underreporting）。根本挑战在于，研究者无法观测到真实状态 \(Y_i \in \{0,1\}\)，只能观测到某种经过“隐私动机”扭曲的报告 \(R_i\)。该领域的终极目标是，在尽可能少且可检验的假定下，从扭曲的报告数据中识别并一致估计 \(P(Y_i = 1)\)。目前的成熟度：已有多种间接方法（随机响应、列表实验、混合方法等），但在不同设定下各有短板，如方差过大或偏差校正不彻底。

发展脉络¶

将本文 introduction 中隐式引用的工作串成一条线。由于全文只提供了摘要，以下基于该领域公开文献的通用脉络进行推测和整合，但以作者的 framing 为准。

奠基工作：随机响应（Randomized Response, RR）
Warner (1965) 开创性地通过引入一个随机装置（如掷硬币决定回答敏感问题还是无关问题）来提供“可否认性”，从而在个体层面隐藏真实答案。其核心思想是，通过随机化回答的概率模型，在总体层面解卷积出真实发生率。留下的口子：随机响应设计在操作上复杂（要求受访者理解随机装置），且仍可能被策略性回答（如始终回答“否”）损害效率。
主要进展：列表实验（List Experiment, LE, 又称 Item Count Technique）
Miller (1984) 和 Droitcour et al. (1991) 发展出更间接的方法：受访者不直接回答敏感问题，而是被告知一个包含 \(k\) 个非敏感项目 + 一个敏感项目（处理组）或者仅 \(k\) 个非敏感项目（对照组）的清单，并仅报告“以上项目，您经历过几项”。敏感行为的发生率被估计为处理组与控制组平均项目数的差值（即 \( \hat{\tau}_{LE} = \overline{T}_{treat} - \overline{T}_{control} \)）。留下的口子：这种方法不依赖随机化装置，但 (a) 方差通常很大（因为处理组和控制组各自的方差包含了 \(k\) 个无关项目的方差）；(b) 在有限样本下精度较差；(c) 强烈依赖一个难以检验的“无设计效应”假设（即多加入敏感项目不会改变其他项目被报告的概率）。
当前 Frontier：结合直接问题与间接方法的组合估计量
这是本文的直接定位。作者注意到，许多大型调查（如本文所用的美国四个州数据）同时收集了受访者对堕胎的直接问题回答 \(J_i\) 以及列表实验的回答 \(T_i\)。已有的结合方法要么只是简单地取平均值，没有利用二者之间的结构关系。作者 Jackson & Rendall (2023) 的切入点在于：如果一个人直接回答了“是”（\(J_i=1\)），那么他的真实状态 \(Y_i\) 几乎必然是 1（假定无假阳性）。因此，他们可以将全体受访者分成两个已知层（\(J_i=1\) 层和 \(J_i=0\) 层）。在 \(J_i=0\) 层内，列表实验估计量只针对“未被承认”的真实阳性个体进行估计，从而期望获得方差更小的总估计量。

子线索聚类¶

随机响应类方法：包括 Warner (1965) 及其各种变体（Forced Response, Unrelated Question）。核心是问问题的随机化。目前主要用于方法论比较，实际调查中逐渐被列表实验取代。
列表实验类方法：包括基准的列表实验 (Miller, 1984) 以及各种改进（如双重列表实验、列表实验+协变量调整）。核心是回答机制的随机化（不知哪个是敏感项）。本论文属于这一条线索。
组合方法：包括 (a) 校正估计量：利用直接回答阳性者作为“黄金标准”层，再以列表实验估计阴性层中的阳性率（如本文）；(b) 双重稳健估计量：如果存在协变量 \(X\)，可以用倾向得分或outcome回归来改进列表实验的效率。

这个方向在追问的核心问题¶

偏差-方差权衡：如何设计一种调查技术，使其偏差（underreporting bias）小，同时方差也小？直接回答方差小但偏差大，列表实验偏差小但方差大。
无设计效应假设的检验与放松：列表实验的核心可识别性假设（加入敏感项不影响无关项报告概率）在实践中可能被违反，如何检验？如果违反，能否放松？
异质性处理效应：敏感行为的发生率在不同群体（种族、年龄、政治倾向）中差异大，且报告偏差也差异大。组合估计量在亚群层面的表现如何？
缺失数据与选择性回答：直接问题本身有拒答（缺失），列表实验也有不明原因的不答。如何处理这些缺失，使其不引入额外偏差？

⚠️ 作者的 framing¶

这是作者的说法：作者将 gap 描述为“列表实验估计量虽然偏差小，但方差大，特别是在小样本或低流行率下；直接问题尽管偏差大但方差小。因为二者同时被收集，我们可以利用直接回答阳性者作为已知层，从而在保持偏差较小的同时降低方差”。
被淡化/回避的竞争路线：
- 作者没有讨论双重列表实验（double list experiment），即每个受访者做两次列表实验，一次是敏感问题，另一次是无关问题，从而可以直接估计无设计效应。这可能是因为数据所限（只有单次列表实验）。
- 作者没有深入讨论模型假设检验。他们的方法依赖于 \(J_i=1 \Rightarrow Y_i=1\) 这一关键强假设。如果直接问题有假阳性（如受访者误记或故意说谎称有堕胎），估计量会有向上偏差。
- 作者回避了关于直接回答缺失的建模。如果一个人直接问题拒答（\(J_i = \text{missing}\)），他们用什么方式处理？
什么明显该被引/该存在、却没出现在 introduction 里？：由于全文只有摘要，无法判断。但一个常见的缺失可能是关于“带有辅助协变量的双重稳健列表实验估计量”的工作，如 Blair & Imai (2012) 关于列表实验的非参数识别的文章。

张力¶

未见明显对立引用。该领域多数工作在“降低偏差 vs 降低方差”的权衡上彼此共识多于分歧。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据¶

符号 - \(i = 1,\dots,n\): 受访者编号。 - \(Y_i \in \{0,1\}\): 受访者真实的、不可观测的敏感行为（是否有过堕胎经历）。这是参数/estimand \( \theta = \mathbf{E}[Y_i] \) 的目标。 - \(Z_i \in \{0,1\}\): 处理组指示变量。\(Z_i=1\) 表示受访者被随机分配到列表实验的“处理组”（清单包含堕胎项），\(Z_i=0\) 为控制组（清单不含堕胎项）。 - \(K_i\): 清单中除堕胎外的其他 \(k\) 个不敏感项目（如“曾经看过医生”、“曾经丢失钱包”等）。\(K_i\) 是一个计数变量，取值 \(0,1,\dots,k\)。 - \(T_i\): 受访者在列表实验中报告的项目总数。若 \(Z_i=1\)，则 \(T_i = Y_i + K_i\)；若 \(Z_i=0\)，则 \(T_i = K_i\)。 - \(J_i \in \{0,1, \text{missing}}\): 受访者对直接问题（“您是否曾有过堕胎经历？”）的回答。若回答“是”，则 \(J_i=1\)；若回答“否”，则 \(J_i=0\)；若拒答或未回答，则 \(J_i = \text{missing}\)。 - \(\mathbf{X}_i\): 受访者协变量向量（如年龄、种族、教育、收入、宗教等）。

模型 - 数据生成机制: 对于每个受访者，真实状态 \(Y_i \sim \text{Bernoulli}(\theta)\)（严格来说，\(\theta\) 是边际发生率）。然后调查者独立地决定 \(Z_i\) 的取值（完全随机，\(P(Z_i=1)=0.5\)）。受访者收到直接问题，其报告机制 \(J_i\) 可能与 \(Y_i\) 有关（有系统性低估），也可能与 \(\mathbf{X}_i\) 有关（异质性低估）。随后进行列表实验。所有变量之间的依赖关系是未知的，但作者假设： - (A1) 无设计效应 (No Design Effect): \( \mathbf{E}[K_i \mid Z_i=1] = \mathbf{E}[K_i \mid Z_i=0] \)。也就是说，加入堕胎项不会其他无关项目的报告行为。 - (A2) 直接回答无假阳性 (No False Positives on DQ): 若 \(J_i = 1\)，则 \(Y_i = 1\) 必然成立。也就是说，直接回答“是”一定是真实的，但回答“否”的人可能实际上为“是”。

已知的部分: 研究者知道 \(Z_i\) 的分配机制（是随机的）。但是，\(K_i\) 的分布、\(Y_i\) 与 \(J_i\) 的关系、以及 \(K_i\) 与 \(Y_i\) 的关系都是未知的。

可观测数据 研究者实际能看到的是：对于每个受访者 \(i\)， - 分组变量 \(Z_i\) - 列表实验回答 \(T_i\) - 直接问题回答 \(J_i\)（可能为 missing） - （可能有的）协变量 \(\mathbf{X}_i\)

想要但观测不到的： - 真实状态 \(Y_i\)（这是核心目标！） - 无敏感项时的计数 \(K_i\)（如果 \(Z_i=0\) 我们能看到 \(K_i\)；如果 \(Z_i=1\) 则 \(K_i = T_i - Y_i\)，但 \(Y_i\) 未知） - 每个个体在假设对立分组下的潜在应答（交叉分类的反事实）

第二步：最小内核——两状态退化情形 + 无缺失直接回答¶

最简特例：假设 (i) 直接回答无缺失（所有受访者都回答了 \(J_i\)，且 \(J_i \in \{0,1\}\)）；(ii) 假设 (A1) 和 (A2) 完全成立；(iii) 忽略协变量 \(X_i\) 和任何群体异质性。

核心命题：在这样的简化设定下，组合估计量 \(\hat{\theta}_{comb}\) 可以写成：

\[\hat{\theta}_{comb} = \frac{n_1}{n} + \frac{n_0}{n} \cdot \left( \overline{T}_{1,0} - \overline{T}_{0,0} \right)\]

其中： - \(n_1\) = 直接回答“是”(\(J_i=1\)) 的受访者人数； - \(n_0\) = 直接回答“否”(\(J_i=0\)) 的受访者人数； - \(\overline{T}_{1,0}\) = 在 \(J_i=0\) 的受访者中，\(Z_i=1\) (处理组) 的 \(T_i\) 的平均数； - \(\overline{T}_{0,0}\) = 在 \(J_i=0\) 的受访者中，\(Z_i=0\) (控制组) 的 \(T_i\) 的平均数。

为什么这样写？为什么成立？

直接回答“是”层 (\(J_i=1\))：由假设 (A2)，\(J_i=1 \Rightarrow Y_i=1\)。所以该层内所有人的真实状态都是 1。因此该层的贡献直接为 \(n_1/n \cdot 1 = \frac{n_1}{n}\)，不需要任何估计。这是组合估计量的第一个来源，它消除了该子样本的方差和偏差。
直接回答“否”层 (\(J_i=0\))：该层包含两类人：(a) 真实为0的“真阴性”；(b) 真实为1但否认的“假阴性”。我们无法区分它们。但是，我们可以用列表实验来估计该层内的阳性率。
- 对于该层内 \(Z_i=1\) 的人，\(T_i = Y_i + K_i\)（注意 \(Y_i\) 还是未知的）。
- 对于该层内 \(Z_i=0\) 的人，\(T_i = K_i\)。
- 因此，\(\overline{T}_{1,0} - \overline{T}_{0,0}\) 估计的是该层内 \(Y_i\) 的均值，即 \(E[Y_i \mid J_i=0]\)。
- 所以该层的贡献为 \(\frac{n_0}{n} \cdot E[Y_i \mid J_i=0]\)。
合成：总的发生率估计为：
\[\hat{\theta}_{comb} = P(J_i=1) \cdot 1 + P(J_i=0) \cdot \overbrace{E[Y_i \mid J_i=0]}^{\text{由列表实验估计}}\]

这个特例的核心思想： - 直接回答“是”的样本点变成了已知的黄金标准，完全从列表实验的方差中解脱出来。 - 列表实验此时只需在直接回答“否”的子样本中进行。虽然子样本容量变小了（\(n_0 < n\)），但由于剔除了已知阳性者，该子样本内的阳性率 \(E[Y_i \mid J_i=0]\) 通常远小于总体的阳性率 \(\theta\)。而列表实验的方差受限于该层内的真实阳性率。如果该层内阳性率接近0，那么列表实验的方差将远小于在全体样本上的方差。 - 整个方法巧妙地利用了“直接回答”的信息来对样本进行分层，从而实现了“条件方差缩减”。

三、这篇论文做了什么¶

三句话¶

研究问题：当调查同时包含直接问题（DQ）和列表实验（LE）时，如何构造一个组合估计量（combined-data estimator），使其在估计高度敏感行为（堕胎）的累计发生率时，相比单独使用 DQ 或 LE 有更低的偏差和更高的效率。
核心工具/方法：基于“直接回答‘是’则真实为‘是’”（无假阳性）假定，将样本分为 DQ-Yes 和 DQ-No 两层，然后在 DQ-No 层内运行列表实验估计量，最后用加权平均合成总发生率。
主要结论：基于美国四个州（Georgia, Kansas, Michigan, 和 Texas）的堕胎累积发生率调查，组合估计量为 12.9% (95% CI: 10.5%, 15.4%)，显著高于单用 LE 的 11.0% (CI: 8.9%, 13.2%) 和单用 DQ 的 9.6% (CI: 8.6%, 10.5%)。而且，DQ 的州间偏差远大于 LE 和组合估计，说明后者更稳健。

关键设定与假设¶

如上节已经交代：
- 列表实验的无设计效应假设 (A1)。
- 直接回答无假阳性假设 (A2)。
- 随机分组假设：\(Z_i\) 与 \(K_i\) 和 \(Y_i\) 独立（在无设计效应下）。
额外假设或现实约束：
- 直接回答缺失的处理：论文没有在摘要中明确，但推测他们排除了直接回答缺失的人，或者假定缺失机制是随机的（即与 \(Y_i\) 无关）。这引入了一个额外的可忽略假设。
- 四州数据与抽样权重：使用了调查权重，所以估计量实际上是加权的。权重在组合模型中如何运用是重要细节（摘要未提及，估计论文里有更复杂的方差公式）。
- 方差估计：组合估计量的方差公式需要同时考虑 (a) DQ-Yes 层的抽样方差； (b) LE 在 DQ-No 层的标准差； (c) 两层间的协方差（通常可以通过 delta 方法或 bootstrap 得到）。论文中给出了 95% CI：是否用 bootstrap 或正规方差公式？摘要未提。

主要结果¶

核心量化结论：
- 组合估计量 = 12.9% (CI: 10.5%, 15.4%)
- 单独列表实验 = 11.0% (CI: 8.9%, 13.2%)
- 单独直接问题 = 9.6% (CI: 8.6%, 10.5%)
- 三者的置信区间宽度：组合的 95% CI 宽度约 4.9%， LE 的约 4.3%， DQ 的约 1.9%。这说明组合估计量的方差介于两者之间：它比 DQ 大（因为包含了 LE 的方差），但比 LE 小（因为利用了已知阳性者层）。
州间偏差比较：
- 直接问题的估计值在各州间波动很大（例如，乔治亚州可能极低，密歇根州可能较高），而 LE 和组合估计的州间变异较小。这支持了作者关于 DQ “differential underreporting” 的论断，以及组合估计量稳健性的论点。
稳健性检验：摘要未提及，但正式论文可能包含了对 (A1) 和 (A2) 假设的敏感性分析。

证明路线与技术技巧¶

此论文是应用型论文，没有严格的定理证明（如渐近正态性或半参效率）。其“证明路线”更接近于估计量构造与识别证明：

识别 (Identification) 步骤：
- 在假设 (A2) 下，\(P(Y_i=1 \mid J_i=1) = 1\)。这是点识别的关键。
- 再利用 (A1) 和随机分组，在 \(J_i=0\) 的子总体中，LE 的差值 \(E[T_i \mid Z_i=1, J_i=0] - E[T_i \mid Z_i=0, J_i=0] = P(Y_i=1 \mid J_i=0)\)。这是局部识别。
- 所以总体发生率被识别为：\(\theta = P(J_i=1) \cdot 1 + P(J_i=0) \cdot P(Y_i=1 \mid J_i=0)\)。整个识别依赖两条假设。
估计 (Estimation) 步骤：
- 用样本比例 \(n_1 / n\) 估计 \(P(J_i=1)\)。
- 在 \(J_i=0\) 子样本内，用处理组均值减控制组均值来估计 \(P(Y_i=1 \mid J_i=0)\)。这本质上是差分的估计量，即 \( \widehat{P(Y_i=1 \mid J_i=0)} = (\overline{T}_{1,0} - \overline{T}_{0,0})\)。
- 将两者带入公式得到 \(\hat{\theta}_{comb}\)。加权处理由调查权重走。
方差 (Variance) 估计：
- 方差由两部分组成：① 来自估计 \(n_1/n\) 的方差；② 来自估计 \((\overline{T}_{1,0} - \overline{T}_{0,0})\) 在层内的方差。
- 因为 LE 估计量本身就是在子样本上运行的独立两样本 t 检验，其方差公式就是经典的 LE 方差公式（\( \frac{\widehat{Var}(T在Z=1)}{n_{1,0}} + \frac{\widehat{Var}(T在Z=0)}{n_{0,0}}\)）。
- 但两部分之间可能存在相关性（如果直接用同一个数据集计算，两者通过权重和子样本定义相关）。论文中用了 delta 方法或 bootstrap 来获得标准误。

技术技巧：主要是分片（stratification） 的巧妙运用。不是应用新的统计推断技巧，而是利用已有数据中的已知信息改进估计量的偏差-方差平衡。

真实例子与应用¶

使用的数据：美国四个州（乔治亚、堪萨斯、密歇根、德克萨斯）的调查数据。主题是堕胎累计发生率。
如何应用：调查员同时问了 (1) 直接问题“你是否有过堕胎？” (2) 列表实验（处理组清单含堕胎项，控制组不含）。然后，他们根据直接回答问题分层，按上述组合公式计算。
得到什么结果：组合估计量为 12.9%，比两种单独方法都高。
这个例子想说明什么：
- 验证了 DQ 严重低估（9.6% < 12.9%），LE 低估但没那么严重（11.0% < 12.9%）。
- 说明组合估计能校正 DQ 的严重低估，同时避免 LE 的方差过大导致的不显著。
- 展示了州级层面的异质性：DQ 的不稳定性（高偏倚和高方差）被组合方法缓解了。

🔎 结论是否比证明窄¶

是，有相当大的差距。 论文声称“组合估计量改善了估计”，尤其是优于直接问题。但证明其“优越性”的范围非常窄： * 仅限于有数据的状态：结论直接依赖于美国这四个州的调查数据。在别的社会环境或调查模式下（如不同的文化耻辱感、不同的调查员训练），DQ 的偏差模式可能不同。 * 依赖强假设：结论的有效性完全依赖于 (A1) 和 (A2)。由于论文未能提供对这些假设的严格检验，结论的牢固性取决于读者是否接受这些假设。在现实中，很难完全排除直接问题的假阳性（A2）和列表实验的设计效应（A1）。论文在结论部分可能会提起敏感性分析，但摘要未提及。 * 没有展示渐近理论：没有给出组合估计量在假设条件下的渐近分布、半参效率界或 minimax 最优性。它只是一个特定的、启发式的发展。 * 可能泛化到其他敏感话题？ 论文只针对堕胎。结论不能自动推广。

四、开放问题（点到为止，扎根具体语句）¶

当直接回答存在假阳性时，如何识别？
本文假定 \(J_i=1 \Rightarrow Y_i=1\)。但现实中，有人可能误报（例如，将药物流产误记为堕胎，或故意撒谎）。如果存在假阳性，组合估计量会被向上偏。扎根: 摘要中“If list-experiment respondents are also asked a direct abortion question, a combined-data estimator can be constructed”。这个构造的前提就是假设 \(J_i=1\) 即真实。要去研究如何放松这个假设。
当直接问题缺失（拒答）时，如何处理？
摘要未提及如何处理 \(J_i = \text{missing}\) 的个体。如果直接缺失的个体在堕胎行为上有系统性差异（例如，拒答者更可能有过堕胎），那么简单地排除他们会引入选择偏差。扎根: 找到一个能处理“部分揭示的潜在状态”的推广。
能否证明该组合估计量是最优的？
该论文只提供了点估计和方差。一个自然的问题是，在给定可观测数据的结构下（\(T_i, Z_i, J_i\) 的联合分布），是否存在一个半参有效的组合估计量？这个估计量是否就是本文所提出的？其方差界是否可以推导出？扎根: “We assess…how this combined estimator may improve estimation…relative to the direct question or the list experiment alone.” 这是一个效率比较而非最优性比较。
当列表实验的无设计效应假设被违反时，这个组合方法是否仍然比单独的 LE 和 DQ 好？
如果加入敏感项改变了其他无关项的报告行为（例如，受访者突然关注或忽略某些无关项），则 LE 本身有偏，那么用 LE 在 \(J_i=0\) 层内估计也会被污染。需要分析这种偏误的传播。扎根: 经典的 LE 方法的局限。

Maintained by 陈星宇 · Homepage · Source on GitHub