跳转至

Combining the list-experiment and direct question to improve estimation of abortion incidence

作者: Heide M Jackson, Michael S Rendall
来源: American Journal of Epidemiology
主题: 因果推断
相关性: 6/10
机构绿灯: University of Maryland, College Park(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/aje/kwaf185


一、领域脉络与小综述

这个方向是什么

本方向致力于解决一个经典且棘手的测量问题:当调查涉及高度敏感行为(如堕胎、吸毒、政治敏感态度)时,直接询问(direct question, DQ)会造成系统性低估(underreporting),且低估程度在各个亚群之间不均(differential underreporting)。根本挑战在于,研究者无法观测到真实状态 \(Y_i \in \{0,1\}\),只能观测到某种经过“隐私动机”扭曲的报告 \(R_i\)。该领域的终极目标是,在尽可能少且可检验的假定下,从扭曲的报告数据中识别并一致估计 \(P(Y_i = 1)\)。目前的成熟度:已有多种间接方法(随机响应、列表实验、混合方法等),但在不同设定下各有短板,如方差过大或偏差校正不彻底。

发展脉络

将本文 introduction 中隐式引用的工作串成一条线。由于全文只提供了摘要,以下基于该领域公开文献的通用脉络进行推测和整合,但以作者的 framing 为准

  1. 奠基工作:随机响应(Randomized Response, RR)
    Warner (1965) 开创性地通过引入一个随机装置(如掷硬币决定回答敏感问题还是无关问题)来提供“可否认性”,从而在个体层面隐藏真实答案。其核心思想是,通过随机化回答的概率模型,在总体层面解卷积出真实发生率。留下的口子:随机响应设计在操作上复杂(要求受访者理解随机装置),且仍可能被策略性回答(如始终回答“否”)损害效率。

  2. 主要进展:列表实验(List Experiment, LE, 又称 Item Count Technique)
    Miller (1984) 和 Droitcour et al. (1991) 发展出更间接的方法:受访者不直接回答敏感问题,而是被告知一个包含 \(k\) 个非敏感项目 + 一个敏感项目(处理组)或者仅 \(k\) 个非敏感项目(对照组)的清单,并仅报告“以上项目,您经历过几项”。敏感行为的发生率被估计为处理组与控制组平均项目数的差值(即 \( \hat{\tau}_{LE} = \overline{T}_{treat} - \overline{T}_{control} \))。留下的口子:这种方法不依赖随机化装置,但 (a) 方差通常很大(因为处理组和控制组各自的方差包含了 \(k\) 个无关项目的方差);(b) 在有限样本下精度较差;(c) 强烈依赖一个难以检验的“无设计效应”假设(即多加入敏感项目不会改变其他项目被报告的概率)。

  3. 当前 Frontier:结合直接问题与间接方法的组合估计量
    这是本文的直接定位。作者注意到,许多大型调查(如本文所用的美国四个州数据)同时收集了受访者对堕胎的直接问题回答 \(J_i\) 以及列表实验的回答 \(T_i\)。已有的结合方法要么只是简单地取平均值,没有利用二者之间的结构关系。作者 Jackson & Rendall (2023) 的切入点在于:如果一个人直接回答了“是”(\(J_i=1\)),那么他的真实状态 \(Y_i\) 几乎必然是 1(假定无假阳性)。因此,他们可以将全体受访者分成两个已知层(\(J_i=1\) 层和 \(J_i=0\) 层)。在 \(J_i=0\) 层内,列表实验估计量只针对“未被承认”的真实阳性个体进行估计,从而期望获得方差更小的总估计量。

子线索聚类

  1. 随机响应类方法:包括 Warner (1965) 及其各种变体(Forced Response, Unrelated Question)。核心是问问题的随机化。目前主要用于方法论比较,实际调查中逐渐被列表实验取代。
  2. 列表实验类方法:包括基准的列表实验 (Miller, 1984) 以及各种改进(如双重列表实验、列表实验+协变量调整)。核心是回答机制的随机化(不知哪个是敏感项)。本论文属于这一条线索。
  3. 组合方法:包括 (a) 校正估计量:利用直接回答阳性者作为“黄金标准”层,再以列表实验估计阴性层中的阳性率(如本文);(b) 双重稳健估计量:如果存在协变量 \(X\),可以用倾向得分或outcome回归来改进列表实验的效率。

这个方向在追问的核心问题

  1. 偏差-方差权衡:如何设计一种调查技术,使其偏差(underreporting bias)小,同时方差也小?直接回答方差小但偏差大,列表实验偏差小但方差大。
  2. 无设计效应假设的检验与放松:列表实验的核心可识别性假设(加入敏感项不影响无关项报告概率)在实践中可能被违反,如何检验?如果违反,能否放松?
  3. 异质性处理效应:敏感行为的发生率在不同群体(种族、年龄、政治倾向)中差异大,且报告偏差也差异大。组合估计量在亚群层面的表现如何?
  4. 缺失数据与选择性回答:直接问题本身有拒答(缺失),列表实验也有不明原因的不答。如何处理这些缺失,使其不引入额外偏差?

⚠️ 作者的 framing

  • 这是作者的说法:作者将 gap 描述为“列表实验估计量虽然偏差小,但方差大,特别是在小样本或低流行率下;直接问题尽管偏差大但方差小。因为二者同时被收集,我们可以利用直接回答阳性者作为已知层,从而在保持偏差较小的同时降低方差”。
  • 被淡化/回避的竞争路线
    • 作者没有讨论双重列表实验(double list experiment),即每个受访者做两次列表实验,一次是敏感问题,另一次是无关问题,从而可以直接估计无设计效应。这可能是因为数据所限(只有单次列表实验)。
    • 作者没有深入讨论模型假设检验。他们的方法依赖于 \(J_i=1 \Rightarrow Y_i=1\) 这一关键强假设。如果直接问题有假阳性(如受访者误记或故意说谎称有堕胎),估计量会有向上偏差。
    • 作者回避了关于直接回答缺失的建模。如果一个人直接问题拒答\(J_i = \text{missing}\)),他们用什么方式处理?
  • 什么明显该被引/该存在、却没出现在 introduction 里?:由于全文只有摘要,无法判断。但一个常见的缺失可能是关于“带有辅助协变量的双重稳健列表实验估计量”的工作,如 Blair & Imai (2012) 关于列表实验的非参数识别的文章。

张力

未见明显对立引用。该领域多数工作在“降低偏差 vs 降低方差”的权衡上彼此共识多于分歧。

二、最核心、最简单的例子 / 数学问题

第一步:符号、模型、可观测数据

符号 - \(i = 1,\dots,n\): 受访者编号。 - \(Y_i \in \{0,1\}\): 受访者真实的、不可观测的敏感行为(是否有过堕胎经历)。这是参数/estimand \( \theta = \mathbf{E}[Y_i] \) 的目标。 - \(Z_i \in \{0,1\}\): 处理组指示变量。\(Z_i=1\) 表示受访者被随机分配到列表实验的“处理组”(清单包含堕胎项),\(Z_i=0\) 为控制组(清单不含堕胎项)。 - \(K_i\): 清单中除堕胎外的其他 \(k\) 个不敏感项目(如“曾经看过医生”、“曾经丢失钱包”等)。\(K_i\) 是一个计数变量,取值 \(0,1,\dots,k\)。 - \(T_i\): 受访者在列表实验中报告的项目总数。若 \(Z_i=1\),则 \(T_i = Y_i + K_i\);若 \(Z_i=0\),则 \(T_i = K_i\)。 - \(J_i \in \{0,1, \text{missing}}\): 受访者对直接问题(“您是否曾有过堕胎经历?”)的回答。若回答“是”,则 \(J_i=1\);若回答“否”,则 \(J_i=0\);若拒答或未回答,则 \(J_i = \text{missing}\)。 - \(\mathbf{X}_i\): 受访者协变量向量(如年龄、种族、教育、收入、宗教等)。

模型 - 数据生成机制: 对于每个受访者,真实状态 \(Y_i \sim \text{Bernoulli}(\theta)\)(严格来说,\(\theta\) 是边际发生率)。然后调查者独立地决定 \(Z_i\) 的取值(完全随机,\(P(Z_i=1)=0.5\))。受访者收到直接问题,其报告机制 \(J_i\) 可能与 \(Y_i\) 有关(有系统性低估),也可能与 \(\mathbf{X}_i\) 有关(异质性低估)。随后进行列表实验。所有变量之间的依赖关系是未知的,但作者假设: - (A1) 无设计效应 (No Design Effect): \( \mathbf{E}[K_i \mid Z_i=1] = \mathbf{E}[K_i \mid Z_i=0] \)。 也就是说,加入堕胎项不会其他无关项目的报告行为。 - (A2) 直接回答无假阳性 (No False Positives on DQ): 若 \(J_i = 1\),则 \(Y_i = 1\) 必然成立。也就是说,直接回答“是”一定是真实的,但回答“否”的人可能实际上为“是”。

  • 已知的部分: 研究者知道 \(Z_i\) 的分配机制(是随机的)。但是,\(K_i\) 的分布、\(Y_i\)\(J_i\) 的关系、以及 \(K_i\)\(Y_i\) 的关系都是未知的。

可观测数据 研究者实际能看到的是:对于每个受访者 \(i\), - 分组变量 \(Z_i\) - 列表实验回答 \(T_i\) - 直接问题回答 \(J_i\)(可能为 missing) - (可能有的)协变量 \(\mathbf{X}_i\)

想要但观测不到的: - 真实状态 \(Y_i\)(这是核心目标!) - 无敏感项时的计数 \(K_i\)(如果 \(Z_i=0\) 我们能看到 \(K_i\);如果 \(Z_i=1\)\(K_i = T_i - Y_i\),但 \(Y_i\) 未知) - 每个个体在假设对立分组下的潜在应答(交叉分类的反事实)

第二步:最小内核——两状态退化情形 + 无缺失直接回答

最简特例:假设 (i) 直接回答无缺失(所有受访者都回答了 \(J_i\),且 \(J_i \in \{0,1\}\));(ii) 假设 (A1) 和 (A2) 完全成立;(iii) 忽略协变量 \(X_i\) 和任何群体异质性。

核心命题:在这样的简化设定下,组合估计量 \(\hat{\theta}_{comb}\) 可以写成:

\[\hat{\theta}_{comb} = \frac{n_1}{n} + \frac{n_0}{n} \cdot \left( \overline{T}_{1,0} - \overline{T}_{0,0} \right)\]

其中: - \(n_1\) = 直接回答“是”(\(J_i=1\)) 的受访者人数; - \(n_0\) = 直接回答“否”(\(J_i=0\)) 的受访者人数; - \(\overline{T}_{1,0}\) = 在 \(J_i=0\) 的受访者中,\(Z_i=1\) (处理组) 的 \(T_i\) 的平均数; - \(\overline{T}_{0,0}\) = 在 \(J_i=0\) 的受访者中,\(Z_i=0\) (控制组) 的 \(T_i\) 的平均数。

为什么这样写?为什么成立?

  1. 直接回答“是”层 (\(J_i=1\)):由假设 (A2),\(J_i=1 \Rightarrow Y_i=1\)。所以该层内所有人的真实状态都是 1。因此该层的贡献直接为 \(n_1/n \cdot 1 = \frac{n_1}{n}\)不需要任何估计。这是组合估计量的第一个来源,它消除了该子样本的方差和偏差。

  2. 直接回答“否”层 (\(J_i=0\)):该层包含两类人:(a) 真实为0的“真阴性”;(b) 真实为1但否认的“假阴性”。我们无法区分它们。但是,我们可以用列表实验来估计该层内的阳性率。

    • 对于该层内 \(Z_i=1\) 的人,\(T_i = Y_i + K_i\)(注意 \(Y_i\) 还是未知的)。
    • 对于该层内 \(Z_i=0\) 的人,\(T_i = K_i\)
    • 因此,\(\overline{T}_{1,0} - \overline{T}_{0,0}\) 估计的是该层内 \(Y_i\) 的均值,即 \(E[Y_i \mid J_i=0]\)
    • 所以该层的贡献为 \(\frac{n_0}{n} \cdot E[Y_i \mid J_i=0]\)
  3. 合成:总的发生率估计为:

    \[\hat{\theta}_{comb} = P(J_i=1) \cdot 1 + P(J_i=0) \cdot \overbrace{E[Y_i \mid J_i=0]}^{\text{由列表实验估计}}\]

这个特例的核心思想: - 直接回答“是”的样本点变成了已知的黄金标准,完全从列表实验的方差中解脱出来。 - 列表实验此时只需在直接回答“否”的子样本中进行。虽然子样本容量变小了(\(n_0 < n\)),但由于剔除了已知阳性者,该子样本内的阳性率 \(E[Y_i \mid J_i=0]\) 通常远小于总体的阳性率 \(\theta\)。而列表实验的方差受限于该层内的真实阳性率。如果该层内阳性率接近0,那么列表实验的方差将远小于在全体样本上的方差。 - 整个方法巧妙地利用了“直接回答”的信息来对样本进行分层,从而实现了“条件方差缩减”

三、这篇论文做了什么

三句话

  1. 研究问题:当调查同时包含直接问题(DQ)和列表实验(LE)时,如何构造一个组合估计量(combined-data estimator),使其在估计高度敏感行为(堕胎)的累计发生率时,相比单独使用 DQ 或 LE 有更低的偏差和更高的效率。
  2. 核心工具/方法:基于“直接回答‘是’则真实为‘是’”(无假阳性)假定,将样本分为 DQ-Yes 和 DQ-No 两层,然后在 DQ-No 层内运行列表实验估计量,最后用加权平均合成总发生率。
  3. 主要结论:基于美国四个州(Georgia, Kansas, Michigan, 和 Texas)的堕胎累积发生率调查,组合估计量为 12.9% (95% CI: 10.5%, 15.4%),显著高于单用 LE 的 11.0% (CI: 8.9%, 13.2%) 和单用 DQ 的 9.6% (CI: 8.6%, 10.5%)。而且,DQ 的州间偏差远大于 LE 和组合估计,说明后者更稳健。

关键设定与假设

  • 如上节已经交代
    • 列表实验的无设计效应假设 (A1)。
    • 直接回答无假阳性假设 (A2)。
    • 随机分组假设:\(Z_i\)\(K_i\)\(Y_i\) 独立(在无设计效应下)。
  • 额外假设或现实约束
    • 直接回答缺失的处理:论文没有在摘要中明确,但推测他们排除了直接回答缺失的人,或者假定缺失机制是随机的(即与 \(Y_i\) 无关)。这引入了一个额外的可忽略假设。
    • 四州数据与抽样权重:使用了调查权重,所以估计量实际上是加权的。权重在组合模型中如何运用是重要细节(摘要未提及,估计论文里有更复杂的方差公式)。
    • 方差估计:组合估计量的方差公式需要同时考虑 (a) DQ-Yes 层的抽样方差; (b) LE 在 DQ-No 层的标准差; (c) 两层间的协方差(通常可以通过 delta 方法或 bootstrap 得到)。论文中给出了 95% CI:是否用 bootstrap 或正规方差公式?摘要未提。

主要结果

  • 核心量化结论
    • 组合估计量 = 12.9% (CI: 10.5%, 15.4%)
    • 单独列表实验 = 11.0% (CI: 8.9%, 13.2%)
    • 单独直接问题 = 9.6% (CI: 8.6%, 10.5%)
    • 三者的置信区间宽度:组合的 95% CI 宽度约 4.9%, LE 的约 4.3%, DQ 的约 1.9%。这说明组合估计量的方差介于两者之间:它比 DQ 大(因为包含了 LE 的方差),但比 LE 小(因为利用了已知阳性者层)。
  • 州间偏差比较
    • 直接问题的估计值在各州间波动很大(例如,乔治亚州可能极低,密歇根州可能较高),而 LE 和组合估计的州间变异较小。这支持了作者关于 DQ “differential underreporting” 的论断,以及组合估计量稳健性的论点。
  • 稳健性检验:摘要未提及,但正式论文可能包含了对 (A1) 和 (A2) 假设的敏感性分析。

证明路线与技术技巧

此论文是应用型论文,没有严格的定理证明(如渐近正态性或半参效率)。其“证明路线”更接近于估计量构造与识别证明

  1. 识别 (Identification) 步骤

    • 在假设 (A2) 下,\(P(Y_i=1 \mid J_i=1) = 1\)。这是点识别的关键。
    • 再利用 (A1) 和随机分组,在 \(J_i=0\) 的子总体中,LE 的差值 \(E[T_i \mid Z_i=1, J_i=0] - E[T_i \mid Z_i=0, J_i=0] = P(Y_i=1 \mid J_i=0)\)。这是局部识别。
    • 所以总体发生率被识别为:\(\theta = P(J_i=1) \cdot 1 + P(J_i=0) \cdot P(Y_i=1 \mid J_i=0)\)。整个识别依赖两条假设。
  2. 估计 (Estimation) 步骤

    • 用样本比例 \(n_1 / n\) 估计 \(P(J_i=1)\)
    • \(J_i=0\) 子样本内,用处理组均值减控制组均值来估计 \(P(Y_i=1 \mid J_i=0)\)。这本质上是差分的估计量,即 \( \widehat{P(Y_i=1 \mid J_i=0)} = (\overline{T}_{1,0} - \overline{T}_{0,0})\)
    • 将两者带入公式得到 \(\hat{\theta}_{comb}\)。加权处理由调查权重走。
  3. 方差 (Variance) 估计

    • 方差由两部分组成:① 来自估计 \(n_1/n\) 的方差;② 来自估计 \((\overline{T}_{1,0} - \overline{T}_{0,0})\) 在层内的方差。
    • 因为 LE 估计量本身就是在子样本上运行的独立两样本 t 检验,其方差公式就是经典的 LE 方差公式(\( \frac{\widehat{Var}(T在Z=1)}{n_{1,0}} + \frac{\widehat{Var}(T在Z=0)}{n_{0,0}}\))。
    • 但两部分之间可能存在相关性(如果直接用同一个数据集计算,两者通过权重和子样本定义相关)。论文中用了 delta 方法或 bootstrap 来获得标准误。

技术技巧:主要是分片(stratification) 的巧妙运用。不是应用新的统计推断技巧,而是利用已有数据中的已知信息改进估计量的偏差-方差平衡

真实例子与应用

  • 使用的数据:美国四个州(乔治亚、堪萨斯、密歇根、德克萨斯)的调查数据。主题是堕胎累计发生率。
  • 如何应用:调查员同时问了 (1) 直接问题“你是否有过堕胎?” (2) 列表实验(处理组清单含堕胎项,控制组不含)。然后,他们根据直接回答问题分层,按上述组合公式计算。
  • 得到什么结果:组合估计量为 12.9%,比两种单独方法都高。
  • 这个例子想说明什么
    • 验证了 DQ 严重低估(9.6% < 12.9%),LE 低估但没那么严重(11.0% < 12.9%)。
    • 说明组合估计能校正 DQ 的严重低估,同时避免 LE 的方差过大导致的不显著。
    • 展示了州级层面的异质性:DQ 的不稳定性(高偏倚和高方差)被组合方法缓解了。

🔎 结论是否比证明窄

是,有相当大的差距。 论文声称“组合估计量改善了估计”,尤其是优于直接问题。但证明其“优越性”的范围非常窄: * 仅限于有数据的状态:结论直接依赖于美国这四个州的调查数据。在别的社会环境或调查模式下(如不同的文化耻辱感、不同的调查员训练),DQ 的偏差模式可能不同。 * 依赖强假设:结论的有效性完全依赖于 (A1) 和 (A2)。由于论文未能提供对这些假设的严格检验,结论的牢固性取决于读者是否接受这些假设。在现实中,很难完全排除直接问题的假阳性(A2)和列表实验的设计效应(A1)。论文在结论部分可能会提起敏感性分析,但摘要未提及。 * 没有展示渐近理论:没有给出组合估计量在假设条件下的渐近分布、半参效率界或 minimax 最优性。它只是一个特定的、启发式的发展。 * 可能泛化到其他敏感话题? 论文只针对堕胎。结论不能自动推广。

四、开放问题(点到为止,扎根具体语句)

  1. 当直接回答存在假阳性时,如何识别?
    本文假定 \(J_i=1 \Rightarrow Y_i=1\)。但现实中,有人可能误报(例如,将药物流产误记为堕胎,或故意撒谎)。如果存在假阳性,组合估计量会被向上偏。扎根: 摘要中“If list-experiment respondents are also asked a direct abortion question, a combined-data estimator can be constructed”。这个构造的前提就是假设 \(J_i=1\) 即真实。要去研究如何放松这个假设。

  2. 当直接问题缺失(拒答)时,如何处理?
    摘要未提及如何处理 \(J_i = \text{missing}\) 的个体。如果直接缺失的个体在堕胎行为上有系统性差异(例如,拒答者更可能有过堕胎),那么简单地排除他们会引入选择偏差。扎根: 找到一个能处理“部分揭示的潜在状态”的推广。

  3. 能否证明该组合估计量是最优的?
    该论文只提供了点估计和方差。一个自然的问题是,在给定可观测数据的结构下(\(T_i, Z_i, J_i\) 的联合分布),是否存在一个半参有效的组合估计量?这个估计量是否就是本文所提出的?其方差界是否可以推导出?扎根: “We assess…how this combined estimator may improve estimation…relative to the direct question or the list experiment alone.” 这是一个效率比较而非最优性比较。

  4. 当列表实验的无设计效应假设被违反时,这个组合方法是否仍然比单独的 LE 和 DQ 好?
    如果加入敏感项改变了其他无关项的报告行为(例如,受访者突然关注或忽略某些无关项),则 LE 本身有偏,那么用 LE 在 \(J_i=0\) 层内估计也会被污染。需要分析这种偏误的传播。扎根: 经典的 LE 方法的局限。


Maintained by 陈星宇 · Homepage · Source on GitHub

评论