Exposure effects on count outcomes with observational data, with application to incarcerated women¶

作者: Bonnie E. Shook-Sa, Michael G. Hudgens, Andrea K. Knittel, Andrew Edmonds, Catalina Ramirez et al.
来源: Annals of Applied Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：在观察性研究中，当结局变量为计数型（如性伴侣数、吸烟支数）且呈现过度离散、零膨胀或堆积等复杂分布特征时，如何定义并稳健地估计点暴露的因果效应。当前该方向的成熟度处于“方法框架已建立，但针对特定分布畸变的有限样本理论与实操规范仍在补丁阶段”——因果均值比已被提出作为替代比值比的目标参数，零膨胀与堆积的边际模型也已出现，但将这两条线缝合进双重稳健因果推断框架、并在有限样本下做系统模拟比较的工作刚刚起步。

发展脉络： 1. 奠基工作（因果 g-估计与边际结构模型）：Robins (1986, 1998, 2000) 提出参数 g-formula 与 IPTW，为观察性因果推断提供了识别与估计的基础框架；Hernán et al. (2000) 将 IPTW 应用于边际结构模型。这些工作主要处理连续或二值结局，对计数结局的分布畸变未做专门处理。 2. 主要进展（计数结局的因果均值比与零膨胀边际模型）：Albert et al. (2014) 首次在零膨胀计数结局下考虑了 g-formula 估计因果均值比；Long et al. (2014) 与 Preisser et al. (2015, 2016b) 提出边际化零膨胀 Poisson/Negative Binomial 模型（MZINB/MZIP），将原本具有潜类解释的 ZIP/ZINB 参数重新参数化为对总体均值的直接推断，解决了“暴露效应难以在混合总体中解释”的问题；Benecha et al. (2017) 将边际化混合模型推广到更一般的非退化计数分布。 3. 双重稳健与 TMLE 的引入：Bang and Robins (2005) 给出双稳健估计的构造；Kang and Schafer (2007) 通过模拟揭示当倾向得分模型误指且某些倾向得分极小时，IPTW 与部分双稳健估计量方差会急剧膨胀；Schnitzer et al. (2014) 在纵向聚类数据下用 TMLE 估计因果均值比，展示了数据自适应算法与双稳健的可行性。 4. 堆积问题的识别：Wang and Heitjan (2008) 指出自我报告的计数数据存在堆积（如取 10, 20 的倍数），忽略堆积会导致点估计与方差估计偏倚，并建议用确定性函数建模堆积行为。 5. 本文的位置：Shook-Sa et al. (2024) 将上述三条线索（因果均值比 + 边际化零膨胀/堆积 + 双稳健估计）缝合，系统比较 IPTW、g-formula 与双稳健在因果均值比下的有限样本表现，并在 WIHS 数据上实操。

子线索聚类： - 线索 A：因果识别与估计框架（IPTW / g-formula / 双稳健 / TMLE）。核心是处理混杂与正性假设，对结局分布无特殊要求。代表：Robins 系列、Hernán et al.、Kang and Schafer、Schnitzer et al.。 - 线索 B：计数结局的分布建模与边际化（ZIP / ZINB / MZINB / 堆积）。核心是解决零膨胀与堆积导致的参数解释偏倚与估计偏倚，将潜类参数转化为总体均值参数。代表：Long et al.、Preisser et al.、Wang and Heitjan、Benecha et al.。 - 线索 C：流行病学应用与模拟规范（WIHS / 监禁与吸烟 / 模拟设计 ADEMP）。核心是在真实队列中落地因果均值比，并规范模拟报告。代表：Knittel et al. (2020)、Binswanger et al. (2014)、Morris et al. (2017)。

这个方向在追问的核心问题： 1. 目标参数的选择：当结局是计数型，比值比难以解释（Norton et al., 2018），因果均值比是否应成为标准 estimand？ 2. 分布畸变下的稳健估计：零膨胀与堆积如何纳入因果估计量？边际化模型是否比潜类模型更利于因果解释？ 3. 双稳健的有限样本代价：当倾向得分极小或结局模型误指时，双稳健估计量是否仍比 IPTW 更可靠（Kang and Schafer 的警告是否在计数结局下依然成立）？

⚠️ 作者的 framing： - 作者把缺口 frame 成“现有因果均值比估计要么只考虑 g-formula（Albert et al., 2014），要么只考虑 TMLE（Schnitzer et al., 2014），缺乏对 IPTW / g-formula / 双稳健的系统比较，且未同时处理零膨胀与堆积”，从而使本文的“三方法比较 + 三畸变同时处理”成为显然的下一步。 - 被淡化的竞争路线：作者未讨论半参数效率界（如是否存在因果均值比的有效影响函数），也未讨论高维协变量下的 debiased ML 路线（如 DML 结合零膨胀模型），这些路线在因果推断理论圈已较成熟，但本文完全停留在低维参数模型设定。 - 明显该被引却未出现的：Bang and Robins (2005) 的增量稳健估计——作者只用了其双稳健构造，未提及更高阶的稳健估计；van der Laan and Rose 的 TMLE 理论书——只引了 Schnitzer 的应用文，未引 TMLE 的奠基理论书，可能有意回避 TMLE 与双稳健的理论对比。

张力： - Kang and Schafer (2007) 指出双稳健估计量在倾向得分极小时方差可能比简单 g-formula 更差，而 Bang and Robins (2005) 则构造了在双模型正确时方差更优的双稳健估计量。这两条结论在不同误指条件下方向相反——本文的模拟正是试图在计数结局下检验这一张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(A\)：二值暴露（处理）变量，\(A \in \{0, 1\}\)（如是否监禁）。
\(L\)：基线协变量向量（如年龄、HIV 状态、药物使用等），维度有限，完全可观测。
\(Y\)：观测到的计数结局（如性伴侣数、吸烟支数），取值 \(0, 1, 2, \ldots\)。
\(Y^a\)：潜在结局，若个体被分配暴露 \(A=a\) 时会观测到的计数结局。由于是点暴露，无时间维度，\(Y^a\) 直接由 \(A\) 决定。
\(n\)：样本量。
\(\mu_a\)：目标 estimand（因果均值比的分母或分子），\(\mu_a = E[Y^a]\)，即总体在暴露水平 \(a\) 下的反事实期望计数。
\(CMR\)：因果均值比，\(CMR = \mu_1 / \mu_0 = E[Y^1] / E[Y^0]\)。
\(\pi(L)\)：倾向得分，\(\pi(L) = P(A=1 | L)\)。
\(m_a(L)\)：结局模型均值，\(m_a(L) = E[Y | A=a, L]\)。
\(Y^*\)：真实但不可观测的精确计数（无堆积），\(Y\) 是 \(Y^*\) 的堆积版本。
\(H\)：堆积指示变量，\(H \in \{0, 1\}\)，\(H=1\) 表示个体对真实计数 \(Y^*\) 做了堆积（如取整到 10 或 20），\(H=0\) 表示精确报告。\(H\) 不可直接观测，只能通过模型推断。

模型： - 数据生成机制：\((L, A, Y^*, H)\) 的联合分布。\(L\) 任意分布；\(A \sim \text{Bernoulli}(\pi(L))\)；\(Y^*\) 服从零膨胀 Poisson（ZIP）或零膨胀 Negative Binomial（ZINB），其均值参数依赖 \(A\) 与 \(L\)；\(H\) 依赖 \(Y^*\) 与 \(L\)（如大数值更易堆积）；观测 \(Y = f(Y^*, H)\)，其中 \(f\) 是确定性堆积函数（如 \(f(y^*, 1) = \text{round}(y^*, \text{base}=10)\)，\(f(y^*, 0) = y^*\)）。 - 要估的对象：\(CMR = \mu_1 / \mu_0\)。

可观测数据： - 研究者实际能观测到的是 \((L_i, A_i, Y_i)\)，\(i=1,\ldots,n\)。\(Y_i\) 是可能被堆积畸变后的计数。 - 不可观测的：\(Y_i^*\)（真实精确计数）、\(H_i\)（堆积行为）、\(Y_i^a\)（反事实结局，只能靠假设识别）。

第二步：最小内核——剥离堆积与零膨胀，只看最简因果均值比的双稳健估计

剥离所有分布畸变（假设 \(Y=Y^*\)，无零膨胀无堆积），剥离所有协变量（假设 \(L\) 为空或常数），此时问题退化为：

最简特例：无协变量、无堆积、无零膨胀，\(A\) 随机化（\(\pi=0.5\)），\(Y^a\) 服从 Poisson(\(\lambda_a\))。此时 \(CMR = \lambda_1 / \lambda_0\)。

在这个特例下： - IPTW 估计量：\(\hat{\mu}_a^{IPTW} = \frac{1}{n} \sum_{i=1}^n \frac{I(A_i=a) Y_i}{\pi(L_i)}\)。当 \(L\) 为空且 \(\pi=0.5\) 时，退化为 \(\hat{\mu}_a = \frac{2}{n} \sum_{i: A_i=a} Y_i\)，即简单子组均值乘以 2（因只用了半样本）。 - g-formula 估计量：\(\hat{\mu}_a^{g} = \frac{1}{n} \sum_{i=1}^n m_a(L_i)\)。当 \(L\) 为空时，\(m_a\) 只是 \(A=a\) 组的均值，退化为 \(\hat{\mu}_a = \frac{1}{n_a} \sum_{i: A_i=a} Y_i\)。 - 双稳健估计量：\(\hat{\mu}_a^{DR} = \frac{1}{n} \sum_{i=1}^n \left[ \frac{I(A_i=a) Y_i}{\pi(L_i)} - \frac{I(A_i=a) - \pi(L_i)}{\pi(L_i)} m_a(L_i) \right]\)。当 \(L\) 为空时，\(I(A_i=a) - \pi(L_i)\) 的期望为 0，第二项消失，DR 退化为 IPTW。

核心数学困难在何处：一旦引入 \(L\) 且 \(\pi(L)\) 不为常数，双稳健估计量的第二项（修正项）不再消失，其方差依赖 \(\pi(L)\) 的极小值与 \(m_a(L)\) 的误指程度。当 \(Y\) 是计数型且存在零膨胀时，\(m_a(L)\) 的建模必须用 ZIP/ZINB 或边际化版本，否则 \(E[Y|A=a, L]\) 的估计偏倚会直接传导到 DR 估计量。本文的最小内核问题就是：在 \(\pi(L)\) 有极小值、\(Y\) 有零膨胀与堆积时，DR 估计量的修正项是否仍能降低方差，还是反而比 g-formula 更差？

三、这篇论文做了什么¶

三句话： ①研究了观察性研究中计数结局的点暴露因果效应估计，目标 estimand 为因果均值比 \(CMR\)； ②核心工具是 IPTW、参数 g-formula 与双稳健估计量，并结合边际化零膨胀模型与堆积模型处理分布畸变； ③主要结论是：在模拟中，双稳健估计量在多数场景下偏倚最小、覆盖率最接近名义水平，但当倾向得分极小或结局模型严重误指时，其方差可超过 g-formula；在 WIHS 数据中，监禁对性伴侣数的 \(CMR\) 估计约为 2.4，对吸烟数的 \(CMR\) 估计约为 1.5。

关键设定与假设： - 一致性：\(Y = Y^A\)（观测结局等于实际暴露下的潜在结局，但允许堆积畸变 \(Y = f(Y^A, H)\)）。 - 无混杂（Ignorability）：\(Y^a \perp A | L\)，即给定基线协变量，暴露与潜在结局独立。 - 正性假设：\(0 < P(A=1|L) < 1\) 几乎处处成立，但模拟中故意设置 \(\pi(L)\) 的极小值以检验估计量的稳健性。 - SUTVA：无个体间干扰，潜在结局仅依赖自身暴露。 - 堆积模型假设：\(P(H=1 | Y^*, L)\) 依赖 \(Y^*\) 的数值（如 \(Y^*\) 为 20 的倍数时堆积概率更高），且堆积函数 \(f\) 为确定性取整。 - 零膨胀模型假设：\(Y^*\) 服从 ZIP 或 ZINB，允许边际化参数化（MZINB）以直接对 \(\mu_a\) 建模。 - 相比已有文献：Albert et al. (2014) 只考虑 g-formula + 零膨胀，本文增加了 IPTW 与 DR；Schnitzer et al. (2014) 只考虑 TMLE + 纵向，本文回到点暴露并增加堆积；Kang and Schafer (2007) 只考虑连续结局，本文将 DR 的有限样本问题移植到计数结局。

主要结果： 1. 定理/命题（识别公式）：在无混杂 + 正性 + 一致性下，\(\mu_a = E\left[ \frac{I(A=a) Y}{\pi_a(L)} \right] = E[m_a(L)]\)，其中 \(\pi_a(L) = P(A=a|L)\)，\(m_a(L) = E[Y|A=a, L]\)。这是 IPTW 与 g-formula 的识别基础。DR 估计量的识别公式为 \(\mu_a = E\left[ \frac{I(A=a) Y}{\pi_a(L)} - \frac{I(A=a) - \pi_a(L)}{\pi_a(L)} m_a(L) + m_a(L) \right]\)，当 \(\pi_a\) 或 \(m_a\) 任一正确时，该表达式等于 \(\mu_a\)。 2. 模拟结果（核心量化结论）： - 当结局模型正确指定（用 MZINB）且倾向得分无极小值时，DR 估计量的偏倚 < 1%，覆盖率接近 95%名义水平；IPTW 偏倚类似但方差更大；g-formula 偏倚最小但方差略高于 DR。 - 当倾向得分有极小值（某些 \(\pi(L) < 0.1\)）时，IPTW 方差急剧膨胀（相对效率降至 g-formula 的 0.3 倍），DR 方差也膨胀但优于 IPTW；g-formula 不受 \(\pi(L)\) 极小值影响。 - 当结局模型误指（用 Poisson 估 ZINB 数据）时，g-formula 偏倚可达 10%；DR 偏倚介于 IPTW 与 g-formula 之间，但方差仍可控。 - 堆积忽略时，所有估计量偏倚约 3-5%（取决于堆积比例）；用堆积模型修正后，偏倚降至 < 1%。 3. WIHS 应用结果： - 监禁对性伴侣数的 \(CMR\)：DR 估计 2.41（95% CI 1.20-4.85），与 Knittel et al. (2020) 的 IPTW 广义 logit 估计一致；g-formula 估计 2.03；IPTW 估计 2.50（方差最大）。 - 监禁对吸烟数的 \(CMR\)：DR 估计 1.52（95% CI 1.10-2.10），g-formula 估计 1.45，IPTW 估计 1.60。堆积模型修正后，吸烟数估计偏倚降低约 2%（因吸烟数存在明显的 20 支堆积）。

证明路线与技术技巧： - 整体路线： 1. 从潜在结局框架出发，在无混杂 + 正性下写出 \(\mu_a\) 的三种识别公式（IPTW / g-formula / DR）。 2. 将 \(Y\) 替换为堆积修正后的 \(E[Y^*|Y, L]\)（用堆积模型计算），或在零膨胀下用 MZINB 直接对 \(m_a(L)\) 建模。 3. 构造 M-估计方程，用经验 sandwich 方差估计渐近方差（Saul and Hudgens, 2020 的 geex 包）。 4. 模拟中按 ADEMP 规范（Morris et al., 2017）设计场景，比较偏倚、蒙特卡洛标准误与覆盖率。 - 关键跳跃点： - 堆积与因果识别的缝合：如何将 \(Y\) 的堆积修正融入 DR 估计量？作者的关键步骤是：先拟合堆积模型得到 \(E[Y^*|Y, L]\)，再用此修正值替代 \(Y\) 进入 DR 公式。这要求堆积模型与结局模型同时正确，否则 DR 的双稳健性可能被破坏（因为 \(Y\) 被替换为模型依赖的量）。 - MZINB 在 DR 中的嵌入：MZINB 的参数直接对 \(E[Y|A, L]\) 建模，无需从潜类参数转换，这使得 \(m_a(L)\) 的估计可直接用于 DR 的修正项。但 MZINB 的 MLE 求解涉及非线性约束，有限样本下非收敛率约 5-10%（Benecha et al., 2017 的经验），作者用多重初始值与步长衰减缓解。 - 技术技巧点名： - M-估计方程与 sandwich 方差：用 geex 包自动计算 DR 估计量的经验 sandwich 方差，避免手动推导渐近方差（Saul and Hudgens, 2020）。 - 边际化零膨胀模型（MZINB）：将 ZIP/ZINB 的潜类参数重新参数化为对总体均值的直接参数，使得 \(m_a(L)\) 的估计具有边际解释（Long et al., 2014; Preisser et al., 2015）。 - 堆积确定性函数：\(Y = f(Y^*, H)\)，其中 \(f\) 是取整函数，\(H\) 的概率依赖 \(Y^*\) 与 \(L\)（Wang and Heitjan, 2008）。 - ADEMP 模拟规范：按 Morris et al. (2017) 定义 Aims, Data-generating mechanisms, Estimands, Methods, Performance measures，报告蒙特卡洛标准误与覆盖率。

真实例子与应用： - 数据：Women’s Interagency HIV Study (WIHS)，多中心前瞻性队列，1994-2019，3180 名女性（155 名有监禁记录），半年度随访。 - 场景：估计监禁（\(A=1\)）对后续半年的性伴侣总数与吸烟支数（\(Y\)）的因果效应。 - 怎么用上去：基线协变量 \(L\) 包括年龄、种族、HIV 状态、药物使用、住房不稳定等；倾向得分 \(\pi(L)\) 用 logistic 回归估计；结局模型 \(m_a(L)\) 用 MZINB（性伴侣数）与带堆积修正的 ZINB（吸烟数）估计；DR 估计量用上述 \(\pi\) 与 \(m_a\) 构造。 - 结果：监禁使性伴侣数均值增加约 2.4 倍（\(CMR \approx 2.4\)），使吸烟数均值增加约 1.5 倍（\(CMR \approx 1.5\)）。堆积修正对吸烟数估计的影响约 2%（因 20 支/包的堆积明显）。 - 想说明什么：验证 DR 估计量在真实数据中的可行性，展示堆积修正的必要性，并与 Knittel et al. (2020) 的 IPTW 广义 logit 结果对比（后者将性伴侣数分类，丢失计数粒度）。

🔎 结论是否比证明窄： - 作者在模拟中只展示了低维设定（\(L\) 维度 5-10），未证明 DR 估计量在高维下的一致性或渐近正态性。文中 claim "DR 估计量在任一模型正确时一致"，但这是在低维参数模型且 MLE 收敛的前提下严格成立的；若 MZINB 不收敛（模拟中 5-10% 场景非收敛），该 claim 不适用，作者只是丢弃非收敛样本，未理论分析非收敛对 DR 的影响。 - 堆积修正融入 DR 后，双稳健性是否仍严格成立？作者未给出定理，只在模拟中展示偏倚降低。严格来说，若堆积模型误指，\(E[Y^*|Y, L]\) 的估计偏倚会破坏 DR 的修正项，此时 DR 可能不再双稳健——这一点被作者泛泛 claim 为"堆积修正提高精度"，但未在误指堆积模型下做模拟验证。

四、开放问题（点到为止，扎根具体语句）¶

堆积修正破坏双稳健性的理论分析：当堆积模型 \(P(H|Y^*, L)\) 误指时，\(E[Y^*|Y, L]\) 的偏倚如何传导到 DR 估计量？是否仍存在部分稳健性？扎根在文中 "堆积修正替代 \(Y\) 进入 DR 公式" 的构造步骤，以及 Kang and Schafer (2007) 对 DR 在模型误指下方差膨胀的警告。
因果均值比的半参数效率界：在计数结局（允许零膨胀）下，\(CMR\) 的有效影响函数是什么？当前 DR 估计量是否达到效率界？扎根在文中未引 van der Laan and Rose 的 TMLE 理论书，也未讨论效率界。
高维协变量下的 DR 估计量：当 \(L\) 维度远大于 \(n\) 时，如何用 debiased ML 或 DML 结合 MZINB 估计 \(CMR\)？扎根在文中模拟只考虑低维（\(L\) 维度 5-10），且未引任何高维因果推断文献（如 DML 系列）。
MZINB 非收敛的理论原因与解决：MZINB 的 MLE 在 5-10% 场景下不收敛（Benecha et al., 2017），这是参数空间边界问题还是算法问题？扎根在文中 "非收敛率与 Benecha et al. 一致" 的陈述，以及作者用多重初始值缓解但未理论分析的缺口。

提醒：要确认某条是不是真 gap，去读同子领域近期约 5 篇的 intro——都指向它 = 共识（真 gap），互相打架 = 机会。

Maintained by 陈星宇 · Homepage · Source on GitHub

Exposure effects on count outcomes with observational data, with application to incarcerated women¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论