Marginalised Poisson Hurdle Model for Cross-Sectional Count Data with Excess Zeros¶

作者: Fred Fosu Agyarko, Edward Acheampong, Issah Seidu, Samuel Iddi
主题: 非参数 / 半参数
相关性: 6/10
链接: https://arxiv.org/abs/2606.03023

一、领域脉络与小综述¶

这个方向是什么¶

本方向子领域是零膨胀计数数据的边际化回归模型。核心科学问题是：当计数数据包含结构性的过多零值时（即数据生成过程是“先通过/不通过障碍，再决定计数”的双过程），如何建模协变量对总体边际均值 E(Y) 的影响，而不是仅仅对某个内部参数（如 Poisson rate λ）的影响？难点在于：边际均值是零过程参数（π）和计数过程参数（λ）的非线性函数，因此标准的非边际化模型（如标准 Poisson Hurdle Model）给出的系数（如 log-rate ratio）不等于 log-mean ratio，且其效应量（如 incidence density ratio, IDR）会随协变量取值而变化，导致同一个系数不能报告为一个“可移植”的群体平均效应。这一方向成熟度中等：方法框架（marginalisation 思路）在 1999-2014 年间已建立，但具体的模型族（如 hurdle vs. zero-inflated, cross-sectional vs. longitudinal, Poisson vs. Negative Binomial）仍在填充。本文是对 Poisson Hurdle 模型的边际化这一空缺的贡献。

发展脉络（history）¶

奠基工作：

Mullahy (1986)[1] 提出 Poisson Hurdle Model (PHM)，将计数分布分解为二元零-正决策和零-截断 Poisson（zero-truncated Poisson）两个独立部分。这是本领域最核心的基准模型，广泛应用于卫生经济学。作者在引言中称其是“the most widely used tool for this type of data in health research”，并指出其优势在于“natural clinical interpretation: the hurdle separates the binary access decision ... from the intensity decision”。
Lambert (1992)[2] 提出 Zero-Inflated Poisson (ZIP) 模型，将零视为二元混合（结构零 + Poisson 零）。作者在引言中明确说“the PHM is often preferred over the zero-inflated Poisson in health utilisation applications”，并引用 Min & Agresti (2005)[3] 和 Deb & Trivedi (1997)[4] 支持这一偏好——但用户需注意这一偏好可能存在领域特定性（health utilisation vs. manufacturing defect）。

主要进展（reparametrisation 思路的引入）：

Heagerty (1999)[8] 首次提出 marginalised multilevel models 的思想，用于二分类重复测量数据。作者在引言中明确称：“This marginalisation approach was pioneered by Heagerty for binary outcomes”。其核心贡献是：不是直接 parameterize logit(P(Y=1|x)) 中的条件概率，而是 parameterize logit{E[P(Y=1|x)]} 中的边际均值（尽管在 binary 情形下两者一致），并通过隐含连接方程生成内部参数。这一想法启发了计数数据中的“marginalised”系列模型。
Long et al. (2014)[5] 和 Preisser et al. (2016)[6] 将 marginalisation 拓展到零膨胀计数数据，分别提出了 Marginalised Zero-Inflated Poisson (MZIP) 和 Marginalised Zero-Inflated Negative Binomial (MZINB)。作者在引言中专门标注：“to the best of our knowledge, no marginalised counterpart of the Poisson hurdle model has been proposed in the literature. The present paper addresses this gap.” 这是本文最核心的定位声明：MZIP/MZINB 填补的是零膨胀（zero-inflated）模型空缺，而本文填补的是零障碍（hurdle）模型空缺——两者在数据生成机制上不同（hurdle 视所有零为结构零，ZIP 零是二元混合），但在 marginalisation 技巧上有共享基础。

当前 frontier 与本文位置：

Kassahun et al. (2014)[7] 提出 marginalised multilevel hurdle and zero-inflated models，但这篇是纵向数据（multilevel）版本。作者在讨论中称“the MPHM belongs to the family of marginalised count models initiated by Heagerty ... and within count data, the closest relatives are the MZIP and MZINB”。纵向设定引入了随机效应，和 cross-sectional 设定是平行发展。
本文 MPHM 是“the first cross-sectional marginalised Poisson hurdle model”，定位在 cross-sectional, Poisson, hurdle 子叉上，填补了 MZIP（zero-inflated）和 Kassahun et al. 等纵向工作之间的空隙。

子线索聚类¶

线索 1：非边际化标准模型（PHM, ZIP） - 代表：Mullahy (1986)[1], Lambert (1992)[2] - 核心：直接参数化 λ（Poisson rate）或 logit(π)（零概率），系数是 log-rate ratio 或 log-odds ratio，但不是 log-mean ratio。这是本文要改进的“弱点”所在。 - 本方向发展较早，应用极广，但 marginalisation 认知不足的“问题”在引言中被明确标出。

线索 2：边际化零膨胀模型（MZIP, MZINB） - 代表：Long et al. (2014)[5], Preisser et al. (2016)[6] - 核心：对 ZIP 和 ZINB 分布进行边际化 reparameterisation——直接 parameterize log μ（μ=E(Y))。产生了 exact constant IDR。但数据生成机制是“zero-inflated”（零是混合），不是“hurdle”（零是障碍）。 - 这条线索就是本文方法的直接前身——本文想引入的是同样的 marginalisation trick 但用于 hurdle 分布。

线索 3：纵向/多水平边际化模型 - 代表：Kassahun et al. (2014)[7], Heagerty (1999)[8], Heagerty & Zeger (2000)[9] - 核心：引入随机效应或聚类结构，形成 multilevel 边际化。与本文的 cross-sectional 设定平行。 - 本文讨论部分提到：纵向边际化模型（如 Kassahun 2014）已有，但 cross-sectional marginised hurdle 缺失——这构成了本文的核心 gap。

线索 4：过度分散与负二项扩展 - 代表：Iddi & Doku-Amponsah (2016)[21]（自引），Hilbe (2011)[18] - 核心：当 Poisson 假设不足以拟合 overdispersion 时，采用 Negative Binomial 成分。 - 本文在缺点中明确提到：NMES1988 数据 VMR=7.52，提示“substantial residual overdispersion that the Poisson component cannot fully accommodate”，并将此列为未来扩展方向。

这个方向在追问的核心问题¶

怎样让 Hurdle 模型的系数具有“可移植的”边际解释？——即 IDR 不随协变量取值而变化。这是 MPHM 的直接答案。
怎样在保留“hurdle”结构（与 ZIP 区别开）的同时实现 marginalisation？——两者零生成机制不同，意味着 connector equation 需要重新推导（本文的 Proposition 1 正是解决存在唯一定理）。
加入过度分散（NB）后边际化性质是否还能保持？——本文帧为未来工作；MZINB[6] 已证明在 ZIP 设定下 NB 版本可行，因此 hurdle 版本很可能成立，但未被本文具体证明。
纵向/重复测量设定下的边际化 Hurdle 模型？——Kassahun et al. (2014)[7] 已做纵向版本，但效用函数为任意 count distribution（包括 hurdle）的边际化在 cross-sectional 设定尚未完全填补——MPHM 填补的是 cross-sectional，但纵向仍是 open。

⚠️ 作者的 framing¶

缺口 frame：“to the best of our knowledge, no marginalised counterpart of the Poisson hurdle model has been proposed in the literature.”（第 3 页）——这是明确的 claim。用户需要注意：这个 claim 推定了“marginalised”的准确定义（直接参数化 E(Y)，而非 λ）。如果发现有未被本文引用的“marginalised hurdle”工作，需要检查其方法是否和本文重叠。
淡化/回避的竞争路线：
MZIP[5]和MZINB[6]被 cites 为“closest relatives”，但作者未详细讨论 ZI 与 hurdle 之间的识别差异（例如在零生成机制不同时，Hurdle 的 connector equation 是否更简单或更复杂？）。作者也未讨论 ZIP vs Hurdle 的模型选择问题（Vuong 检验已被用于比较 PHM vs MPHM，但未讨论 MZIP vs MPHM 的检验）。
纵向边际化模型（Kassahun 2014）[7]虽被引用，但作者未详细比较 cross-sectional vs longitudinal 设定下的 connector equation 差异——用户若想攻纵向扩展，需留意这一点。
非参数/半参数扩展完全未被提及（如：将 μ 的 log-linear 假设放松为半参数 additive model，或关于零过程的非参数回归）。这是明显的文献缺口。
明显该被引用但可能缺席的：
关于 zero-inflated vs hurdle 的识别与比较的早期理论工作（1980 年代末-1990 年代初）——用户需要检查 missing 文献是否与本文的核心 gap claim 冲突。
Marginalised 框架下的随机效应模型（Heagerty 1999 的 extension）可能没有被本文充分讨论——但 Heagerty 1999[8] 本身被 cite 了，只是 their application to count（especially hurdle）is missing。
任何关于“connector equation”的广义非线性方程求解的数值分析文献（本文的 Brent solver 是 R 默认，未引用专门文献）。

张力¶

未见明显对立引用。本文内部也已声明 PHM 的 AIC 比 MPHM 低 41.9，但这不是竞争——MPHM 是 reparametrisation 旨在提升解释性。Vuong 检验 z=2.74 (p=0.006) 更偏好 PHM，但作者解释为“MPHM is not competing on goodness-of-fit”，因此两个模型之间不存在矛盾（只是目标不同）。用户若打算探究“为何 MPHM 的似然值比 PHM 低”（即 connector constraint 带来的代价），可能需要更精细的分析。

二、这篇论文做了什么¶

三句话¶

研究问题：在零膨胀计数数据（特别是卫生服务利用数据）的 Poisson Hurdle 模型设定下，标准 PHM 的 count 分量参数化的是 log(λ)（Poisson rate），导致其系数报告的 IDR 不是精确常数（随协变量变化），因此不能被解释为边际可移植效应。本文通过直接参数化 总体边际均值 E(Y)（即 log μ = X⊤β），提出了 Marginalised Poisson Hurdle Model (MPHM)，使得 exp(βj) 成为精确的常数 IDR。
核心技术方法：引入一条 非线性 connector 方程 μ = (1-π)λ/(1-e^{-λ}) 将结构 Poisson rate λ 隐含地与参数化边际均值 μ 和零概率 π 相连。证明了该方程存在唯一正解（Proposition 1），给出了解析的 score 方程（Proposition 3）、块对角 Fisher information（Proposition 4），并用 Brent 方法求解 connector 的数值解。估计采用 BFGS 最大似然，SE 由 Hessian 和 delta 方法给出。
主要结论：Proposition 5 证明 exp(βj) 对所有协变量值、个体、子群、群体都是精确的常数 IDR。模拟（n=100-1000, π=0.2-0.8, R=200）显示近零偏、√n-收敛、Wald 覆盖率 0.905-0.975。应用于 NMES1988（n=4406），慢性疾病 IDR=1.163（95% CI: 1.150-1.177），精确常数且可移植。

关键设定与假设¶

定义与记号：Y_i ∈ ℕ₀，零概率 π_i = P(Y_i=0)，Poisson rate λ_i > 0，边际均值 μ_i = E(Y_i)。MPHM 设定：logit(π_i) = X_i^Tα, log(μ_i) = X_i^Tβ。关键的 connector equation: μ_i = (1-π_i) λ_i / (1 - exp(-λ_i))。
假设 (implicitly required for asymptotic normality, Proposition 5a)：
设计矩阵 X 满列秩（保证可识别性，Proposition 2）。
M-estimation 的正则性条件（compact parameter space, twice continuously differentiable log-likelihood, non-singular Fisher information）——论文直接引用了 White 等文献，但没有 explicit 列出（如 Lipschitz on Fisher info, uniform bounds on third derivatives 等细节）。用户要注意：这里的渐近正态性证明并非原创推导，而是直接援引标准结果。
存在性约束：μ_i > 1 - π_i（由 Proposition 1 需要）。本文声称“automatically satisfied throughout optimization for realistic health utilisation datasets”——这是一个 empirical claim，而非有 guarantee 的假设。在极端情形（如 μ_i 非常小，π_i 非常接近 1 的 degenerate 参数）下约束可能被违反，此时 log-likelihood 被设为 -10^10。
相比已有文献：
vs. 标准 PHM：MPHM 将 log(λ_i) 替换为 log(μ_i)，条件 PHM 的似然形式改变（需要数值 connector），但两个分量条件独立的性质得以保留（block-diagonal Fisher info 证实）。因此 PHM 的两步估计（可分别优化零分量和计数分量）不适用于 MPHM——计数分量的 score 依赖于 α 和 β 的组合，必须 joint optimization。
vs. MZIP (Long 2014)：MZIP 的 connector 不同（因 ZIP 的 pmf 包含结构零和 Poisson 零的混合），本文的 connector 只在 hurdle 设定下成立——因此 connector equation 是模型的定义特征。MZIP 的 marginalisation 已被证明成立，而本文证明它在 hurdle 下同样成立。

主要结果¶

Proposition 1 (存在性、唯一性、线性近似无效性) - 陈述：对任意 π_i ∈ [0,1) 且 μ_i > 1-π_i，connector 方程有唯一正解 λ_i^⋆。该解严格小于线性近似 \tilde{λ}_i = μ_i/(1-π_i)，且这一近似会导致不一致性。 - 直觉：connector 函数 g(λ) = (1-π)λ/(1-e^{-λ}) - μ 在 (0,∞) 上严格单调递增（g'(λ)>0 in analytic proof），在 0+ 处为负（(1-π)-μ < 0），在 ∞ 处为正 → 由 IVT 唯一解。 - 技术难点：证明了 \tilde{λ} 总是 high-bias（严格大于真解），因此代入零-截断 Poisson 似然会产生不一致估计。这对实际使用很重要：用户如果偷懒使用 \tilde{λ} 替代数值解，MPHM 的估计是不一致的。 - 必要条件：μ_i > 1-π_i（若违反，方程无解——似然需设为 -10^10 避免 optimizer 失效）。

Proposition 4 (块对角 Fisher Information) - I(α, β) = block-diag(I_αα, I_ββ)，其中 I_αα = X^T diag(π_i(1-π_i)) X，I_ββ = X^T diag(w_i^2 · Var_+(Y_i)) X（w_i 是 connector 的 Jacobian 项，Var_+(Y_i) 是条件方差成分）。 - 技术要点：块对角性源于 PHM 中零分量和计数分量条件独立（given X）。MPHM 虽然引入 connector linking μ and π，但 score 方程的结构仍使得 zero 和 count 的 Hessian 的交叉项在期望下为零。这意味着 SE 可以从块对角 Fisher info 中一致估计——这正是模拟中 SER 收敛到 1 的理论支撑。

Proposition 5 (常数 IDR) - 陈述：IDR_j = exp(β_j) 对所有协变量值 x_{-j}、所有 π_i、所有 λ_i、所有个体都成立。 - 证明极其简单（第 2.12 节）：μ_i = exp(X_i^T β)，直接计算 μ(x_j+1)/μ(x_j) = exp(β_j) ——这是“trivial”，因为 MPHM 的定义本身就是参数化 μ 而不是 λ。关键 insight：证明不需要 connector（方程 10）——它只需要 log-linear 规范 log μ = X^T β。connector 的存在只为了将 λ_i 映射回 μ_i（从而建立气场一致的似然），在 IDR 的证明中它根本不出现。

结论是否比证明窄：
唯一“窄”的点：Proposition 5 实际上的证明仅依赖 log-linear specification for μ，这比 paper 的 claim 更早——它不要求零过程也是 logit 形式（事实上，π_i 可以是任意函数，只要 μ_i = exp(X_i^T β) 成立）。因此，如果用户想将 MPHM 推广到 zero component 用 probit 或非参数 link，IDR 常数性质依然保持不变（只要 μ 是 log-linear 即可）。这打开了可能的半参数扩展空间。
更微妙的问题：Proposition 5 的 IDR 是针对总体边际均值 E(Y|X) 的比率，但名义上的“每个个体都具有这个 IDR”是交叉积意义上的：对于同一个体，改变一个协变量取值时，E(Y) 的比值是常数——这实际上需要反事实假设（如果 X_j 从 x_j 变为 x_j+1 而其他协变量不变，则 E(Y) 按因子 exp(β_j) 变化）。在 observational 数据中，这不是因果 IDR，只是条件关联测量。作者使用了“effect”（“Each additional chronic condition increases expected physician visits by 16.3%”）——这暗示因果解释，但论文没有进行任何因果识别讨论（如 no unmeasured confounding, positivity）。因此对于 causal inference 研究者（你正是），这是一个蝴蝶效应所在：如果用户想用 MPHM 做因果 IDR 估计（比如用 DID、IV、或 ML 控 confounders），这里定义的 IDR 是“条件关联”，而不是因果——需要在“法”中加入无混杂假设才能桥接。

三、值不值得做 / 研究者能做什么¶

领域层面的判断材料¶

社区真在乎的开放问题（从被引文献反复点名 + 本文的 discussion 直接提及）：
过度分散（NB 扩展）下的 MPHM：本文明确列为 future work（“a Negative Binomial extension of the hurdle model... provides substantially better fit for such data”[21]），而 MZINB[6] 已经存在。因此这一问题在 ZIP 设定下已解决，但在 hurdle 设定下是 open。——用户若攻此路，成本可参考 MZINB。
纵向/多水平 MPHM：Kassahun 2014[7] 的 longitudinal 版本已出现在文献中，但本文的 cross-sectional MPHM 作为特殊 caso 并没有被直接包含（connector equation 在随机效应下需要 marginalisation over unobserved effects，更复杂）。用户可考虑将本文的 non-lnear connector 移植到纵向设定——但这几乎直接发明一篇新论文吗？需查拥挤度。
半参数/非参数 μ 函数：即放松 log-linear 假设，引入 additive model或 nonparametric link。这完全是 open：MZIP 和 MPHM 都假设 log-link + linear predictor。半参数 extension 可能产生更 robust 但更贵的 IDR。
因果 IDR 的识别与估计：在 MPHM 基础上引入 IV / proximal / sensitivity analysis……由于你有很强的 causal inference background + very familiar with estimation theory，这一点可能是你的“独特角度”（见“迁移视角”）。
⚠️ 本文作者是否一家之言？本文的 gap claim（没有 marginalised hurdle model）得到参考文献支撑[5,6,7]，但用户需自行验证：有没有类似 idea 的 preprint 或 conference paper 在 2023-2024 年出现？用户若打算沿此方向深入，先做一篇 vanity search：“marginalised hurdle model”或“marginalized Poisson hurdle”——若有 1-2 篇 recent preprint（特别是若有人用了你在 pursure 的 extension），则此 gap 可能变窄。

问题种子清单（每条 grounded）¶

（A）立即可做（≤2 条）

(A1) 实现 MPHM 的 R 包 + 复现 NMES1988 + 更优的 bridge solver
问题：将 MPHM 的 BFGS 优化器 + Brent connector 封装成可发布的 R 包，包含模拟数据生成、AIC/BIC vs PHM 对比，并与现有 PHM（R 包 pscl::hurdle）做全面 benchmark。
扎根于本文：Section 3 模拟（n=100-1000 only, R=200），Section 4 数据（NMES1988）。原文仅用 uniroot() + BFGS（R 内置 optim），可优化为：更快的 blocking Jacobian evaluator（利用 Proposition 3 的 clean score formula）、自适应的 connector 迭代（利用 Propositio 1 的单调性和已知界，可减少 Brent 的迭代次数）、更 robust 的 Hessian approximation（直接用 block-diagonal Fisher info 作为 asymptotic SE，而不需要 observed Hessian，可加速 bootstrap）。
成本：7-14 天（纯软件开发），零新理论工作。
拥挤度：低（本文 GitHub 已公开代码，但可能是 research iteration 版本，未包装成 R 包）。用户需要检查是否存在他人已封装（如 marginalizedHurdle 或类似）。
武器库匹配：very_familiar: 软件开发、high-dimensional asymptotics（SE 比较）+ moderately_familiar: M-estimation theory（检查 asy normality 条件）。
独特角度：用户 can also implement a fast analytical Hessian using the block-diagonal Fisher info proposition (Proposition 4). 算法可绕开 BFGS 的默认 finite-difference Hessian，直接提供更精确的 SE（在 small-n 或高π 场景下可能提升 coverage）。
(A2) 推导 MPHM 的精确 Stein 引理或 semi-parametric efficiency bound
问题：对于 MPHM 的计数分量系数 β，其 semi-parametric efficiency bound 是什么？是否可以从 block-diagonal Fisher info 给出即是最优？若零过程的参数 α 视为 nuisance，β 的半参数效率界是？和 PHM 的效率比较（由于 connector 约束，MPHM 的 lower bound 可能略大于 PHM——对应于 AIC 差 41.9 的代价）。
扎根于本文：Proposition 4 给出了 Fisher info，但作者没有探索 semi-parametric efficiency（只做了 MLE，未证明 MLE 是 semi-parametric efficient）。如你在 causal inference 中见的：如果 nuisance 参数空间扩大（如零过程可能是 non-parametric），β 的效率界需要重新推导。这是典型的“从 parametric MLE 扩展到 semiparametric bound”问题。
成本：中等理论工作（需熟练 semi-parametric theory 和 influence function 计算）。你 moderately_familiar 的 semi-parametric theory 底子足够（但 HOIF 理论不需要涉及高阶 bias），2-4 周。
拥挤度：低（本文未触及 efficiency 讨论）。
武器库匹配：moderately_familiar: semi-parametric theory (influence function for β in double-stage model).
独特角度：用户此前在做 HOIF（高阶 influence function），但本文是一阶问题（只涉及一阶 bias correction of MLE）——所以是你 moderately_familiar 底子的自然应用。

（B）中期可做（≤2 条）

(B1) 将 MPHM 推广到 Negative Binomial 零-截断分布（MPH-NB）
问题：在 hurdle 框架下，用 Zero-Truncated Negative Binomial（ZTNB）替代 Zero-Truncated Poisson，引入额外的 overdispersion 参数 φ。证明 connector equation（ZTNB）存在唯一定理（类比 Proposition 1），推导 score equations 和 Fisher info。模拟比较 ZTNB-MPH vs MPHM 在 overdispersion 场景下的 coverage 和 bias。同时讨论：IDR 是否仍为常数？当 overdispersion 存在且仅作用于 count 分量时，IDR 的定义需要适度修改（因为此时 E(Y) = μ，但 Var(Y) 结构与 Poisson 不同）。更多细节待查。
扎根于本文：Discussion Section 5.3 & [21] 明确指出的“负二项扩展”。本文也承认 NMES1988 的 VMR=7.52 暗示 Poisson 假设不充分。
攻它需要什么：
- 补 ZTNB 的 CDF 在 connector 方程中的解析形式（ZTNB 的 CDF 不像 Poisson 的“1-e^{-λ}”那样简单，必须使用 pnbinom(0, mu, size) 即 I_s, mu analytical form）。一阶偏导需要数值或解析推导。
- 补 MZINB[6] 的 connector 作为参考（因为 ZINB 已有 marginalised 版本，可借用 Hurdle 和 ZI 之间的统计类比）。
- 若 connector 无封闭解析形式，需用 Mean-Field Variational Bayes 或 Laplace approximation 估计 μ 与 NB 参数的关系——这会使理论复杂化。
- 完成时间：4-8 周（含理论 + 模拟）。
拥挤度：中（MZINB[6] 是强基线，但 ZTNB-MPH 的 Hurdle 版本绝对 open）。
武器库匹配：moderately_familiar: 半参数理论/ M-estimation theory + 分布（ZTNB 的 cumulant）。缺的具体环节：对 ZTNB 的 connector 方程需要手工推导一阶导数。补 1 篇文献：Preisser et al. (2016) MZINB 方法论部分。
(B2) MPHM 的纵向随机效应扩展（multilevel MPHM）
问题：在 repeated measures（longitudinal）设定下，用户对同一个体在不同时间点的计数观测包含额外聚类（person-level RE 或 AR(1)）。本文的 cross-sectional connector 不能直接嵌入 multilevel model——因为 μ_i 现在取决于随机效应。需要从 Heagerty (1999)[8] 的 binary-multilevel marginalised model 出发，将其 connector 框架推广到 hurdle count。
扎根于本文：本文的“Limitations”一节未明确提出纵向扩展，但 Carla-作者与 Kassahun 2014[7] 的直接 overlap（Kassahun 做的正是 multilevel hurdle & ZIP models，但没有 marginalise）。
攻它需要什么：
- 补 multilevel GLMM 理论（Pinheiro & Bates 2000；Verbeke & Molenberghs 2009）。
- 补 Kassahun 2014[7] 的完整方法（inc. their connector / marginalisation strategy for ZIP & hurdle；本文假定 connector 简单可利用）。
- 难点：connector 在 RE 情形下没有封闭形式（μ_i = E_{b_i}[E(Y_i|b_i,x_i)] 需要数值积分），因此 marginal likelihood 的计算需要 Gaussian quadrature（如 adaptive quadrature）或 Laplace approx。理论证明（Proposition 1-like 的存在唯一性）更难——但已有 Kassahun 的类似 proof 可供借鉴。
- 完成时间：8-12 周（理论 + 数值）。
拥挤度：中等偏高（Kassahun 2014 已做 ZIP & hurdle，但 marginalised longitudinal hurdle 是 open）。
武器库匹配：moderately_familiar: semi-parametric theory (profile likelihood for RE) + very_familiar: high-dimensional asymptotics (对于 RE case 的 MLE consistency rate, Shen 2006)。缺：adaptive quad 理论和 Laplacian approx 的 consistency 可能稍超出 moderately_familiar——补 1 篇：Rabe-Hesketh et al. "Corrected Maximum Likelihood" 或 Jin & Liang 2015 JASA。

（C）暂不建议（≤2 条，点明为啥武器库内不易绕过）

(C1) 半参数 MPHM（将线性预测器 log μ_i = X^T β 推广为非参数可加模型 log μ_i = f_1(X_{i1}) + ... + f_p(X_{ip)）
原因：非参数可加模型 + connector 非线性方程，需要使用 Bell numbers for V4 optimization (treewidth across p functions)。连接器方程的 Jacobian 对每个观测值 λ_i 依赖于 X_i → 因此非参数可加估计（backfitting / gradient boosting）的“alternating”过程中，connector 会引入 cross-smoothing 问题。用户非常熟悉非参数统计（nonparametric statistics），但非常不熟悉的大规模 SDP / smoothing matrix multiple penalty——非参数可加模型 + nonlinear link 的联合估计在维度较低时可行（p≤5），但若 p 大（NMES1988 的 8 个协变量 + 交互？）就面临“Connector + smoothness penalty”耦合下的一致性问题。理论上需要 **high-dimensional sieve - dimension reduction with high-order spline basis + L2-norm penalty on connector's implicit function→这不属于常规 nonparam statistics 工具箱，需要读 new theory（如 Ghosh & Yuan 2016, Sparse Additive Models with distributioal links）。目前用户 moderately_familiar 的 HOIF 和 semi-parametric theory 不能直接接上，容易陷入理论沼泽。
指出：命题 5（常数 IDR）在非参数 μ 函数下仍成立（只要定义 IDR = μ(x_j+1)/μ(x_j) 但这里不是常数了（除非函数形式使比率独立于 x_{-j}），而这是退化情况——所以 MPC 非参数版本的 IDR 不能是常数。因此本文的“常数 IDR”核心卖点会丧失。
判定：暂不建议，除非研究者打算放弃常数 IDR 核心卖点。
(C2) 因果 MPHM（将 milk/unmeasured confounders 考虑进零过程/计数过程）
原因：需要引入 proximal causal inference / instrumental variable 至两个分量（binary zero process + count process），且 connector 方程需要扩展至含有 ~ proixy variables of unobserved confounder U 的情况。本文的似然在给定 X 下分解为零和计数两部分条件独立，但引入 U 后两个分量通过 U 的相关性勾结，连 identification 都难（尤其当零过程 U 和计数过程 U 非同分布时）。此外，当前的 MPHM 没有估计干预的因果关系，只有条件关联（如上所述）。要实现因果 IDR，需要做 attention: 加入无混杂假设 + positivity + 然后 MPHM 可重写为“潜在结果分布为 MPHM”，但此时需估计 E[Y(a)] 的比值——这时 IDR 的常数性只在 一致性测量假设 下成立，并且在 变联本 (marginal over potential outcome) 下可能不再常数（匹配 / 子分类因果)。属于显著的 open question，但所需工具（效果推断中带有约束的似然、条件独立性假设的敏感性分析、渐近分布中需要最小统计量的 M-Estimation with two-stage nuisance）大大超出你很熟悉的 estimation theory in causal inference——which is 一阶无偏估计而非二阶识别。同时，良好的 causal identification 论文通常需要 moderate computing（模拟 10^3-10^4 Bootstrap）和 formal identification proof（半参数效率界）。你 moderately_familiar 的 identification in causal inference 只够做 simple bias analysis（E-value / sensitivity），不够做 full causal MPHM。你需先补 1-2 篇因果计数数据方法的阅读（如Naimi et al. 2017 AIPW for count & Twisk et al. 2013 on count IDR）。完成这个 target 的时间可能 6-12 周——鉴于“暂不建议”槽，更适合放在 future work。

迁移视角（单列）¶

迁移机会 1：将 connector equation 框架移植到因果推断中的连续/分位数边际效应估计 - 方法 T：MPHM 的 connector equation（非线性隐函数连接 μ 和 λ/π）。 - 目标领域：分位数回归中的边际化处理。在 quantile regression 中，系数是条件分位数的比率，而不是边际均值比率。对于零膨胀分位数，也可以用类似的 connector trick——定义一个“marginalised quantile”而非平均。用户如果做过 linear quantile hurdle 那就会想：如果 quantile 的边际均值（即 μ）= E(Y) 还是被直接参数化，那 connector 就变成：对每个分位数 τ，q_τ = Q(π, λ)……嗯这有点复杂。同时，在半参数仪器变量 IV 中，当内生变量是零膨胀计数时，直接 log(E(Y|X, Z)) 不会被内生性偏误忠实化？用户可考虑用 Connector equation 将两阶段最小二乘（TSLS）的第一阶段分布参数化，使得第二阶段系数是精确常数 IDR。这是新鲜且可行：用 MPHM 的 connector 作为第一阶段，在 IV 框架中实现残差法的第二步。用户 VERY 熟悉 IV / causal inference 的 estimation theory，可轻易建构。 - 为什么可行：Connector 的算子的存在唯一性（proposition 1）不依赖特定的 link（logit），只是用到严格单调性。在 IV 场景下，第一阶段的 π_i(X, Z) 和 μ_i(X, Z) 可以估计，然后 connector 给出 λ_i，之后再进入 IV 第二阶段（线性 projection / 2SLS）——直觉上类似于 control function 方案。概率论推导（θ_2sls 的 asympt）you can handle。完成时间：4-6 周（理论 + 模拟）。

迁移机会 2：将 block-diagonal Fisher info 结构移植到 高阶 U-统计量的方差估计 - 方法 T：Block-diagonal Fisher info 公式来自“conditional independence of zero and count components given X”——类似结构出现在 U-统计量中的配对独立性（如两个独立的采样机制）。 - 目标领域：估计高阶 U-统计量的 asymptotic variance** 当其内核由两阶段流程产生（如：先筛选样本，再计算 pairwise U-statistic）。目前高阶 U-统计量的方差估计需要 O(n^{2k}) 计算复杂度，但如果你能把两个阶段的贡献分离成 block-diag 你就能减小为 O(n^k)。用户 very_familiar 的高阶 U-统计量的计算（treewidth / einsum）可立即对接：考虑一个 U-statistic of order 2，其 kernel 由（零过程 indicator + 计数过程 mean）组成——似于本文的独立似然分解。在理论文章（你正在看的 one of B & Co.’s works）中，block-diagonal Hessian 可以在计算复杂度的降低中发挥核心作用。你可以写一篇 short note：将本文的 block-diagonal Fisher info 翻译成通用的“asymptotic variance of two-stage U-statistic by factorisation of zero and positive parts”。成本：2 周（纯理论符号推导）。

四、延伸与下一步¶

沿引用链的阅读路线¶

进入本领域的推荐阅读顺序（基于第一节的脉络）：

地基 1：Heagerty (1999) [8] “Marginally specified logistic-normal models for longitudinal binary data”——这是 marginalisation 的思路 origin。必须理解：为什么在 binary 设置下 marginalisation 有优势？他的 approach 和本文的 connector 有多大差异（binary 很 trivial，hurdle count 需要非线性方程）。
地基 2：Long et al. (2014) [5] “A marginalized zero-inflated Poisson regression model with random effects”——这是本文的 direct predecessor。重点：MZIP 的 connector 方程式推导（公式 3-4）和 MPHM 的连接器有何不同？MZIP 的 zero-inflated 分布下，零的生成机制 var 是先混合再 zero，而 hurdle 是先 barrier——所以 connector 形式不同。读此文也可掌握“如何在 count 分量中 marginalise”的基本技巧。
Frontier 1：Preisser et al. (2016) [6] “Marginalized zero-inflated negative binomial regression with application to dental caries”——这篇把过度分散加到了 MZIP 中（变成 MZINB），也就是本文 (B1) 中被点名要做的。读这一篇可以学：extra overdispersion parameter 在 connector 方程中的角色，以及 MZINB 的 numerical solver 如何设计。
Frontier 2：Kassahun et al. (2014) [7] “Marginalised multilevel hurdle and zero-inflated models for overdispersed and correlated count data with excess zeros”——这是 longitudinal 的对应版本。读此文可了解 multilevel 结构下 connector 的可解性（在随机效应下是否仍可保持严格单调？是否仍可用 Brent 方法）。
Frontier 3：Mullahy (1986) [1] “Specification and testing of some modified count data models”——原始 PHM 论文，理解标准 Hurdle 的似然形式。对于 grasp of why PHM 的 IDR 是非恒定的，以及零-截断 Poisson 似然中的 log(1-e^{-λ}) 项的行为很关键。

假设扰动¶

扰动假设：放松计数过程对零过程的独立条件（给定 X）。现在假设 Z_i 是公共不可观测的 clusters（如 clinic-level random effect），使得 π_i 和 λ_i 通过 Z_i 相关，即：P(Y_i=y_i|Z_i) 遵循 conditional PHM 结构，但 marginal over Z_i 时零和计数分量不再独立。这与本文的 block-diagonal Fisher info 直接矛盾（交叉块非零）。技术上需要什么新工具？ - 需要 marginal likelihood with integration over Z（Laplace approx / GH quadrature）。 - connector 方程现在变为：μ_i = E_{Z}[ (1-π(Z_i)) λ(Z_i) / (1-e^{-λ(Z_i)}) ]——必须 marginalise over Z 分布（如 logit-normal with Var(Z)=σ^2）。这不再是解剖学封闭的用户连接器方程。 - 在 integrate over Z 后，Proposition 1 的唯一性不再自动成立（因为 g(λ) now is an average over Z，不一定是严格单调）。可能只存在解 region，而非唯一解。 - 上式落在上面哪档？ → B 档（中期可做），因为用户 moderately_familiar 的 M-estimation theory 已经包括随机效应的 profile likelihood 理论（可与文献[8]对接），而且用户 very_familiar 的 high-dimensional asymptotics 可处理 Z 随机效应的 asymptotics（用 Laplacian + REML 近似）。补 1-2 篇：Heagerty & Lele (2003) Biometrics 或 Ribbing et al. (2013) 关于 NLM at cluster level + count endpoint methods。

理解检测题¶

检测题：设您的医院质量研究中，就诊次数 Y_i（count, scale 0-1000+）观测到 50% 的零值。您希望得到精确常数 IDR，且需检查是否适合用 MPHM vs PZH（过离散）。您需要做以下哪一件事？

(a) 直接运行本文的 MPHM 算法（GitHub/R pkg），计算 AIC 并接受如果 AIC 低于 Poisson regression。

(b) 先拟合标准 PHM（pscl::hurdle），计算每个观测的 IDR_PHM 在不同协变量水平下的取值范围。若范围很窄（如 1.15-1.17），则 MPHM 无实质提升；若范围很宽（如 1.10-1.30），且有多个高度偏相关系数 compare the usable proportion，则 MPHM may strongly improve。

(c) 运行 MZIP（Long 2014）和 MPHM，比较 Vuong test p 值评价两个模型对零生成机制的描述。

正确答案：(b)。因为 MPHM 的核心假设是——当标准 PHM 的 IDR 非恒定时，重参数化才有 real gain。在应用前，需通过检查 IDR_PHM 的方差来判断。若 IDR_PHM 已经几乎常数（范围极小），MPHM 的 AIC 通常会高（因为 +41.9 似然代价），所以更差。若 IDR_PHM 范围大，MPHM 有用。这是 researcher 的决策流。

拓展思考：若您的健康数据有超过 90% 零值（如 histopathology of very rare diseases），观测值的条件 1-π_i 非常接近 1（ideally if almost everyone has zero, π_i ≈ 1），则 μ_i = E(Y_i) 非常小（可能 ≈0.01），此时是否存在约束 μ_i > 1-π_i 可能被违反（例如 π=0.99, 1-π=0.01, 若 μ_i=0.005 则违反）。输入此条件后 MPHM 优化器会不断返回 -10^10 无法估计。因此需要使用 prior augmentation 或 constraint max-likelihood via barrier method。如何设计？——用 Lagrangian penalty on the constraint 逐渐缓解。这对应哪个问题种子？对应A？(A2) 的 efficiency under constraint 或 直接使用原论文的 existence condition → 在极端零率场景失效——这就是振动式 while the model is "only" for where the condition doesn't bind。用户 checks but where it does bind, MPHM is broken. 这可以作为 unique research angle：研究在小 π+小 μ 的 degeneracy 下 connector equation 无解的统计 inferential 后果——提出 Conditional MPHM 或 Hinge-like regularization。这是短期高增长点，落在 A 档（非常熟悉的高维渐近 + 软件开发可立刻实验）。

Maintained by 陈星宇 · Homepage · Source on GitHub