Marginalised Poisson Hurdle Model for Cross-Sectional Count Data with Excess Zeros¶
作者: Fred Fosu Agyarko, Edward Acheampong, Issah Seidu, Samuel Iddi
主题: 非参数 / 半参数
相关性: 6/10
链接: https://arxiv.org/abs/2606.03023
一、领域脉络与小综述¶
这个方向是什么¶
本方向子领域是零膨胀计数数据的边际化回归模型。核心科学问题是:当计数数据包含结构性的过多零值时(即数据生成过程是“先通过/不通过障碍,再决定计数”的双过程),如何建模协变量对总体边际均值 E(Y) 的影响,而不是仅仅对某个内部参数(如 Poisson rate λ)的影响?难点在于:边际均值是零过程参数(π)和计数过程参数(λ)的非线性函数,因此标准的非边际化模型(如标准 Poisson Hurdle Model)给出的系数(如 log-rate ratio)不等于 log-mean ratio,且其效应量(如 incidence density ratio, IDR)会随协变量取值而变化,导致同一个系数不能报告为一个“可移植”的群体平均效应。这一方向成熟度中等:方法框架(marginalisation 思路)在 1999-2014 年间已建立,但具体的模型族(如 hurdle vs. zero-inflated, cross-sectional vs. longitudinal, Poisson vs. Negative Binomial)仍在填充。本文是对 Poisson Hurdle 模型的边际化这一空缺的贡献。
发展脉络(history)¶
奠基工作:
-
Mullahy (1986)[1] 提出 Poisson Hurdle Model (PHM),将计数分布分解为二元零-正决策和零-截断 Poisson(zero-truncated Poisson)两个独立部分。这是本领域最核心的基准模型,广泛应用于卫生经济学。作者在引言中称其是“the most widely used tool for this type of data in health research”,并指出其优势在于“natural clinical interpretation: the hurdle separates the binary access decision ... from the intensity decision”。
-
Lambert (1992)[2] 提出 Zero-Inflated Poisson (ZIP) 模型,将零视为二元混合(结构零 + Poisson 零)。作者在引言中明确说“the PHM is often preferred over the zero-inflated Poisson in health utilisation applications”,并引用 Min & Agresti (2005)[3] 和 Deb & Trivedi (1997)[4] 支持这一偏好——但用户需注意这一偏好可能存在领域特定性(health utilisation vs. manufacturing defect)。
主要进展(reparametrisation 思路的引入):
-
Heagerty (1999)[8] 首次提出 marginalised multilevel models 的思想,用于二分类重复测量数据。作者在引言中明确称:“This marginalisation approach was pioneered by Heagerty for binary outcomes”。其核心贡献是:不是直接 parameterize logit(P(Y=1|x)) 中的条件概率,而是 parameterize logit{E[P(Y=1|x)]} 中的边际均值(尽管在 binary 情形下两者一致),并通过隐含连接方程生成内部参数。这一想法启发了计数数据中的“marginalised”系列模型。
-
Long et al. (2014)[5] 和 Preisser et al. (2016)[6] 将 marginalisation 拓展到零膨胀计数数据,分别提出了 Marginalised Zero-Inflated Poisson (MZIP) 和 Marginalised Zero-Inflated Negative Binomial (MZINB)。作者在引言中专门标注:“to the best of our knowledge, no marginalised counterpart of the Poisson hurdle model has been proposed in the literature. The present paper addresses this gap.” 这是本文最核心的定位声明:MZIP/MZINB 填补的是零膨胀(zero-inflated)模型空缺,而本文填补的是零障碍(hurdle)模型空缺——两者在数据生成机制上不同(hurdle 视所有零为结构零,ZIP 零是二元混合),但在 marginalisation 技巧上有共享基础。
当前 frontier 与本文位置:
-
Kassahun et al. (2014)[7] 提出 marginalised multilevel hurdle and zero-inflated models,但这篇是纵向数据(multilevel)版本。作者在讨论中称“the MPHM belongs to the family of marginalised count models initiated by Heagerty ... and within count data, the closest relatives are the MZIP and MZINB”。纵向设定引入了随机效应,和 cross-sectional 设定是平行发展。
-
本文 MPHM 是“the first cross-sectional marginalised Poisson hurdle model”,定位在 cross-sectional, Poisson, hurdle 子叉上,填补了 MZIP(zero-inflated)和 Kassahun et al. 等纵向工作之间的空隙。
子线索聚类¶
线索 1:非边际化标准模型(PHM, ZIP) - 代表:Mullahy (1986)[1], Lambert (1992)[2] - 核心:直接参数化 λ(Poisson rate)或 logit(π)(零概率),系数是 log-rate ratio 或 log-odds ratio,但不是 log-mean ratio。这是本文要改进的“弱点”所在。 - 本方向发展较早,应用极广,但 marginalisation 认知不足的“问题”在引言中被明确标出。
线索 2:边际化零膨胀模型(MZIP, MZINB) - 代表:Long et al. (2014)[5], Preisser et al. (2016)[6] - 核心:对 ZIP 和 ZINB 分布进行边际化 reparameterisation——直接 parameterize log μ(μ=E(Y))。产生了 exact constant IDR。但数据生成机制是“zero-inflated”(零是混合),不是“hurdle”(零是障碍)。 - 这条线索就是本文方法的直接前身——本文想引入的是同样的 marginalisation trick 但用于 hurdle 分布。
线索 3:纵向/多水平边际化模型 - 代表:Kassahun et al. (2014)[7], Heagerty (1999)[8], Heagerty & Zeger (2000)[9] - 核心:引入随机效应或聚类结构,形成 multilevel 边际化。与本文的 cross-sectional 设定平行。 - 本文讨论部分提到:纵向边际化模型(如 Kassahun 2014)已有,但 cross-sectional marginised hurdle 缺失——这构成了本文的核心 gap。
线索 4:过度分散与负二项扩展 - 代表:Iddi & Doku-Amponsah (2016)[21](自引),Hilbe (2011)[18] - 核心:当 Poisson 假设不足以拟合 overdispersion 时,采用 Negative Binomial 成分。 - 本文在缺点中明确提到:NMES1988 数据 VMR=7.52,提示“substantial residual overdispersion that the Poisson component cannot fully accommodate”,并将此列为未来扩展方向。
这个方向在追问的核心问题¶
- 怎样让 Hurdle 模型的系数具有“可移植的”边际解释?——即 IDR 不随协变量取值而变化。这是 MPHM 的直接答案。
- 怎样在保留“hurdle”结构(与 ZIP 区别开)的同时实现 marginalisation?——两者零生成机制不同,意味着 connector equation 需要重新推导(本文的 Proposition 1 正是解决存在唯一定理)。
- 加入过度分散(NB)后边际化性质是否还能保持?——本文帧为未来工作;MZINB[6] 已证明在 ZIP 设定下 NB 版本可行,因此 hurdle 版本很可能成立,但未被本文具体证明。
- 纵向/重复测量设定下的边际化 Hurdle 模型?——Kassahun et al. (2014)[7] 已做纵向版本,但效用函数为任意 count distribution(包括 hurdle)的边际化在 cross-sectional 设定尚未完全填补——MPHM 填补的是 cross-sectional,但纵向仍是 open。
⚠️ 作者的 framing¶
- 缺口 frame:“to the best of our knowledge, no marginalised counterpart of the Poisson hurdle model has been proposed in the literature.”(第 3 页)——这是明确的 claim。用户需要注意:这个 claim 推定了“marginalised”的准确定义(直接参数化 E(Y),而非 λ)。如果发现有未被本文引用的“marginalised hurdle”工作,需要检查其方法是否和本文重叠。
- 淡化/回避的竞争路线:
- MZIP[5]和MZINB[6]被 cites 为“closest relatives”,但作者未详细讨论 ZI 与 hurdle 之间的识别差异(例如在零生成机制不同时,Hurdle 的 connector equation 是否更简单或更复杂?)。作者也未讨论 ZIP vs Hurdle 的模型选择问题(Vuong 检验已被用于比较 PHM vs MPHM,但未讨论 MZIP vs MPHM 的检验)。
- 纵向边际化模型(Kassahun 2014)[7]虽被引用,但作者未详细比较 cross-sectional vs longitudinal 设定下的 connector equation 差异——用户若想攻纵向扩展,需留意这一点。
- 非参数/半参数扩展完全未被提及(如:将 μ 的 log-linear 假设放松为半参数 additive model,或关于零过程的非参数回归)。这是明显的文献缺口。
- 明显该被引用但可能缺席的:
- 关于 zero-inflated vs hurdle 的识别与比较的早期理论工作(1980 年代末-1990 年代初)——用户需要检查 missing 文献是否与本文的核心 gap claim 冲突。
- Marginalised 框架下的随机效应模型(Heagerty 1999 的 extension)可能没有被本文充分讨论——但 Heagerty 1999[8] 本身被 cite 了,只是 their application to count(especially hurdle)is missing。
- 任何关于“connector equation”的广义非线性方程求解的数值分析文献(本文的 Brent solver 是 R 默认,未引用专门文献)。
张力¶
未见明显对立引用。本文内部也已声明 PHM 的 AIC 比 MPHM 低 41.9,但这不是竞争——MPHM 是 reparametrisation 旨在提升解释性。Vuong 检验 z=2.74 (p=0.006) 更偏好 PHM,但作者解释为“MPHM is not competing on goodness-of-fit”,因此两个模型之间不存在矛盾(只是目标不同)。用户若打算探究“为何 MPHM 的似然值比 PHM 低”(即 connector constraint 带来的代价),可能需要更精细的分析。
二、这篇论文做了什么¶
三句话¶
-
研究问题:在零膨胀计数数据(特别是卫生服务利用数据)的 Poisson Hurdle 模型设定下,标准 PHM 的 count 分量参数化的是 log(λ)(Poisson rate),导致其系数报告的 IDR 不是精确常数(随协变量变化),因此不能被解释为边际可移植效应。本文通过直接参数化 总体边际均值 E(Y)(即 log μ = X⊤β),提出了 Marginalised Poisson Hurdle Model (MPHM),使得 exp(βj) 成为精确的常数 IDR。
-
核心技术方法:引入一条 非线性 connector 方程 μ = (1-π)λ/(1-e^{-λ}) 将结构 Poisson rate λ 隐含地与参数化边际均值 μ 和零概率 π 相连。证明了该方程存在唯一正解(Proposition 1),给出了解析的 score 方程(Proposition 3)、块对角 Fisher information(Proposition 4),并用 Brent 方法求解 connector 的数值解。估计采用 BFGS 最大似然,SE 由 Hessian 和 delta 方法给出。
-
主要结论:Proposition 5 证明 exp(βj) 对所有协变量值、个体、子群、群体都是精确的常数 IDR。模拟(n=100-1000, π=0.2-0.8, R=200)显示近零偏、√n-收敛、Wald 覆盖率 0.905-0.975。应用于 NMES1988(n=4406),慢性疾病 IDR=1.163(95% CI: 1.150-1.177),精确常数且可移植。
关键设定与假设¶
-
定义与记号:Y_i ∈ ℕ₀,零概率 π_i = P(Y_i=0),Poisson rate λ_i > 0,边际均值 μ_i = E(Y_i)。MPHM 设定:logit(π_i) = X_i^Tα, log(μ_i) = X_i^Tβ。关键的 connector equation: μ_i = (1-π_i) λ_i / (1 - exp(-λ_i))。
-
假设 (implicitly required for asymptotic normality, Proposition 5a):
- 设计矩阵 X 满列秩(保证可识别性,Proposition 2)。
- M-estimation 的正则性条件(compact parameter space, twice continuously differentiable log-likelihood, non-singular Fisher information)——论文直接引用了 White 等文献,但没有 explicit 列出(如 Lipschitz on Fisher info, uniform bounds on third derivatives 等细节)。用户要注意:这里的渐近正态性证明并非原创推导,而是直接援引标准结果。
-
存在性约束:μ_i > 1 - π_i(由 Proposition 1 需要)。本文声称“automatically satisfied throughout optimization for realistic health utilisation datasets”——这是一个 empirical claim,而非有 guarantee 的假设。在极端情形(如 μ_i 非常小,π_i 非常接近 1 的 degenerate 参数)下约束可能被违反,此时 log-likelihood 被设为 -10^10。
-
相比已有文献:
- vs. 标准 PHM:MPHM 将 log(λ_i) 替换为 log(μ_i),条件 PHM 的似然形式改变(需要数值 connector),但两个分量条件独立的性质得以保留(block-diagonal Fisher info 证实)。因此 PHM 的两步估计(可分别优化零分量和计数分量)不适用于 MPHM——计数分量的 score 依赖于 α 和 β 的组合,必须 joint optimization。
- vs. MZIP (Long 2014):MZIP 的 connector 不同(因 ZIP 的 pmf 包含结构零和 Poisson 零的混合),本文的 connector 只在 hurdle 设定下成立——因此 connector equation 是模型的定义特征。MZIP 的 marginalisation 已被证明成立,而本文证明它在 hurdle 下同样成立。
主要结果¶
Proposition 1 (存在性、唯一性、线性近似无效性) - 陈述:对任意 π_i ∈ [0,1) 且 μ_i > 1-π_i,connector 方程有唯一正解 λ_i^⋆。该解严格小于线性近似 \tilde{λ}_i = μ_i/(1-π_i),且这一近似会导致不一致性。 - 直觉:connector 函数 g(λ) = (1-π)λ/(1-e^{-λ}) - μ 在 (0,∞) 上严格单调递增(g'(λ)>0 in analytic proof),在 0+ 处为负((1-π)-μ < 0),在 ∞ 处为正 → 由 IVT 唯一解。 - 技术难点:证明了 \tilde{λ} 总是 high-bias(严格大于真解),因此代入零-截断 Poisson 似然会产生不一致估计。这对实际使用很重要:用户如果偷懒使用 \tilde{λ} 替代数值解,MPHM 的估计是不一致的。 - 必要条件:μ_i > 1-π_i(若违反,方程无解——似然需设为 -10^10 避免 optimizer 失效)。
Proposition 4 (块对角 Fisher Information) - I(α, β) = block-diag(I_αα, I_ββ),其中 I_αα = X^T diag(π_i(1-π_i)) X,I_ββ = X^T diag(w_i^2 · Var_+(Y_i)) X(w_i 是 connector 的 Jacobian 项,Var_+(Y_i) 是条件方差成分)。 - 技术要点:块对角性源于 PHM 中零分量和计数分量条件独立(given X)。MPHM 虽然引入 connector linking μ and π,但 score 方程的结构仍使得 zero 和 count 的 Hessian 的交叉项在期望下为零。这意味着 SE 可以从块对角 Fisher info 中一致估计——这正是模拟中 SER 收敛到 1 的理论支撑。
Proposition 5 (常数 IDR) - 陈述:IDR_j = exp(β_j) 对所有协变量值 x_{-j}、所有 π_i、所有 λ_i、所有个体都成立。 - 证明极其简单(第 2.12 节):μ_i = exp(X_i^T β),直接计算 μ(x_j+1)/μ(x_j) = exp(β_j) ——这是“trivial”,因为 MPHM 的定义本身就是参数化 μ 而不是 λ。关键 insight:证明不需要 connector(方程 10)——它只需要 log-linear 规范 log μ = X^T β。connector 的存在只为了将 λ_i 映射回 μ_i(从而建立气场一致的似然),在 IDR 的证明中它根本不出现。
- 结论是否比证明窄:
- 唯一“窄”的点:Proposition 5 实际上的证明仅依赖 log-linear specification for μ,这比 paper 的 claim 更早——它不要求零过程也是 logit 形式(事实上,π_i 可以是任意函数,只要 μ_i = exp(X_i^T β) 成立)。因此,如果用户想将 MPHM 推广到 zero component 用 probit 或非参数 link,IDR 常数性质依然保持不变(只要 μ 是 log-linear 即可)。这打开了可能的半参数扩展空间。
- 更微妙的问题:Proposition 5 的 IDR 是针对总体边际均值 E(Y|X) 的比率,但名义上的“每个个体都具有这个 IDR”是交叉积意义上的:对于同一个体,改变一个协变量取值时,E(Y) 的比值是常数——这实际上需要反事实假设(如果 X_j 从 x_j 变为 x_j+1 而其他协变量不变,则 E(Y) 按因子 exp(β_j) 变化)。在 observational 数据中,这不是因果 IDR,只是条件关联测量。作者使用了“effect”(“Each additional chronic condition increases expected physician visits by 16.3%”)——这暗示因果解释,但论文没有进行任何因果识别讨论(如 no unmeasured confounding, positivity)。因此对于 causal inference 研究者(你正是),这是一个蝴蝶效应所在:如果用户想用 MPHM 做因果 IDR 估计(比如用 DID、IV、或 ML 控 confounders),这里定义的 IDR 是“条件关联”,而不是因果——需要在“法”中加入无混杂假设才能桥接。
三、值不值得做 / 研究者能做什么¶
领域层面的判断材料¶
- 社区真在乎的开放问题(从被引文献反复点名 + 本文的 discussion 直接提及):
- 过度分散(NB 扩展)下的 MPHM:本文明确列为 future work(“a Negative Binomial extension of the hurdle model... provides substantially better fit for such data”[21]),而 MZINB[6] 已经存在。因此这一问题在 ZIP 设定下已解决,但在 hurdle 设定下是 open。——用户若攻此路,成本可参考 MZINB。
- 纵向/多水平 MPHM:Kassahun 2014[7] 的 longitudinal 版本已出现在文献中,但本文的 cross-sectional MPHM 作为特殊 caso 并没有被直接包含(connector equation 在随机效应下需要 marginalisation over unobserved effects,更复杂)。用户可考虑将本文的 non-lnear connector 移植到纵向设定——但这几乎直接发明一篇新论文吗?需查拥挤度。
- 半参数/非参数 μ 函数:即放松 log-linear 假设,引入 additive model或 nonparametric link。这完全是 open:MZIP 和 MPHM 都假设 log-link + linear predictor。半参数 extension 可能产生更 robust 但更贵的 IDR。
-
因果 IDR 的识别与估计:在 MPHM 基础上引入 IV / proximal / sensitivity analysis……由于你有很强的 causal inference background + very familiar with estimation theory,这一点可能是你的“独特角度”(见“迁移视角”)。
-
⚠️ 本文作者是否一家之言?本文的 gap claim(没有 marginalised hurdle model)得到参考文献支撑[5,6,7],但用户需自行验证:有没有类似 idea 的 preprint 或 conference paper 在 2023-2024 年出现?用户若打算沿此方向深入,先做一篇 vanity search:“marginalised hurdle model”或“marginalized Poisson hurdle”——若有 1-2 篇 recent preprint(特别是若有人用了你在 pursure 的 extension),则此 gap 可能变窄。
问题种子清单(每条 grounded)¶
(A)立即可做(≤2 条)
- (A1) 实现 MPHM 的 R 包 + 复现 NMES1988 + 更优的 bridge solver
- 问题:将 MPHM 的 BFGS 优化器 + Brent connector 封装成可发布的 R 包,包含模拟数据生成、AIC/BIC vs PHM 对比,并与现有 PHM(R 包
pscl::hurdle)做全面 benchmark。 - 扎根于本文:Section 3 模拟(n=100-1000 only, R=200),Section 4 数据(NMES1988)。原文仅用 uniroot() + BFGS(R 内置
optim),可优化为:更快的 blocking Jacobian evaluator(利用 Proposition 3 的 clean score formula)、自适应的 connector 迭代(利用 Propositio 1 的单调性和已知界,可减少 Brent 的迭代次数)、更 robust 的 Hessian approximation(直接用 block-diagonal Fisher info 作为 asymptotic SE,而不需要 observed Hessian,可加速 bootstrap)。 - 成本:7-14 天(纯软件开发),零新理论工作。
- 拥挤度:低(本文 GitHub 已公开代码,但可能是 research iteration 版本,未包装成 R 包)。用户需要检查是否存在他人已封装(如
marginalizedHurdle或类似)。 - 武器库匹配:very_familiar: 软件开发、high-dimensional asymptotics(SE 比较)+ moderately_familiar: M-estimation theory(检查 asy normality 条件)。
-
独特角度:用户 can also implement a fast analytical Hessian using the block-diagonal Fisher info proposition (Proposition 4). 算法可绕开 BFGS 的默认 finite-difference Hessian,直接提供更精确的 SE(在 small-n 或高π 场景下可能提升 coverage)。
-
(A2) 推导 MPHM 的精确 Stein 引理或 semi-parametric efficiency bound
- 问题:对于 MPHM 的计数分量系数 β,其 semi-parametric efficiency bound 是什么?是否可以从 block-diagonal Fisher info 给出即是最优?若零过程的参数 α 视为 nuisance,β 的半参数效率界是?和 PHM 的效率比较(由于 connector 约束,MPHM 的 lower bound 可能略大于 PHM——对应于 AIC 差 41.9 的代价)。
- 扎根于本文:Proposition 4 给出了 Fisher info,但作者没有探索 semi-parametric efficiency(只做了 MLE,未证明 MLE 是 semi-parametric efficient)。如你在 causal inference 中见的:如果 nuisance 参数空间扩大(如零过程可能是 non-parametric),β 的效率界需要重新推导。这是典型的“从 parametric MLE 扩展到 semiparametric bound”问题。
- 成本:中等理论工作(需熟练 semi-parametric theory 和 influence function 计算)。你 moderately_familiar 的 semi-parametric theory 底子足够(但 HOIF 理论不需要涉及高阶 bias),2-4 周。
- 拥挤度:低(本文未触及 efficiency 讨论)。
- 武器库匹配:moderately_familiar: semi-parametric theory (influence function for β in double-stage model).
- 独特角度:用户此前在做 HOIF(高阶 influence function),但本文是一阶问题(只涉及一阶 bias correction of MLE)——所以是你 moderately_familiar 底子的自然应用。
(B)中期可做(≤2 条)
- (B1) 将 MPHM 推广到 Negative Binomial 零-截断分布(MPH-NB)
- 问题:在 hurdle 框架下,用 Zero-Truncated Negative Binomial(ZTNB)替代 Zero-Truncated Poisson,引入额外的 overdispersion 参数 φ。证明 connector equation(ZTNB)存在唯一定理(类比 Proposition 1),推导 score equations 和 Fisher info。模拟比较 ZTNB-MPH vs MPHM 在 overdispersion 场景下的 coverage 和 bias。同时讨论:IDR 是否仍为常数?当 overdispersion 存在且仅作用于 count 分量时,IDR 的定义需要适度修改(因为此时 E(Y) = μ,但 Var(Y) 结构与 Poisson 不同)。更多细节待查。
- 扎根于本文:Discussion Section 5.3 & [21] 明确指出的“负二项扩展”。本文也承认 NMES1988 的 VMR=7.52 暗示 Poisson 假设不充分。
- 攻它需要什么:
- 补 ZTNB 的 CDF 在 connector 方程中的解析形式(ZTNB 的 CDF 不像 Poisson 的“1-e^{-λ}”那样简单,必须使用
pnbinom(0, mu, size)即 I_s, mu analytical form)。一阶偏导需要数值或解析推导。 - 补 MZINB[6] 的 connector 作为参考(因为 ZINB 已有 marginalised 版本,可借用 Hurdle 和 ZI 之间的统计类比)。
- 若 connector 无封闭解析形式,需用 Mean-Field Variational Bayes 或 Laplace approximation 估计 μ 与 NB 参数的关系——这会使理论复杂化。
- 完成时间:4-8 周(含理论 + 模拟)。
- 补 ZTNB 的 CDF 在 connector 方程中的解析形式(ZTNB 的 CDF 不像 Poisson 的“1-e^{-λ}”那样简单,必须使用
- 拥挤度:中(MZINB[6] 是强基线,但 ZTNB-MPH 的 Hurdle 版本绝对 open)。
-
武器库匹配:moderately_familiar: 半参数理论/ M-estimation theory + 分布(ZTNB 的 cumulant)。缺的具体环节:对 ZTNB 的 connector 方程需要手工推导一阶导数。补 1 篇文献:Preisser et al. (2016) MZINB 方法论部分。
-
(B2) MPHM 的纵向随机效应扩展(multilevel MPHM)
- 问题:在 repeated measures(longitudinal)设定下,用户对同一个体在不同时间点的计数观测包含额外聚类(person-level RE 或 AR(1))。本文的 cross-sectional connector 不能直接嵌入 multilevel model——因为 μ_i 现在取决于随机效应。需要从 Heagerty (1999)[8] 的 binary-multilevel marginalised model 出发,将其 connector 框架推广到 hurdle count。
- 扎根于本文:本文的“Limitations”一节未明确提出纵向扩展,但 Carla-作者与 Kassahun 2014[7] 的直接 overlap(Kassahun 做的正是 multilevel hurdle & ZIP models,但没有 marginalise)。
- 攻它需要什么:
- 补 multilevel GLMM 理论(Pinheiro & Bates 2000;Verbeke & Molenberghs 2009)。
- 补 Kassahun 2014[7] 的完整方法(inc. their connector / marginalisation strategy for ZIP & hurdle;本文假定 connector 简单可利用)。
- 难点:connector 在 RE 情形下没有封闭形式(μ_i = E_{b_i}[E(Y_i|b_i,x_i)] 需要数值积分),因此 marginal likelihood 的计算需要 Gaussian quadrature(如 adaptive quadrature)或 Laplace approx。理论证明(Proposition 1-like 的存在唯一性)更难——但已有 Kassahun 的类似 proof 可供借鉴。
- 完成时间:8-12 周(理论 + 数值)。
- 拥挤度:中等偏高(Kassahun 2014 已做 ZIP & hurdle,但 marginalised longitudinal hurdle 是 open)。
- 武器库匹配:moderately_familiar: semi-parametric theory (profile likelihood for RE) + very_familiar: high-dimensional asymptotics (对于 RE case 的 MLE consistency rate, Shen 2006)。缺:adaptive quad 理论和 Laplacian approx 的 consistency 可能稍超出 moderately_familiar——补 1 篇:Rabe-Hesketh et al. "Corrected Maximum Likelihood" 或 Jin & Liang 2015 JASA。
(C)暂不建议(≤2 条,点明为啥武器库内不易绕过)
- (C1) 半参数 MPHM(将线性预测器 log μ_i = X^T β 推广为非参数可加模型 log μ_i = f_1(X_{i1}) + ... + f_p(X_{ip))
- 原因:非参数可加模型 + connector 非线性方程,需要使用 Bell numbers for V4 optimization (treewidth across p functions)。连接器方程的 Jacobian 对每个观测值 λ_i 依赖于 X_i → 因此非参数可加估计(backfitting / gradient boosting)的“alternating”过程中,connector 会引入 cross-smoothing 问题。用户非常熟悉非参数统计(nonparametric statistics),但非常不熟悉的大规模 SDP / smoothing matrix multiple penalty——非参数可加模型 + nonlinear link 的联合估计在维度较低时可行(p≤5),但若 p 大(NMES1988 的 8 个协变量 + 交互?)就面临“Connector + smoothness penalty”耦合下的一致性问题。理论上需要 **high-dimensional sieve - dimension reduction with high-order spline basis + L2-norm penalty on connector's implicit function→这不属于常规 nonparam statistics 工具箱,需要读 new theory(如 Ghosh & Yuan 2016, Sparse Additive Models with distributioal links)。目前用户 moderately_familiar 的 HOIF 和 semi-parametric theory 不能直接接上,容易陷入理论沼泽。
- 指出:命题 5(常数 IDR)在非参数 μ 函数下仍成立(只要定义 IDR = μ(x_j+1)/μ(x_j) 但这里不是常数了(除非函数形式使比率独立于 x_{-j}),而这是退化情况——所以 MPC 非参数版本的 IDR 不能是常数。因此本文的“常数 IDR”核心卖点会丧失。
-
判定:暂不建议,除非研究者打算放弃常数 IDR 核心卖点。
-
(C2) 因果 MPHM(将 milk/unmeasured confounders 考虑进零过程/计数过程)
- 原因:需要引入 proximal causal inference / instrumental variable 至两个分量(binary zero process + count process),且 connector 方程需要扩展至含有 ~ proixy variables of unobserved confounder U 的情况。本文的似然在给定 X 下分解为零和计数两部分条件独立,但引入 U 后两个分量通过 U 的相关性勾结,连 identification 都难(尤其当零过程 U 和计数过程 U 非同分布时)。此外,当前的 MPHM 没有估计干预的因果关系,只有条件关联(如上所述)。要实现因果 IDR,需要做 attention: 加入无混杂假设 + positivity + 然后 MPHM 可重写为“潜在结果分布为 MPHM”,但此时需估计 E[Y(a)] 的比值——这时 IDR 的常数性只在 一致性测量假设 下成立,并且在 变联本 (marginal over potential outcome) 下可能不再常数(匹配 / 子分类因果)。属于显著的 open question,但所需工具(效果推断中带有约束的似然、条件独立性假设的敏感性分析、渐近分布中需要最小统计量的 M-Estimation with two-stage nuisance)大大超出你很熟悉的 estimation theory in causal inference——which is 一阶无偏估计而非二阶识别。同时,良好的 causal identification 论文通常需要 moderate computing(模拟 10^3-10^4 Bootstrap)和 formal identification proof(半参数效率界)。你 moderately_familiar 的 identification in causal inference 只够做 simple bias analysis(E-value / sensitivity),不够做 full causal MPHM。你需先补 1-2 篇因果计数数据方法的阅读(如Naimi et al. 2017 AIPW for count & Twisk et al. 2013 on count IDR)。完成这个 target 的时间可能 6-12 周——鉴于“暂不建议”槽,更适合放在 future work。
迁移视角(单列)¶
迁移机会 1:将 connector equation 框架移植到因果推断中的连续/分位数边际效应估计 - 方法 T:MPHM 的 connector equation(非线性隐函数连接 μ 和 λ/π)。 - 目标领域:分位数回归中的边际化处理。在 quantile regression 中,系数是条件分位数的比率,而不是边际均值比率。对于零膨胀分位数,也可以用类似的 connector trick——定义一个“marginalised quantile”而非平均。用户如果做过 linear quantile hurdle 那就会想:如果 quantile 的边际均值(即 μ)= E(Y) 还是被直接参数化,那 connector 就变成:对每个分位数 τ,q_τ = Q(π, λ)……嗯这有点复杂。同时,在半参数仪器变量 IV 中,当内生变量是零膨胀计数时,直接 log(E(Y|X, Z)) 不会被内生性偏误忠实化?用户可考虑用 Connector equation 将两阶段最小二乘(TSLS)的第一阶段分布参数化,使得第二阶段系数是精确常数 IDR。这是新鲜且可行:用 MPHM 的 connector 作为第一阶段,在 IV 框架中实现残差法的第二步。用户 VERY 熟悉 IV / causal inference 的 estimation theory,可轻易建构。 - 为什么可行:Connector 的算子的存在唯一性(proposition 1)不依赖特定的 link(logit),只是用到严格单调性。在 IV 场景下,第一阶段的 π_i(X, Z) 和 μ_i(X, Z) 可以估计,然后 connector 给出 λ_i,之后再进入 IV 第二阶段(线性 projection / 2SLS)——直觉上类似于 control function 方案。概率论推导(θ_2sls 的 asympt)you can handle。完成时间:4-6 周(理论 + 模拟)。
迁移机会 2:将 block-diagonal Fisher info 结构移植到 高阶 U-统计量的方差估计 - 方法 T:Block-diagonal Fisher info 公式来自“conditional independence of zero and count components given X”——类似结构出现在 U-统计量中的配对独立性(如两个独立的采样机制)。 - 目标领域:估计高阶 U-统计量的 asymptotic variance** 当其内核由两阶段流程产生(如:先筛选样本,再计算 pairwise U-statistic)。目前高阶 U-统计量的方差估计需要 O(n^{2k}) 计算复杂度,但如果你能把两个阶段的贡献分离成 block-diag 你就能减小为 O(n^k)。用户 very_familiar 的 高阶 U-统计量的计算(treewidth / einsum) 可立即对接:考虑一个 U-statistic of order 2,其 kernel 由(零过程 indicator + 计数过程 mean)组成——似于本文的独立似然分解。在理论文章(你正在看的 one of B & Co.’s works)中,block-diagonal Hessian 可以在计算复杂度的降低中发挥核心作用。你可以写一篇 short note:将本文的 block-diagonal Fisher info 翻译成通用的“asymptotic variance of two-stage U-statistic by factorisation of zero and positive parts”。成本:2 周(纯理论符号推导)。
四、延伸与下一步¶
沿引用链的阅读路线¶
进入本领域的推荐阅读顺序(基于第一节的脉络):
- 地基 1:Heagerty (1999) [8] “Marginally specified logistic-normal models for longitudinal binary data”——这是 marginalisation 的思路 origin。必须理解:为什么在 binary 设置下 marginalisation 有优势?他的 approach 和本文的 connector 有多大差异(binary 很 trivial,hurdle count 需要非线性方程)。
- 地基 2:Long et al. (2014) [5] “A marginalized zero-inflated Poisson regression model with random effects”——这是本文的 direct predecessor。重点:MZIP 的 connector 方程式推导(公式 3-4)和 MPHM 的连接器有何不同?MZIP 的 zero-inflated 分布下,零的生成机制 var 是先混合再 zero,而 hurdle 是先 barrier——所以 connector 形式不同。读此文也可掌握“如何在 count 分量中 marginalise”的基本技巧。
- Frontier 1:Preisser et al. (2016) [6] “Marginalized zero-inflated negative binomial regression with application to dental caries”——这篇把过度分散加到了 MZIP 中(变成 MZINB),也就是本文 (B1) 中被点名要做的。读这一篇可以学:extra overdispersion parameter 在 connector 方程中的角色,以及 MZINB 的 numerical solver 如何设计。
- Frontier 2:Kassahun et al. (2014) [7] “Marginalised multilevel hurdle and zero-inflated models for overdispersed and correlated count data with excess zeros”——这是 longitudinal 的对应版本。读此文可了解 multilevel 结构下 connector 的可解性(在随机效应下是否仍可保持严格单调?是否仍可用 Brent 方法)。
- Frontier 3:Mullahy (1986) [1] “Specification and testing of some modified count data models”——原始 PHM 论文,理解标准 Hurdle 的似然形式。对于 grasp of why PHM 的 IDR 是非恒定的,以及零-截断 Poisson 似然中的 log(1-e^{-λ}) 项的行为很关键。
假设扰动¶
扰动假设:放松计数过程对零过程的独立条件(给定 X)。现在假设 Z_i 是公共不可观测的 clusters(如 clinic-level random effect),使得 π_i 和 λ_i 通过 Z_i 相关,即:P(Y_i=y_i|Z_i) 遵循 conditional PHM 结构,但 marginal over Z_i 时零和计数分量不再独立。这与本文的 block-diagonal Fisher info 直接矛盾(交叉块非零)。技术上需要什么新工具? - 需要 marginal likelihood with integration over Z(Laplace approx / GH quadrature)。 - connector 方程现在变为:μ_i = E_{Z}[ (1-π(Z_i)) λ(Z_i) / (1-e^{-λ(Z_i)}) ]——必须 marginalise over Z 分布(如 logit-normal with Var(Z)=σ^2)。这不再是解剖学封闭的用户连接器方程。 - 在 integrate over Z 后,Proposition 1 的唯一性不再自动成立(因为 g(λ) now is an average over Z,不一定是严格单调)。可能只存在解 region,而非唯一解。 - 上式落在上面哪档? → B 档(中期可做),因为用户 moderately_familiar 的 M-estimation theory 已经包括随机效应的 profile likelihood 理论(可与文献[8]对接),而且用户 very_familiar 的 high-dimensional asymptotics 可处理 Z 随机效应的 asymptotics(用 Laplacian + REML 近似)。补 1-2 篇:Heagerty & Lele (2003) Biometrics 或 Ribbing et al. (2013) 关于 NLM at cluster level + count endpoint methods。
理解检测题¶
检测题:设您的医院质量研究中,就诊次数 Y_i(count, scale 0-1000+)观测到 50% 的零值。您希望得到精确常数 IDR,且需检查是否适合用 MPHM vs PZH(过离散)。您需要做以下哪一件事?
(a) 直接运行本文的 MPHM 算法(GitHub/R pkg),计算 AIC 并接受如果 AIC 低于 Poisson regression。
(b) 先拟合标准 PHM(pscl::hurdle),计算每个观测的 IDR_PHM 在不同协变量水平下的取值范围。若范围很窄(如 1.15-1.17),则 MPHM 无实质提升;若范围很宽(如 1.10-1.30),且有多个高度偏相关系数 compare the usable proportion,则 MPHM may strongly improve。
(c) 运行 MZIP(Long 2014)和 MPHM,比较 Vuong test p 值评价两个模型对零生成机制的描述。
正确答案:(b)。因为 MPHM 的核心假设是——当标准 PHM 的 IDR 非恒定时,重参数化才有 real gain。在应用前,需通过检查 IDR_PHM 的方差来判断。若 IDR_PHM 已经几乎常数(范围极小),MPHM 的 AIC 通常会高(因为 +41.9 似然代价),所以更差。若 IDR_PHM 范围大,MPHM 有用。这是 researcher 的决策流。
拓展思考:若您的健康数据有超过 90% 零值(如 histopathology of very rare diseases),观测值的条件 1-π_i 非常接近 1(ideally if almost everyone has zero, π_i ≈ 1),则 μ_i = E(Y_i) 非常小(可能 ≈0.01),此时是否存在约束 μ_i > 1-π_i 可能被违反(例如 π=0.99, 1-π=0.01, 若 μ_i=0.005 则违反)。输入此条件后 MPHM 优化器会不断返回 -10^10 无法估计。因此需要使用 prior augmentation 或 constraint max-likelihood via barrier method。如何设计?——用 Lagrangian penalty on the constraint 逐渐缓解。这对应哪个问题种子?对应A?(A2) 的 efficiency under constraint 或 直接使用原论文的 existence condition → 在极端零率场景失效——这就是振动式 while the model is "only" for where the condition doesn't bind。用户 checks but where it does bind, MPHM is broken. 这可以作为 unique research angle:研究在小 π+小 μ 的 degeneracy 下 connector equation 无解的统计 inferential 后果——提出 Conditional MPHM 或 Hinge-like regularization。这是短期高增长点,落在 A 档(非常熟悉的高维渐近 + 软件开发可立刻实验)。
Maintained by 陈星宇 · Homepage · Source on GitHub