Correcting random effect distributions to account for survivorship bias in individual heterogeneity Cormack–Jolly–Seber models¶
作者: Blanca Sarzo, Ruth King, Rachel McCrea
来源: Biometrics
主题: 流行病学
相关性: 2/10
机构绿灯: University of Edinburgh(US News 前 50,免分进入精读)
链接: https://doi.org/10.1093/biomtc/ujag086
一、领域脉络与小综述¶
这个方向是什么: 捕获-再捕获模型旨在估计开放种群的大小与存活概率。当个体间存在异质性(不同个体存活率不同)时,经典模型会产生偏误。本子方向专门处理带个体异质性的捕获-再捕获数据中,因“条件化于首次捕获”而引入的幸存者偏差——即只有活到第一次被捕获的个体才会进入样本,导致高存活率个体被过度代表,进而使得异质性分布被系统性扭曲。当前该方向在生态学建模内处于起步阶段,但在计量经济学与因果推断中已有成熟的平行理论。
发展脉络: 由于本次精读材料仅含摘要,以下脉络基于摘要提及的“Cormack–Jolly–Seber (CJS) 模型”与“幸存者偏差在其他领域已被充分研究”重构: - 奠基工作:Cormack (1964), Jolly (1965), Seber (1965) 建立了经典 CJS 模型。该模型的核心设定是条件化于首次捕获时刻,以此规避种群大小估计,直接推断存活与捕获概率,但代价是彻底丢弃了首次捕获前的存活信息。 - 主要进展(异质性引入):Pradel 等 (1990s), Pledger (2000s), King & Brooks 等将连续随机效应(如 Beta 分布)或离散混合分布引入 CJS 模型,以刻画个体存活概率的异质性。这些工作依然沿用了“条件化于首次捕获”的似然构造。 - 平行领域的进展(摘要提及的“其他领域”):Heckman (1979) 在计量经济学中提出样本选择模型;因果推断领域发展了 collider bias / selection bias 的 DAG 识别理论(如 Hernán 等)。这些领域已证明:条件化于受处理/潜在结果影响的变量(如存活状态)会扭曲参数分布。 - 当前 frontier 与本文位置:摘要明确指出“幸存者偏差在许多领域已被充分研究,但在捕获-再捕获框架内鲜有探索”。本文填补此口子:在带连续随机效应的 CJS 模型中,显式建模首次捕获前的存活筛选机制。
子线索聚类: 1. 生态学内的异质性建模:通过随机效应或有限混合分布刻画个体差异,但默认条件化于首次捕获(忽略选择机制)。 2. 统计学/计量经济学的样本选择修正:Heckman 类修正、半参数选择模型,处理因截断/筛选导致的分布扭曲。 3. 因果推断的幸存者偏差/对撞器偏差:用 DAG 与 do-算子刻画条件化于存活者带来的因果效应偏误,侧重识别而非参数估计。
这个方向在追问的核心问题: 1. 识别问题:在只有“存活且被捕获”个体的观测数据下,种群真实的异质性分布是否可识别?需要何种生态学/参数假设? 2. 偏误量化:条件化于首次捕获导致的异质性方差低估,其量级有多大?是否随筛选强度单调变化? 3. 修正机制:如何在不破坏 CJS 模型“无需估计种群总量”这一计算优势的前提下,将首次捕获前的存活概率纳入似然?
⚠️ 作者的 framing(这是作者的说法): - 作者如何 frame 缺口:作者将缺口 frame 为“幸存者偏差在其他领域是老问题,但在捕获-再捕获里是新问题”,从而让自己的修正模型成为“显然的下一步”。 - 被淡化或回避的竞争路线:摘要未提及因果推断领域的对撞器偏差理论,也未提及 Heckman 类半参数修正。作者将其完全 frame 为一个生态学参数建模问题(“ecologically sensible manner”)。 - 明显该被引却未出现的:因果推断中关于 conditioning on post-treatment variables (collider stratification) 的经典文献(如 Pearl, Hernán);计量经济中的样本选择模型。这属于值得研究者去查的问题:作者是否因为学科壁垒忽略了更一般的半参数识别框架?
张力: 未见明显对立引用。但存在隐性张力:经典 CJS 模型条件化于首次捕获是为了刻意回避种群总量 \(N\) 的估计(\(N\) 极难估);而修正幸存者偏差必然要求考虑“那些没活到首次捕获的个体”,这逻辑上牵扯到 \(N\) 或新个体的进入率。摘要声称修正方式是“ecologically sensible”,但如何在避开 \(N\) 的同时修正选择偏差,是技术上的张力点。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据交代清楚
- 时间指标:\(t = 1, 2, \dots, T\),离散采样时刻。
- 个体指标:\(i = 1, 2, \dots, N\)(\(N\) 为种群真实大小,不可观测)。
- 潜在存活概率(随机效应 / estimand):\(\phi_i \in [0, 1]\)。个体 \(i\) 在任意两次捕获间存活的潜在概率。假设 \(\phi_i \sim F(\phi; \theta)\)(如 Beta 分布),\(\theta\) 为要估计的超参数,刻画异质性分布。
- 捕获概率:\(p_t \in [0, 1]\),时刻 \(t\) 捕获一个存活个体的概率(假设与 \(\phi_i\) 独立,或为常数)。
- 首次捕获时间(可观测随机变量):\(c_i = \min\{t : y_{i,t} = 1\}\)。个体 \(i\) 第一次被观测到的时刻。
- 捕获历史(可观测数据):\(y_{i,t} \in \{0, 1\}\)。对于 \(t \ge c_i\),\(y_{i,t}=1\) 表示捕获,\(y_{i,t}=0\) 表示未捕获(但存活);对于 \(t < c_i\),个体不在样本中,无数据。
- 不可观测的关键量:在 \(t < c_i\) 时,个体 \(i\) 的存活状态。我们观测不到那些 \(\phi_i\) 较低、在首次捕获前就死亡的个体。我们想要推断 \(F(\phi; \theta)\),但样本只包含 \(\{i : c_i \le T\}\)。
第二步:最小内核(最简特例:\(T=2\) 且 Beta 分布)
剥掉所有一般性设定,考虑只有两个时间点 \(t=1, 2\) 的最简情形。此时,个体只有在 \(t=1\) 存活且被捕获,才进入样本。
-
经典 CJS 的做法(产生偏误): 经典模型条件化于 \(y_{i,1}=1\)(即 \(c_i=1\))。在此条件下,个体在 \(t=2\) 存活的概率期望为:
\[E[\phi_i \mid y_{i,1}=1] = E[\phi_i]\](如果假设捕获概率 \(p_1\) 与 \(\phi_i\) 独立)。经典模型看似估到了 \(E[\phi]\),但它估不到异质性分布 \(F(\phi)\) 的形状/方差,因为条件化于 \(c_i=1\) 截断了低存活个体。 -
幸存者偏差的数学实质(长度偏差 / Length-biased sampling): 个体 \(i\) 能进入样本(\(c_i=1\)),必须满足“在 \(t=1\) 存活”。其进入样本的概率与 \(\phi_i\) 成正比(假设 \(p_1\) 恒定)。 因此,样本中 \(\phi_i\) 的分布不再是真实的 \(F(\phi)\),而是长度偏差分布:
\[F_{\text{obs}}(\phi) \propto \phi \cdot F(\phi)\]如果 \(F\) 是 Beta(\(\alpha, \beta\)),则 \(F_{\text{obs}}\) 是 Beta(\(\alpha+1, \beta\))。 -
偏误的直观显现: 真实异质性的方差为 \(\text{Var}(\phi) = \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}\)。 观测到的异质性方差为 \(\text{Var}_{\text{obs}}(\phi) = \frac{(\alpha+1)\beta}{(\alpha+\beta+1)^2(\alpha+\beta+2)}\)。 当 \(\alpha, \beta > 0\) 时,可以严格证明 \(\text{Var}_{\text{obs}}(\phi) < \text{Var}(\phi)\)。异质性方差被系统性低估——因为高 \(\phi\) 的个体被过度采样,样本中个体的存活概率趋同(向高均值靠拢),差异被压缩。
-
本文最小内核要解决的问题: 如何从观测到的 \(F_{\text{obs}}\)(或捕获历史)逆向恢复 \(F\)?在 \(T=2\) 特例下,如果知道 \(F_{\text{obs}} \propto \phi F(\phi)\),只需将估得的 Beta(\(\alpha+1, \beta\)) 参数减 1 即可还原 \(\alpha\)。但现实中 \(T>2\),且 \(p_t\) 可能时变,个体可能在 \(t>1\) 才首次捕获(需存活过 \(t-1\) 个时段),此时进入样本的概率与 \(\prod_{k=1}^{c_i-1} \phi_i\) 成正比,修正不再是简单的“参数减 1”,而需要将这个乘积筛选权重显式写入似然函数。这就是本文“修正建模”的最小数学内核。
三、这篇论文做了什么¶
三句话: ① 研究了带连续随机效应的 CJS 模型中,因条件化于首次捕获而导致的幸存者偏差问题。 ② 核心方法是在似然函数中显式纳入个体在首次捕获前的存活概率乘积,将长度偏差分布还原为真实异质性分布。 ③ 主要结论是:忽略幸存者偏差会严重低估个体异质性方差,即使筛选强度轻微也会产生实质性偏误;修正模型可在生态学合理假设下恢复真实分布参数。
关键设定与假设: 在第二节最小记号基础上补全: - 随机效应分布:\(\phi_i \sim F(\phi; \theta)\),文中具体采用 Beta 分布(参数 \(\alpha, \beta\)),这是生态学异质性建模的标准参数化。 - 捕获概率:\(p_t\) 可随时间变化,但假设与个体异质性 \(\phi_i\) 独立。 - 新个体进入机制(关键假设,摘要中的“ecologically sensible”):为了计算“个体在首次捕获前存活”的概率,必须知道种群中未观测个体的构成。作者必然引入了关于新个体进入种群(recruitment/entry)的参数化假设(如常数进入率或某种分布),使得“首次捕获前存活时长”的分布可计算,从而让修正似然可识别。这是对经典 CJS(完全回避进入率)的实质性改变。 - 存活独立性:个体在相邻时段间的存活事件假设为独立(Markov 性),即存活概率为 \(\phi_i\) 的乘积。
主要结果: - 理论结果(参数识别与似然构造):推导了不条件化于首次捕获、而是显式建模首次捕获前存活筛选的完整似然函数。核心是将观测个体的联合似然除以(或乘以逆权重)“存活至首次捕获的概率”,从而将 \(F_{\text{obs}}\) 修正回 \(F\)。 - 模拟结果(偏误量化):通过模拟数据展示,即使轻度选择偏差(存活概率均值较高,筛选不算严苛),经典 CJS 模型估得的 Beta 分布方差也远低于真实值,异质性被严重抹平。 - 实证结果:将修正模型应用于 Guillemot(海鸠)数据集,发现修正后估得的异质性方差显著大于未修正模型,验证了幸存者偏差在真实生态数据中的存在及修正的必要性。
证明路线与技术技巧: (注:基于摘要与领域标准推断) - 整体路线: 1. 设定真实异质性分布 \(F(\phi)\)(如 Beta)。 2. 计算个体 \(i\) 在时刻 \(c_i\) 首次被捕获的无条件概率:需存活 \(c_i-1\) 个时段(概率 \(\phi_i^{c_i-1}\)),然后在 \(c_i\) 被捕获(概率 \(p_{c_i}\))。 3. 将此无条件概率对 \(\phi_i\) 积分,得到边缘首次捕获概率,这自然包含了长度偏差权重 \(\phi^{c_i-1}\)。 4. 结合首次捕获后的标准 CJS 似然,构建全时段联合似然。 5. 通过 MCMC(贝叶斯)或极大似然估计超参数 \(\theta\)。 - 关键跳跃点:如何处理“未观测个体”(那些死在首次捕获前的个体)对似然的贡献。在 Heckman 模型中这通过 Probit 修正项处理;在此文中,由于种群总量 \(N\) 未知,作者必须巧妙地将“未观测个体”的存活概率总和融入种群动态方程,或通过某种条件化技巧将其消去,使得似然只依赖于观测个体的捕获历史与进入率参数。 - 技术技巧: - 长度偏差修正:统计学中处理截断分布的标准技巧,将观测分布的密度乘以截断长度的逆权重。 - 参数化种群动态:引入 entry probability 参数化未观测个体的流入过程,使得似然可识别。
真实例子与应用: - 数据:Guillemot(海鸠)捕获-再捕获数据集。该数据具有明显的个体异质性与相对较高的存活率(符合“轻度选择偏差”设定)。 - 怎么用上去:分别拟合经典随机效应 CJS 模型与本文的修正模型。 - 得到什么结果:修正模型估得的 Beta 分布方差(异质性)显著更大,证明经典模型因幸存者偏差将异质性压缩了。 - 想说明什么:验证理论警告——幸存者偏差不仅是理论推演,在真实生态数据中也会导致实质性偏误,必须修正。
🔎 结论是否比证明窄: 摘要声称“even with relatively mild selection bias, the individual heterogeneity variability is substantially underestimated”。这是一个经验性/模拟性结论,而非严格定理。在数学上,轻度选择偏差导致“严重”低估(而非轻微低估)需要严格的条件(如 Beta 分布参数的特定区域)。论文的严格证明可能只覆盖了参数识别与似然构造,而“严重低估”的论断依赖于模拟与单个数据集的实证,未被一般性地证明。
四、开放问题(点到为止)¶
- 半参数识别:本文的修正依赖 Beta 分布与特定进入率假设。若放弃参数化假设,仅假设 \(F\) 为一般连续分布,在捕获-再捕获的截断机制下,\(F(\phi)\) 是否半参数可识别?(扎根于摘要的“specified to be from some common underlying distribution”,暗示当前依赖参数化)。
- 与因果推断对撞器偏差的统一框架:本文的幸存者偏差在 DAG 上等价于 Conditioning on a collider (Survival)。能否用 do-算子或潜在结果框架,将 CJS 模型的识别问题转化为标准的因果 selection bias 问题,从而引入半参数效率界?(扎根于摘要“well studied in many fields... little exploration in capture-recapture”,暗示学科间理论未打通)。
- 存活与捕获的依赖性:当前假设 \(p_t\) 与 \(\phi_i\) 独立。若高存活个体更易被捕获(如活动范围更大),即 \(p_t\) 依赖于 \(\phi_i\),幸存者偏差的修正公式将如何变化?识别条件是否崩塌?(扎根于标准 CJS 扩展中常讨论的 trap-happy/trap-shy 效应)。
提醒:要确认某条是不是真 gap,去读同子领域近期约 5 篇的 intro——都指向它 = 共识(真 gap),互相打架 = 机会。
Maintained by 陈星宇 · Homepage · Source on GitHub