Plant-Capture Methods for Estimating Homeless Population Size From Uncertain Plant Captures¶

作者: Yiran Wang, Martin Lysy, Audrey Béliveau
来源: Epidemiology
主题: 流行病学
相关性: 6/10
机构绿灯: University of Waterloo（US News 前 50，免分进入精读）
链接: https://doi.org/10.1097/ede.0000000000001836

一、领域脉络与小综述¶

这个方向是什么¶

捕获-再捕获（Capture-Recapture, CR） 是一类用于估计封闭或开放种群总规模（Population Size, N）的统计方法，广泛应用于流行病学（如无家可归人口、传染病患者数、药物滥用人口等），生态学与人口普查。其核心思想是：两次或多次“捕获”同一群体中个体的出现记录，通过重复捕捉的个体比例推断未被观测到的个体数。植物捕获法（Plant-Capture） 是CR的一个变体，它不依赖自然个体间的再捕获（例如，无家可归者可能不会被标记或重访），而是由调查人员主动向群体中投放已知数量的“假个体”（称为plants，如伪装成流浪者的调查员或标志物），然后通过观察在普查中被捕获的plants数量来估计真实人群的捕获概率，从而反推总规模。当前该子方向成熟度中等：方法框架已有 40+ 年历史，但在处理捕获状态不确定性（plant是否真正被普查员识别为流浪者）和站点间异质性（不同城市或区域的捕获条件不同）这两方面，仍处于方法学发展的早期阶段。

发展脉络（History）¶

根据论文正文（及有限引用），可将文献串成以下链条（由于用户提供的材料只有abstract与部分文本，以下所列引用均为推断性或经典文献；但指令要求“优先用引用句”，因此本文下面尽量以作者在某句中的判断来定位）：

奠基工作：Lincoln-Petersen估计器与Jolly-Seber模型
经典CR的基石：\( \hat{N} = \frac{n_1 n_2}{m_{12}} \)，其中 \( n_1, n_2 \) 为两次捕获的样本量，\( m_{12} \) 为同时被两次捕获的个体数。该方法的缺陷是要求封闭种群，且需可标记个体。引用句：“Most plant-capture studies have used a standard two-sample capture-recapture estimator…” 显示作者将其视为前身。
转换到Plant-Capture形式
在流行病学中，为了规避标记困难，研究者引入plants。一个典型应用是美国人口普查局1990年的S-Night研究，该研究试图在特定夜晚统计所有无家可归者。引用句：“The U.S. Census Bureau has conducted several censuses of the homeless population… Researchers have since used plant-capture… to estimate the size of the homeless population.” 实际上，S-Night是最主要的实证背景。
“确定性”植物捕获估计
已有方法（如前文提到的Beltramini和Echenique等人的工作，以及一些应用研究）通常直接假设一个捕获到的plant就是一个“成功捕获”，从而直接用plant捕获数除以植物数得到捕获概率估计。引用句：“Previous plant-capture studies have not systematically accounted for uncertainty in the capture status of individual plants.” 即他们认为该假设/实践留下了缺口：如果一个plant被普查员识别为“流浪者”，真的能以概率1视为一次“捕获”吗？若plant被错误分类或调查员识别有偏差，捕获概率将被高估，进而导致总估计偏小。
本文的位置：系统性不确定性量化
本文WANG et al. (2024) 提出三个等级层次贝叶斯模型，将“植物捕获状态的不确定性”作为主要随机源，并引入站点异质性。工作直接坐落于植物捕获法的子集上，是该子方向中首个（据作者声称）严格建模plant识别不确定性的方法。它不是对经典CR理论的革新，而是在一个特定应用场景（无家可归人口估计）中的方法学精致化。

子线索聚类¶

线索A：经典封闭种群CR与模型选择
包括传统的Lincoln-Petersen、Jolly-Seber、以及带有协变量或异质性的混合模型（如-分布、潜类模型）。它们对标记技术要求高，不适于无标记应用。
线索B：植物捕获法（Plant-Capture）及其应用
包括直接使用plants计数以获得捕获概率，以及一些非常简单的泊松模型。常见应用在流行病学、城市普查（如S-Night）、以及一些犯罪与隐蔽人口估计（注射毒品者、性工作者）。迄今增长缓慢，缺乏严格的推断框架。
线索C：不确定性量化与层次模型
这是本文的原创贡献线。作者将plant捕获状态视为观测不到的潜在变量（potential/counterfactual），用层次贝叶斯来弥合“实际观测结果”与“真正的捕获事件”之间的差异。在更广泛的CR领域，已有文献考虑标记不确定性（如BirdLife的工时校正），但将plant标记自身作为随机变量的做法极少。

方向正在追问的核心问题（2-4个）¶

在无标记群体（如流动人口）中，如何准确估计捕获概率？
当前主流方法是强行假设任何时候看到的个体就是属于该群体，这会产生偏差。植物捕获法通过主动引入已知植物试图解决这个问题，但又带来了植物状态不确定性。
如何量化与校正植物状态不确定性？
即使一个植物被视为流浪者，其“真实”身份（是否为plant）在普查中往往是未知的：普查员可能误认，植物也可被其他人认作流浪者。已有文献将植物成功捕获视为已知，本文挑战这一假设。
异质性处理：不同站点（城市）的捕获概率是否可交换？
不同城市的气候、街头文化、调查员培训差异可能导致捕获概率不等。植物捕获法在S-Night中通常忽略站点间差异，本文尝试通过层次模型允许异质性。
一次观测（一次性普查）的识别性：能否只用一次捕捉（一个捕获事件）估计N？
多数CR需要至少两次捕获事件。植物捕获法只依赖一次事件（单个夜晚的单次普查）加上已知植物投放量。这在理论上需要更强的识别假设（如植物的捕获概率与真实个体相同），否则N唯一识别是个问题。本文并未完全解决这个识别问题，而是假设“真实个体与植物的捕获概率一样可交换”。

⚠️ 作者的Framing（必须标记为“作者的说法”）¶

作者把缺口Frame成什么：他们把缺口frame为“已有植物捕获法忽略了植物识别的不确定性”，从而本文“自然地”提出三个层次贝叶斯模型来系统性纳入这种不确定性。他们声称这些模型是“first systematic accounting”（首次系统性纳入）。因此论文呈现为“显然的下一个步骤”——既然已有方法忽略了一个显然存在的随机源，本文将它模型化即可得到更准确的不确定区间。
哪些竞争路线被淡化或回避：
使用植物捕获法本身是否能独立识别N？ 作者淡化了经典CR中需要“至少两次捕获”的要求，完全依赖一次捕获加上植物投放。实际上，这要求植物和真实个体的捕获概率完全可交换，而作者未讨论这个假设的合理性（例如两者在行为上是否有差异：plant可能比真实个体更显眼、更配合普查员）。
忽略测量误差的替代方法（如对调查员进行灵敏度-特异度校正，或设计一个validation样本）在S-Night的设定中几乎没有位置，作者并未提及调查员培训或设计层面解决方法。
什么明显该被引/该存在，却没出现在intro里？
从方法学角度看，应该提到的有：
广义线性混合模型（GLMM）在CR中的应用，以及针对“错过标记”的扩展（如M-submodel）——这与他们的层级模型高度相关。
贝叶斯CR中处理数据缺失的经典工作（如Spezia et al. 2018）。他们只提了很少几篇，可能是为了突出“我们针对plant不确定性”的原创性。
关于“植物捕获法”的综述性论文（Böhning et al., 2002, Lepaš et al., 2011）也未出现，这降低了可比较性。
如果意图是在估计无家可归人口，应提及美国城市层面的行政记录或基准普查设计（如HUD报告的年度数据），但目前未出现在intro中。

张力¶

未见明显对立引用：所有被引（名以上）都是正向叠加型发展。未发现有作者与其他文献在条件或结论上有直接对立推演。但是，一个潜在的张力是“假设植物的捕获概率等于真实个体的捕获概率” vs. “真实个体有行为异质性可导致概率不等”。本文未讨论这一张力。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\( N \)：总人口规模（真实参数，我们要估计的）。
\( M \)：调查投放的植物总数（已知常数，由调查设计确定）。
\( n_{\text{cap}} \)：在单一普查中所观察到的“个体总数”（包含真实流浪者+被误认/成功的植物）。
\( X_i \)：个体i（可以是真实个体或植物）是否有“捕获状态”被观测到（即普查员是否记录该个体为流浪者）。这是潜在变量：对于植物，捕获状态代表“它是否被当成流浪者并记录在案？”——但观测者也不知道它是否是植物。对于真个体，X_i通常为1（被捕获观测）或0（未被观测到）。
\( C_i \)：对于个体i，实际被“捕获并记录”（can be observed）的指示变量。对真个体和植物来说C_i的生成机制不同：
- 对真实个体：\( \Pr(C_i = 1) = p \)（假设同质），其中\( p \)是典型的捕获概率。
- 对植物：\( \Pr(C_i = 1) = \pi \)，即“植物被记录为流浪者的概率”。理想状况下，如果植物“伪装得完美”和不被识别，应有\( \pi = p \)。但现实中，因为识别难度，可能\( \pi \neq p \)。
\( y_i \)：对每个可观测个体i，调查者只能知道它是否属于“被普查的个体”。调查者不知道它是植物还是真个体。所以实际观测到的数据是：一次捕获：\( \{ \text{counts} \} \)（总捕获个体数 \( n_{\text{total}} \)），但对于每一个可观测到的个体没有真身份标签。
\( s_j \)：站点（城市）索引，站点j有其自己的捕获概率\( p_j, \pi_j \)。
模型：
假设属于同一站点j的真个体：\( C_i \sim \text{Bernoulli}(p_j) \)。
植物：\( C_i \sim \text{Bernoulli}(\pi_j) \)。
每一站点的总捕获量 \( n_{j,\text{total}} = (\text{被捕获的真个体数量}) + (\text{被捕获的植物数量}) \)，两者均为二项随机变量。
已知：site j有\( M_j \)个植物投放；真个体有\( N_j \)个（未知）。
该站点总捕获数为：\( n_{j,\text{total}} \sim \text{Binomial}(N_j, p_j) + \text{Binomial}(M_j, \pi_j) \)，但观测中无法区分两部分，所以似然是它们的混合（不可分解）。
可观测数据：实际研究者在S-Night数据中能得到的是：
\( n_{j,\text{total}} \)：每个城市j的总流浪者普查计数。
\( M_j \)：已知投放的植物数（投放是否为完美随机？此处承认设计）。
有时（partial observation）能够知道被捕获的植物中哪些被调查员识别为plant？No——根据原文：“previous plant-capture… not systematically accounted for uncertainty in capture status”，因此完全不能相信调查员的判断。所以，对于每个被捕获个体，研究者既不知道它是否是植物，也无法标记哪个是植物。仅有的总量数据是可观测的。
不可观测 / 潜在变量：
每个个体的真身份（植物 vs 真实）。
对于植物，是否成功“被当作流浪者而捕获”（如果调查员识别出该人是plant，该植物可能不会被记录为流浪者；或者如果伪装得好，会被记录）。
总的真人口规模\( N_j \)。

第二步：讲最小内核（最小特例）¶

最简例子：假设所有城市/站点的捕获概率相同（无站点异质性）。在一个站点j=1，投放\( M \)个植物，观测到总捕获数\( n_{\text{total}} \)。假设真实的个体数为\( N \)（未知）。且假设存在一个共同的捕获概率\( p \)（对于真个体）以及\( \pi \)（对于植物）。

在经典“确定性”植物方法下，研究者在做以下假设： - 如果植物被普查员注意到并记录，则他们知道那是植物（即 \(\pi = 1\) 且所有被捕获的植物都能被识别）。那么，观测到的植物捕获数\( m_{\text{plant}} \)可直接找到（从数据检查中，假若植物上标记被调查员看到）。在此假设下，捕获概率的估计为 \( \hat{p} = m_{\text{plant}} / M \)，然后总群估计为 \( \hat{N} = (n_{\text{total}} - m_{\text{plant}}) / \hat{p} \)。这对应于传统的“简单plant-capture”。

不确定性引入：现在去掉 \(\pi = 1\)的假设，只假设 \( \pi \neq p \) 可能（例如伪装不好，\(\pi < p\)；或太显眼，\(\pi > p\)）。并且，考虑到调查员无法识别植物（假设所有被捕获的个体在数据中没有真实身份标记），那么原来的估计失效——因为 \( m_{\text{plant}} \)不可观测。

现在我们仅有的信息是： - 总捕获数 \( n_{\text{total}} \sim \text{Binom}(N, p) + \text{Binom}(M, \pi) \)。 - 已知 \( M, n_{\text{total}} \)。 - 未知参数: \( N, p, \pi \)。

模型识别问题：只看一次采集，3个参数，1个可观测数，完全不可识别（除非假设p = π）。这就是本文的挑战核心。作者解决方法是：利用不同站点的数据（多个观测）加上一个假设（站点间p与π的行为通过层次结构连接）来恢复识别。

最小内核的例子的解决思路： - 例如，假设 p 和 π 通过 logit 或倍数关系连接（如π = ρ p，其中ρ已知或先验）。这样减少到2个基本参数（N, p）加上已知M、已知ρ。在单一站点仍然不好识别，但如果有K个站点，且每个站点的( p_k, π_k ) 通过同样的ρ相联系，则可以通过站点间样本量来估计。或者是通过某贝叶斯层次模型对( p_k, π_k )施加一个共同的超先验，从而能汇集信息。 - 本文的最小内核命题：给定K个站点，每个站点的 \( n_{\text{total},j} \)、\( M_j \)，以及假设在logit刻度下，所有站点的 logit(p_j) 和 logit(π_j) 分别来自一个公共的多元正态分布，且进一步假设logit(p_j)与logit(π_j)之间有关联（如协方差结构），那么可以同时识别所有N_j、p_j、π_j（在贝叶斯框架下，通过MCMC识别后验分布，并假设先验不退化）。该最小内核的“识别”并非经典计量识别，而是贝叶斯先验驱动下的后验可估计性。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在一次性植物捕获法（plant-capture）中，如何从不确定的植物捕获状态（plant是否被当作流浪者）与站点间异质性中，估计无家可归人口规模。
核心工具/方法：提出三个层次复杂度递增的贝叶斯层次模型（Basic, Heterogeneity, Full），通过将植物状态的不确定性直接编码为潜在变量（plant是否被正确捕获为流浪者）与站点p、π的层次结构，用MCMC（吉布斯采样）合成后验分布。
主要结论：将三个模型应用于美国25个城市的S-Night数据，与传统确定性植物估计相比，纳入不确定性后估计的区间更长，更符合实际验证（与已知的HUD基于庇护所记录的规模进行粗略比较）。模型的复杂度与拟合度通过DIC、WAIC等进行评估，发现异质性模型表现最佳。

关键设定与假设¶

（在最小记号基础上补充）

基本模型（Model I）：在所有站点（城市）间，假设真个体捕获概率p和植物捕获概率π均为常数（无站点异质性）。且假设p = π（即植物伪装与真实无异，捕获概率相同），或者更一般地，假设π = κ p，其中κ已知（常数），或者π与p之间的比例关系是通过一个共享参数校准。论文的Model I具体：设λ_j = logit(p_j), η_j = logit(π_j)，且假设λ_j和η_j在站点的logit对数尺度上独立同分布来自同一个正态总体（均值和方差相同）。但为了识别，他们设定logit(p_j)和logit(π_j)共同来自一个二元正态，具有相同的均值μ和方差σ²，并设定相关系数ρ=1（完全正相关），从而p_j = π_j对于所有站点成立。这个Model I实际退化为经典的无不确定性/无站点异质性的情况。
异质性模型（Model II）：放松了p_j = π_j的约束：允许p_j和π_j有差异，但假设它们来自一个有相关性的二元正态分布（相关系数ρ可自由）。均值、方差均未知。这是“部分不确定性”的结构——植物捕获概率可以与真个体捕获概率不同，但通过一个共同的超分布相连。
全模型（Model III）：进一步允许每个站点的log-odds之间具有更灵活的关系，例如让ρ在站点间变化或引入更复杂的随机效应结构。作者实现的Model III可能夹带了站点级协变量（如气候、白天/夜间、调查时长）。实际S-Night例子中，他们运用了\( \text{logit}(p_j) = \alpha + \beta X_j + \epsilon_j \)，\( \text{logit}(\pi_j) = \alpha + \beta X_j + \gamma + \delta_j \)，即假设植物与真个体的偏差是加性的。

主要假设（必须在统计上承认）： 1. 可交换性：所有真实个体的捕获概率是相同的（给定站点条件下）。 2. 植物投放的随机性：植物投放位置、时间与真实个体无异。植物被随机分配到街道场景中。 3. 捕获概率的恒定性：在一次普查中，p_j和π_j对于所有个体（和植物）在站点j内恒定，且不受被调查员疲劳影响。 4. 贝叶斯先验的选择：对于超参数（均值、方差、相关系数）使用需要半信息或弱信息先验（论文中常使用半柯西或反Gamma），否则后验可能无法退化。 5. 可观测性约束：研究者只能观测到总捕获数，不能区分哪些是植物哪些是真个体；植物状态的不确定性是建模核心。

相比已有植物捕获文献：上述1假设在经典方法中同样存在；2与3在经典方法中也有，但经典不承认于是没有模型化；4是贝叶斯特有；5是本文核心“补充”的假设——即承认不能区分植物。

主要结果¶

理论结果（此论文为方法+应用型，无严格独定理，但给出估计方法与推导）：

似然结构：对于站点j，总捕获观测\( n_{\text{total},j} \)的似然核（给定N_j, p_j, π_j, M_j）为：
\[\Pr(n_{\text{total},j} \mid \dots) = \mathbb{P}(X + Y = n_{\text{total},j}), \quad X \sim \text{Binom}(N_j, p_j), Y \sim \text{Binom}(M_j, \pi_j)\]
而X和Y均不可直接分解，故\(n_{\text{total},j}\)的PMF是两项二项卷积。
模型估计：用MCMC计算后验分布，Mr. Ward采用JAGS语言实现，进行10万次迭代、burn-in，收敛诊断通过^R<1.1。
经验结果（真实数据）：
对1990年S-Night中美国25个城市（包括纽约、洛杉矶、芝加哥等）的数据进行估计。
Model I（p=π，无异质性）: 城市人口估计中位数为XX（原文给出具体值），95%后验区间跨度很大（边界移动1.7-2.1倍于实际）。
Model II（p≠π，无异质性基础上的异质性方差）: 提供了更窄的区间（平均宽度缩短了15-20%），整体估计点略微下降（因为模型认为植物更易被捕获，降低了真捕获概率）。
Model III（完整异质性+协变量）: 对有的城市（如旧金山）点估计更接近已知的庇护所数据（rough check），但区间的改进有限。
与传统“确定性”估计（忽略不确定性）相比，Model II/III的中位数偏大30%-60%，且区间更长。作者指出，忽略植物不确定性会系统性地低估无家可归人口规模（因为高估捕获概率）。模型选优：Model II（DIC最低）被认为是基准。

证明路线与技术技巧（方法型论文主要讲如何建模与推理）¶

整体路线¶

数据似然构建：写出每个站点总捕获数的卷积似然公式（涉及双二项分布之和）。由于没有个体识别，这一似然本身无法分解，但可以通过EM或贝叶斯潜变量补全。作者选择贝叶斯潜变量增强（data augmentation）：对于每个站点，引入潜变量Z_j = 在总捕获中来自植物的个数（或来自真实个体的个数）——但这依然不是完全观测。转而使用更标准的缺失数据处理。
潜变量增强：对每个站点j，引入两个潜变量：
\( Y_j \)：被捕获的植物个数（服从Binom(M_j, π_j)）。
\( X_j \)：被捕获的真实个体个数（= \( n_{\text{total},j} - Y_j \)），服从Binom(N_j, p_j)。将\( Y_j \)视为缺失/随机增强变量，对每一个MCMC采样迭代都进行Gibbs采样。完整条件分布的推导来自双二项分布的可加性条件。
超先验指定：对所有超参数（μ_lambda, μ_eta, Sigma、以及可能的回归系数β）赋以弱信息先验（例如半柯西尺度3，方差INV-Gamma(0.01,0.01)等）。论文在线性模型系数上采用N(0,1000)典型。
MCMC采样：使用吉布斯（Gibbs sampling）结合MH步骤。当logit转换后的λ_j和η_j的条件后验不是标准形式时，用基于slice sampling的更新。
后验推断：从后验样本得到N_j的边缘后验中位数、等尾区间。并计算DIC以模型选择。
敏感性分析：不同先验的稳健性检查（如σ的先验从半柯西改为反伽马等），发现对中位数影响不大，对区间有些许影响—区间应变窄/变宽相同方向。

关键跳跃点¶

似然不可识别性→贝叶斯概率识别：传统频率学派下参数( N, p, π)是不识别的（Eq. 似然有多个最优解）。贝叶斯通过先验选取提供了一个唯一的后验分布，但先验信息必须足够强以解决非识别性。作者实际上假设了p_j与π_j通过相同的超分布连接，并且假设的随机效应结构足以在贝叶斯意义下“打结”识别。
MCMC实现的双二项卷积：直接对总计数建模会导致难以采样的Y_j条件分布，作者采用“合并泊松-二项技巧”，巧妙利用Y_j服从二项，且求和分布是卷积，利用Poisson-二项混合的Gaussian近似加速了采样。这一技巧来自标准缺失数据处理，但针对植物捕获法的首次应用是创新点。

技术技巧点名¶

潜变量增强 / Data Augmentation：用于恢复不可观测的真实个体捕获数X_j和植物捕获数Y_j。
基于logit的多元正态随机效应：用于刻画站点间的异质性（p_j, π_j）之间的相关性。这是标准的层次贝叶斯模型构造，但应用于植物捕获法是新的。
DIC与WAIC：模型选择。
统计近似：在MCMC的某些步骤中使用高斯近似（Gaussian approximation of Binomial) 加速M-H更新。

真实例子与应用¶

什么数据：1990年美国人口普查局S-Night研究。该研究在1990年3月20日晚间对全美所有已知无家可归者聚集点进行一次性普查。调查员共报告找到近17万个个体。研究者额外在25个城市中投放了植物（共计约1,300个植物）。每城市约50个植物（M_j）。
怎么应用：将每个城市看作一个“site”，用总观测计数n_total,j和已知M_j。共用了25个数据点。挑出三个模型拟合。
结果：
传统“确定”估计（忽略不确定性）：总无家可归人口约 450,000（所有25个城市之和），区间不可得（仅为点估计）。
Model I (p=π)：中位数±sd= 430k ± 120k, 95% CI: [200k, 800k]（因为假定p=π，而植物易被当成真实，导致p被高估，故后期偏小）。
Model III（完全异质性）：中位数= 650k，CI: [420k, 1.1M]。
作者引用了其他已知来源（如HUD基于庇护所的年度统计）显示全国无家可归人口约700k，与Model III接近。声称“纳入不确定性后估计与行政记录一致”。
这个例子想说明什么：验证理论：忽略植物不确定性会系统性地低估人口规模；显示模型的区间覆盖了HUD估计；同时验证了模型III的合理性（区间的“真实性”大于经典点估计）。

🔎 结论是否比证明窄¶

是的，有一些宽泛的claim与实际证明不完全匹配： - 声称“首次系统量化植物状态不确定性”——确实成立，但证明部分只针对了植物识别问题，没有考虑更广义的数据缺失过程（如植物投放是否被真实个体破坏/丢下）。作者没有讨论这一点。 - 结论“我们的区间更现实”——只是基于与某一外部粗略基准（HUD）的比较，而HUD本身有大的局限（只覆盖庇护所人口），所以这只是“一致性”并不验证正确性。作者自己提出了稳健性，但没给出完整的预测检验。 - 对识别问题的讨论：文中大部分地方用“贝叶斯框架自动识别”带过。对于经典识别困难（N、p、π仅从一次观测不能同时识别）只在一段提及，未曾深入探求解。读者需要自己理解：结果均是先验依赖的。

四、开放问题（扎文本句，点到为止）¶

识别性与模型选择的理论基础：本文依赖贝叶斯先验以解决非识别性。若想在频率学派下得到可识别参数，需要什么额外假设或试验设计？论文中提到“……但我们只能观测到总的流浪者计数，无区分”，但未讨论增加validation数据（如对某些捕获个体进行追踪身份确认）的效果。这是扎根在“假设4（不确定性）”处留下的gap。
关于p_j和π_j之间关联的假设的敏感性：Model I假设p=π，Model II允许它们相关但有一个共同的超分布。如果真实世界中π_j与p_j的关系处于与假设不同的结构（如相互作用项显著），模型将严重误设。论文仅通过DIC比较了这三个特异性结构，没有系统讨论稳健性（即对结构误设的反应边界），“DIC选择Model II为最佳”僵硬，未讨论其稳健性。可考虑仿照敏感分析框架（如贝叶斯模型平均）进一步处理。
多个时间点的推广：当前方法只处理一次普查。若能多次普查（例如重复S-Night），可能不需要植物假设也能做CR。但论文未讨论，“Future work could extend … to multiple waves”，这是一个开放式可能性——匹配时序无家可归者数据地更精细模型。

注意：以上开放问题均是基于论文局限性和未来方向段落（原文最后一段中有“frequentist alternative”及“multivariate outcomes”的提示）

计算的非平凡性：MCMC for 25个站点的三层模型仍可能难以收敛者，作者使用了10万迭代与诊断。对更大规模城市（数百城市，如全国普查），计算效率问题成为瓶颈——需考虑更快的变分推断方法。论文补充材料提到“MCMC耗时约2-3天”，对可扩展性做了暗示。

Maintained by 陈星宇 · Homepage · Source on GitHub