Biometrika — Vol 112 Issue 4 · 2026-05-26¶

共 16 篇 · Biometrika

本期导览¶

自动生成：归纳本期主要主题与脉络，不打分、不排名。

这一期共16篇论文，整体上可归纳为三条主线：因果推断与识别（3篇）、假设检验与模型诊断（5篇）、以及高维/非参数方法与计算理论（4篇）。其余论文涉及抽样设计、贝叶斯推断、积分方程等主题，分布较散。

在因果推断主线中，两篇论文从不同角度推进了经典框架的边界。A semiparametric instrumented difference-in-differences approach to policy learning 将工具变量与DID结合，在平行趋势因未测量混杂失效时，利用二元IV识别最优处理规则，并给出半参数有效且多重鲁棒的估计量，是IV与政策学习交叉的实质性进展。Sensitivity analysis for observational studies with flexible matched designs 则放宽了Rosenbaum敏感性分析对精确匹配的依赖，通过将随机性来源从处理分配置换改为潜在结果置换，使近邻匹配等灵活设计下的推断仍有效，直接回应了匹配因果推断中的实践痛点。Russian roulette: the need for stochastic potential outcomes when utilities depend on counterfactuals 则从基础假设层面切入，指出非对称效用函数下SUTVA会导致悖论，论证必须采用随机潜在结果框架，对因果识别的理论根基有启发。

假设检验主线覆盖了多种结构检验问题。Goodness-of-fit tests for linear non-Gaussian structural equation models 利用高阶矩张量的秩约束构造检验，将LiNGAM模型的拟合优度检验转化为子行列式与奇异值推断，方法新颖且计算可控。On testing Kronecker product structure in tensor factor models 通过比较不同拟合残差来检验张量因子载荷的Kronecker结构，是张量建模中模型诊断的实用工具。Supervised contamination detection 将两样本检验扩展到监督污染检测，给出非渐近Type-I误差保证与自适应划分选择，与您的非参数minimax兴趣直接相关。Nonsense associations in Markov random fields with pairwise dependence 则揭示了MRF相依下OLS推断的意外性质——正相依误差不一定导致推断失效，挑战了教科书常识。Resampling methods with multiply imputed data 为多重插补后的重抽样提供了严格理论指导，明确了jackknife与bootstrap所需插补数的阈值条件。

高维与非参数方向中，Dimension estimation in a spiked covariance model using high-dimensional data augmentation 分析了增广噪声法在高维下失效的机理，并给出修正的一致性估计，对spiked模型秩估计的渐近理论有直接贡献。Multicalibration for modelling censored survival data with universal adaptability 将多校准框架引入删失生存数据，在协变量偏移下无需目标域标签即可保证子群体校准性，理论连接了多校准与通用适应性。Fast convergence of the expectation-maximization algorithm under a logarithmic Sobolev inequality 从泛函不等式角度统一分析EM算法收敛，给出指数速率与有限样本误差界，为统计计算提供了可迁移的分析范式。Factor pretraining in Bayesian multivariate logistic models 通过预估计潜在因子将高维多变量logistic回归的后验计算解耦为并行单变量问题，并保证频率覆盖，是贝叶斯高维推断的实用策略。

与因果推断方向最贴合的论文是：A semiparametric instrumented difference-in-differences approach to policy learning（IV+DID+政策学习）、Sensitivity analysis for observational studies with flexible matched designs（敏感性分析理论）、Russian roulette: the need for stochastic potential outcomes（基础假设）。与半参数效率方向相关的是：A semiparametric instrumented difference-in-differences approach（多重鲁棒估计）、Multicalibration for modelling censored survival data（校准性理论）。与高维/随机矩阵方向相关的是：Dimension estimation in a spiked covariance model（秩估计与失效机理）、Factor pretraining in Bayesian multivariate logistic models（高维贝叶斯解耦）。

因果推断 (causal_inference, 2 篇)¶

1. 10.1093/biomet/asaf043 — A semiparametric instrumented difference-in-differences approach to policy learning¶

作者: Pan Zhao, Yifan Cui
期刊/来源: Biometrika
分类: vol 112 · issue 4
相关性 8/10 · novelty: new_method
摘要: 在平行趋势假设因未测量混杂而失效的 DID 设定下，本文利用二元工具变量建立政策学习的 identification 结果，目标 estimand 为最优处理规则的价值。核心方法包括 Wald 估计量、新型 IPW 估计量以及一类 semiparametric efficient 且 multiply robust 的估计量；在 nuisance 参数由灵活机器学习算法估计时，通过 cross-fitting 保证一致性与 n^{-1/2}-CAN。理论证明给出了 influence function 与多重鲁棒性条件，并将框架扩展至面板数据设定。对您可能有用：本文将 IV 与 DID 结合做 policy learning，直接连接 causal inference 的 IV 与 semiparametric efficiency 两个子方向。
关键技术: instrumented difference-in-differences, binary instrumental variable identification, multiply robust estimation, semiparametric efficiency bound, inverse probability weighting, cross-fitting with machine learning nuisances
为什么对您有用: 直接连接 causal inference 中 IV 识别与 semiparametric efficiency theory 两个子方向，multiply robust + influence function 的构造是您熟悉的 semiparametric 理论武器可攻的口子。立即可做：用 very_familiar 的 semiparametric 理论与 M-estimation 工具验证其 efficiency bound 是否紧、multiply robust 条件是否可进一步放松。

2. 10.1093/biomet/asaf069 — Sensitivity analysis for observational studies with flexible matched designs¶

作者: Xinran Li
期刊/来源: Biometrika
分类: vol 112 · issue 4
相关性 8/10 · novelty: new_theory
摘要: 在观察性研究的匹配因果推断中，目标是进行无分布假设的敏感性分析以抵抗未测量混淆。经典 Rosenbaum 框架以处理分配的随机化为推断基础，但要求精确匹配（exact matching）才能保证有效性，实践中极难满足。本文提出替代推断框架：保留 Rosenbaum 的敏感性分析程序，但将随机性来源从处理分配置换替换为潜在结果的随机置换（random permutations of potential outcomes）。这一转换允许使用近邻匹配等灵活匹配算法，在非精确匹配下仍保证统计有效性。理论上，该框架为放宽精确匹配限制提供了新视角，对您可能有用：直接推进因果推断敏感性分析理论，并为流行病学等应用中常见的非精确匹配提供严谨推断工具。
关键技术: Rosenbaum sensitivity analysis, randomization inference, potential outcome permutation, flexible matching algorithms, exact matching relaxation
为什么对您有用: 直接连接到 causal inference 的 sensitivity analysis 子方向及 epidemiology 的匹配应用。研究者 identification theory in causal inference (moderately_familiar) 可用来审视其潜在结果置换假设的 identification 强度与 Rosenbaum 框架的差异。立即可做：用 very_familiar 的 estimation theory in causal inference 检查该框架下 estimator 的 finite-sample 性质，或与 DML/debiased 方法在非精确匹配下的 robustness 做对比。

高维统计 / 随机矩阵 (high_dim_rmt, 1 篇)¶

1. 10.1093/biomet/asaf052 — Dimension estimation in a spiked covariance model using high-dimensional data augmentation¶

作者: U Radojičić, J Virta
期刊/来源: Biometrika
分类: vol 112 · issue 4
相关性 9/10 · novelty: new_method
摘要: 在 spiked covariance model 下，本文研究通过引入增广噪声变量来估计信号维度（秩）的问题，设定为数据维度与增广维度均可趋于无穷的高维场景。作者提出了一种修正的高维版增广噪声维度估计方法，以解决原方法在高维下失效的问题。核心机制在于对增广步骤的高维适配，理论分析证明了该方法在宽泛的高维渐近条件下的一致性。进一步，理论结果明确揭示了原方法在数据或增广维度过大时崩溃的内在机理。模拟与真实数据表明，新方法在理论模型内及外均优于现有竞争者。对您有用：直接关联您的高维渐近与 RMT 兴趣，spiked model 的秩估计是高维推断的基础，其渐近失效机理分析可借鉴到其他高维估计器的鲁棒性研究中。
关键技术: spiked covariance model, dimension estimation, data augmentation, high-dimensional asymptotics, consistency analysis
为什么对您有用: (1) 直接连接到 primary interest 中的 "high-dimensional statistics (Random matrix theory)"，spiked covariance model 是 RMT 的经典设定，维度估计是其中的核心推断问题。(2) 可以用 very_familiar 中的 "high-dimensional asymptotics" 和 "minimax bounds" 来审视其声称的一致性是否达到最优率，或用 moderately_familiar 的 "M-estimation theory" 分析其增广估计器的极限分布与效率。(3) 立即可做：用 very_familiar 的高维渐近工具即可复现/验证其渐近声明，甚至可尝试推导其极限分布或 minimax 下界。

非参数 / 半参数 (nonparam_semipara, 1 篇)¶

1. 10.1093/biomet/asaf039 — Multicalibration for modelling censored survival data with universal adaptability¶

作者: Hanxuan Ye, Hongzhe Li
期刊/来源: Biometrika
分类: vol 112 · issue 4
相关性 3/10 · novelty: new_method
摘要: 在协变量偏移(covariate shift)设定下，目标是构建对目标域各子群体均具校准性的生存概率与受限平均生存时间(RMST)预测器，无需目标域标签。方法利用伪观测(pseudo-observations)将删失生存数据转化为可处理响应，提出黑箱后处理boosting算法实现多校准(multicalibration)。理论分析基于functional delta method与p-variational norm刻画伪观测性质，给出算法的样本复杂度、收敛速率与多校准保证。核心结果建立multicalibration与universal adaptability的基本联系，证明校准预测器可匹敌甚至优于逆倾向得分加权(IPW)估计器。实证用两个大型心血管前瞻队列验证。对您有用：伪观测与influence function的深层联系触及semiparametric efficiency理论，心血管队列的协变量偏移设定直接对接epidemiology secondary interest。
关键技术: pseudo-observations, multicalibration, functional delta method, p-variational norm, covariate shift, universal adaptability
为什么对您有用: 本文连接到两个方向：(1) semiparametric efficiency——伪观测本质是jackknife influence function近似，其functional delta method分析可被moderately_familiar的semiparametric theory与M-estimation theory攻入；(2) epidemiology secondary interest——心血管前瞻队列的协变量偏移与transportability是典型应用场景。用very_familiar的estimation theory in causal inference可审视其IPW对比论证的sharpness；但若要深入pseudo-observation与higher-order influence function的交互以判断其收敛率是否可进一步sharpen，需先在moderately_familiar的HOIF上长肌肉——中期可做。

数理统计 / 假设检验 (hypothesis_testing, 6 篇)¶

1. 10.1093/biomet/asaf046 — Goodness-of-fit tests for linear non-Gaussian structural equation models¶

作者: D Schkoda, M Drton
期刊/来源: Biometrika
分类: vol 112 · issue 4
相关性 8/10 · novelty: new_method
摘要: 本文研究线性非高斯结构方程模型（LiNGAM）的拟合优度检验问题，目标是在无潜在混杂及含潜在混杂的设定下检验线性假设是否成立。核心机制是利用线性结构方程所蕴含的二阶及高阶矩之间的代数关系，证明线性假设导致由矩构造的矩阵和张量满足秩约束。检验统计量基于子行列式估计与奇异值构造，采用 incomplete U-statistics 估计子行列式以控制计算复杂度，并通过 multiplier bootstrap 及奇异值的渐近近似获取 null distribution。实证部分在 Tübingen cause-effect pair 数据集上展示方法。对您可能有用：本文将高阶矩张量的秩约束转化为检验问题，且 incomplete U-statistics 的计算策略与您在 higher-order U-statistics 的 treewidth / tensor contraction 视角直接相关。
关键技术: linear non-Gaussian structural equation model, moment-based rank constraints, incomplete U-statistics, multiplier bootstrap, singular value asymptotics, goodness-of-fit testing
为什么对您有用: 本文连接到您 primary interest 中的 hypothesis testing 与 higher-order U-statistics：它将 LiNGAM 的线性假设检验转化为高阶矩张量的秩约束检验，并用 incomplete U-statistics 估计子行列式以降低计算成本——这正是您 very_familiar 的 treewidth / tensor contraction / einsum 视角可以直接切入的地方（分析 incomplete U-statistics 的 contraction-order 优化与计算复杂度）。follow-up 判断：立即可做——用您已有的 higher-order U-statistics 计算框架（treewidth / einsum）分析本文 incomplete U-statistics 的最优 contraction 策略，或推导其 higher-order variance/projector 结构以改进 bootstrap 效率。

2. 10.1093/biomet/asaf041 — Nonsense associations in Markov random fields with pairwise dependence¶

作者: Sohom Bhattacharya, Rajarshi Mukherjee, Elizabeth L Ogburn
期刊/来源: Biometrika
分类: vol 112 · issue 4
相关性 3/10 · novelty: new_theory
摘要: 本文研究 Markov random field（格与图上）相依结构下两个随机向量间关联度量的'虚假关联'现象，目标 estimand 为 correlation、covariance 及 OLS 投影系数，关键假设为 MRF 上的正相依（pairwise positive dependence）。核心发现分三类：在某些设定下出现与 Yule 经典虚假相关一致的方差膨胀；意外地在另一些设定下出现方差缩减；还有设定中方差不受相依影响。最突出的理论结果是给出了一般条件，使得即使回归误差存在正相依，忽略相依的 OLS 推断仍然有效——这直接反驳了无数教科书与课程中'正相依误差必导致 OLS 推断失效'的断言。技术路线涉及 MRF 上矩与协方差的精确/渐近计算、依赖图结构的方差分解。对您有用：该文将经典 time-series nonsense correlation 问题严格推广至图相依，直接触及 hypothesis testing 在相依设定下的有效性边界。
关键技术: Markov random field dependence structure, variance inflation/deflation under graph dependence, OLS inference validity under positive dependence, Yule nonsense correlation generalization, covariance/correlation asymptotics on lattices and graphs
为什么对您有用: 直接连接 hypothesis testing（primary interest）中'相依下标准推断何时失效/何时仍有效'这一核心问题；MRF 图结构上的方差膨胀/缩减分析可用您 very_familiar 的高维渐近工具切入，OLS 有效性的条件刻画则与 moderately_familiar 的 M-estimation theory 对接。Follow-up 判断：立即可做——用您已有的 minimax bound 与高维渐近框架验证文中方差膨胀/缩减的 rate 是否可进一步 sharpen，或推广至高维 MRF（节点数随 n 增长）设定。

3. 10.1093/biomet/asaf059 — Resampling methods with multiply imputed data¶

作者: Michael W Robbins, Lane Burgette
期刊/来源: Biometrika
分类: vol 112 · issue 4
相关性 3/10 · novelty: new_theory
摘要: 在多重插补(multiple imputation)框架下，研究如何正确地将重抽样方法(jackknife/bootstrap)与随机插补结合以估计不确定性，estimand 为一般完整数据参数的插补后估计量。核心理论结果有两点：(1)每个重抽样复制组内应独立生成多次插补，而非仅沿用一次；(2)jackknife 要求每个复制组内的插补数据集数 M 远超复制组数 n（leave-one-out 场景下 M≫n），而 bootstrap 无此极端要求。进一步提出偏调整(bias-adjusted)的 jackknife 与 bootstrap 变体，论证其所需插补数更少。模拟实验验证了理论阈值结论。对您有用：若在流行病学或因果推断缺失数据场景下用 bootstrap/jackknife 做推断，本文的 M≥条件直接指导实践。
关键技术: multiple imputation, jackknife resampling, bootstrap resampling, bias-adjusted jackknife, Rubin's combining rules, missing data variance estimation
为什么对您有用: 连接到 hypothesis_testing 子方向（重抽样用于不确定性量化）及 epidemiology 应用（多重插补是流行病学缺失数据标准工具）；研究者 very_familiar 中的 estimation theory in causal inference 可审视本文结论在因果缺失数据设定下的适用性，但本文核心机器（Rubin's combining rules / jackknife variance theory）不在武器库核心位置；中期可做——若要在因果推断缺失数据场景下用重抽样做 sensitivity analysis，需先在 moderately_familiar 的 identification theory in causal inference 上结合本文的插补+重抽样条件做整合。

4. 10.1093/biomet/asaf063 — Supervised contamination detection, with application to flow cytometry data¶

作者: S Gaucher, G Blanchard, F Chazal
期刊/来源: Biometrika
分类: vol 112 · issue 4
相关性 3/10 · novelty: new_theory
摘要: 在监督污染检测设定下，目标是判断观测集是否被来自不同于参考分布的污染分布所污染，训练阶段同时拥有参考分布与污染分布的标注样本。本文提出基于直方图密度估计的检验，给出 Type-I error 的非渐近保证并刻画检测速率（detection rate）。检验功效高度依赖于直方图划分的选择，作者给出一种自适应划分选择算法以最大化功效。模拟与流式细胞术真实数据验证了方法的有效性。对您有用之处：该问题可视为两样本检验在监督侧的变体，其非渐近检测速率与划分选择机制直接触及您在 hypothesis testing 与 nonparametric minimax bound 方向的兴趣。
关键技术: supervised contamination detection, histogram density estimation, non-asymptotic Type-I error control, detection rate characterization, adaptive partition selection, two-sample testing
为什么对您有用: 本文连接到 hypothesis testing 子方向，具体是两样本/污染检测的非渐近检测速率刻画。您武器库中 very_familiar 的 minimax bounds for estimation problems 与 nonparametric statistics 可直接用来审视其声称的 detection rate 是否紧（minimax 视角），moderately_familiar 的 M-estimation theory 可用于分析划分选择算法的收敛。Follow-up 判断：立即可做——用 minimax bound 验证其 detection rate 的紧性，并考虑将直方图替换为 sieve / RKHS 估计以获得更优速率。

5. 10.1093/biomet/asaf072 — On testing Kronecker product structure in tensor factor models¶

作者: Zetai Cen, Clifford Lam
期刊/来源: Biometrika
分类: vol 112 · issue 4
相关性 3/10 · novelty: new_method
摘要: 在 Tucker 分解的 tensor factor model 设定下，本文目标是检验 factor loading matrix 是否具有 Kronecker product structure，关键 regularity 假设为估计残差的渐近正态性。核心机制是通过比较拟合 full tensor factor model 的残差与对 reshaped 数据拟合 factor model 的残差来构建检验；极端情况下重塑即为向量化，此时无 Kronecker 结构的 loading matrix 可为一般形式。方法进一步推广至 CP 分解下的 Khatri-Rao product structure 检验。理论结果基于估计残差的渐近正态性推导；数值实验表明 size 渐近名义水平，power 随 mode 维度与组合数增加而提升。对您可能有用：本文将 hypothesis testing 与 tensor 结构检验结合，您可利用 tensor contraction / einsum 视角分析其 reshaping 残差拟合的计算代价，或探索 higher-order U-stat 在此检验中的潜力。
关键技术: Kronecker product structure test, tensor factor model, Tucker decomposition, Khatri-Rao product, asymptotic normality of residuals, reshaping factor model
为什么对您有用: 本文直接连接到您 primary interest 中的 hypothesis testing 与 tensor 结构分析。您武器库中 very_familiar 的 "computation of higher-order U-statistics (treewidth / tensor contraction / einsum)" 可直接用于分析本文 reshaping 与残差拟合步骤的计算复杂度，甚至探索基于 higher-order U-stat 的 tensor 结构检验。Follow-up 判断：立即可做——用 einsum 视角审视其 reshaping 计算代价，或尝试将残差比较转化为 U-stat 形式以获取更 sharp 的 power 分析。

6. 10.1093/biomet/asaf065 — Alternative mean square error estimators and confidence intervals for small area prediction under general designs¶

作者: Yanghyeon Cho, Emily Berg
期刊/来源: Biometrika
分类: vol 112 · issue 4
相关性 2/10 · novelty: new_theory
摘要: 在 informative sampling design 下的小区域预测 MSE 估计问题，目标是对非线性参数预测器给出严格理论支撑的 MSE 估计量与校准预测区间，关键假设为入样概率与响应变量相关（informativeness）。作者提出了一个具有理论收敛性保证的 MSE 估计量，弥补了现有方法仅依赖未经理论验证的近似；该方法适用于一般参数（包括响应变量的非线性函数）的预测器，不局限于线性混合模型框架下的均值预测。同时构造了校准预测区间，减少了对正态性假设的依赖；核心技术涉及 linear mixed model 的 MSE 分解、bias correction 及 design-based 校准。主要理论结果是对 informative design 下 MSE 估计量的严格收敛性证明，实证通过模拟与 Iowa 农业调查数据验证；对您而言，informative sampling 引入的 selection bias 与因果推断中的 selection mechanism 有弱关联，但核心框架（Fay-Herriot 型小区域模型）离您的 primary interests 较远。
关键技术: MSE decomposition under informative sampling, bias-corrected MSE estimator, calibrated prediction intervals, linear mixed model for small area estimation, design-based inference
为什么对您有用: 本文涉及 informative sampling 下的 selection bias 与 inference 问题，与因果推断中的 selection/identification 有弱关联，但核心是 survey sampling 的小区域估计框架而非因果设定。您的 technical_arsenal 中 M-estimation theory 可部分覆盖本文的 MSE bias correction 逻辑，但 SAE 的 linear mixed model 体系与 design-based 校准不在武器库中。暂不可做：核心机器（Fay-Herriot 模型 / survey sampling MSE 理论）不在武器库里，且与您的研究方向重叠度低，不值得展开读全文。

统计计算 / 算法 (stat_computing, 1 篇)¶

1. 10.1093/biomet/asaf061 — Fast convergence of the expectation-maximization algorithm under a logarithmic Sobolev inequality¶

作者: R Caprio, A M Johansen
期刊/来源: Biometrika
分类: vol 112 · issue 4
相关性 4/10 · novelty: new_theory
摘要: 本文研究 EM 算法的收敛速率，在 Euclidean–Wasserstein 空间上的梯度流框架下，将交替极小化技术推广至 EM 算法（通过自由能的坐标极小化表示）。核心假设是 log-Sobolev 不等式的一个自然推广，在此条件下得到有限样本误差界和指数收敛速率。该框架统一覆盖多种 EM 变体（如 Monte Carlo EM、增量 EM 等），提供一种基于泛函不等式的收敛分析新范式。对您有用：若您关注统计计算中数值方法的收敛理论，此文的 log-Sobolev 条件与指数收敛界为分析 M-estimation 算法提供了可迁移的泛函工具。
关键技术: log-Sobolev inequality, Euclidean-Wasserstein gradient flow, free energy minimization, alternating minimization, finite-sample error bound, exponential convergence
为什么对您有用: 直接连接统计计算（数值方法与算法收敛性）这一 primary interest 子方向；您 very_familiar 的 M-estimation theory（moderately_familiar）可作为切入点，审视该 log-Sobolev 条件在更一般 M-estimator 迭代算法中的适用性。follow-up 判断：中期可做——需先在 moderately_familiar 的 M-estimation theory 上加深对泛函不等式与梯度流语言的掌握，再尝试将此框架推广到您熟悉的因果推断中一类 EM-type estimator（如 latent-variable IV / mediation 模型）。

其他 (other, 5 篇)¶

1. 10.1093/biomet/asaf067 — On the asymptotic validity of confidence sets for linear functionals of solutions to integral equations¶

作者: E Smucler, J M Robins, A Rotnitzky
期刊/来源: Biometrika
分类: vol 112 · issue 4
相关性 9/10

2. 10.1093/biomet/asaf062 — Russian roulette: the need for stochastic potential outcomes when utilities depend on counterfactuals¶

作者: Andrew Gelman, Jonas M Mikhaeil
期刊/来源: Biometrika
分类: vol 112 · issue 4
相关性 7/10
摘要: 本文在因果推断框架下探讨医疗决策中"首先不伤害"原则所引出的非对称效用函数问题：当效用依赖于未实现的潜在结果（如"杀死患者的损失大于拯救生命的收益"）时，在稳定单位处理值假设（SUTVA）下会产生悖论——以俄罗斯轮盘赌为例，非对称效用会推荐看似荒谬的决策。作者指出，若放弃 SUTVA、允许潜在结果为随机变量（stochastic potential outcomes），则悖论可消解，从而在非对称效用设定下必须采用随机潜在结果框架。最后讨论了该设定下参数化的选择及其对决策推断的影响。对您有用：本文直接触及因果推断 identification 理论中 SUTVA 与潜在结果随机性的基础假设，为非对称效用/反事实依赖的决策问题提供了新的参数化视角。
关键技术: stochastic potential outcomes, SUTVA relaxation, asymmetric utility function, counterfactual-dependent utility, parameterization in causal models

3. 10.1093/biomet/asaf068 — Priors for second-order unbiased Bayes estimators¶

作者: Mana Sakai, Takeru Matsuda, Tatsuya Kubokawa
期刊/来源: Biometrika
分类: vol 112 · issue 4
相关性 6/10
摘要: 在非iid模型设定下，本文研究如何构造使Bayes估计量达到二阶无偏性（second-order unbiasedness）的先验分布，目标estimand为参数θ的Bayes估计量在二阶渐近展开中消除偏误。Hartigan (1965)引入了asymptotically unbiased priors，本文将其从iid推广到非iid模型，推导出一组偏微分方程（PDE）系统来刻画此类先验。进一步建立了此类先验存在的必要且充分条件，并提出了简单的构造程序。将方法应用于线性回归模型和嵌套误差回归模型（random effects model），模拟表明在小样本下Bayes估计量在asymptically unbiased prior下的frequentist性质显著优于默认先验。主要理论结果是非iid模型下asymptotically unbiased prior的PDE刻画与存在性判据；对您可能有用的是，二阶无偏性与您关注的HOIF和semiparametric efficiency的二阶理论有直接对应——两者都在做"一阶修正之后的二阶偏误消除"。
关键技术: asymptotically unbiased priors

4. 10.1093/biomet/asaf058 — Existence and applications of finite-population samples that are exactly balanced¶

作者: Yves Tillé, Louis-Paul Rivest
期刊/来源: Biometrika
分类: vol 112 · issue 4
相关性 3/10
摘要: 在有限总体抽样设定下，本文研究何时能选出严格满足平衡方程（balancing equations）的整数样本——这通常因整数约束而无解。核心结果是：若约束矩阵完全幺模（totally unimodular），则所有线性规划松弛的解自动为整数，严格平衡恒可实现；但该条件非必要，文中给出非 TU 矩阵仍可精确平衡的例子（如两层交叉分层）。三层交叉分层则不再保证精确解，但可通过追加约束将问题"变精确"。文中进一步将精确平衡与均匀随机抽取问题联系——这在随机图生成与 logistic 回归精确推断中有应用，并证明平衡不完全区组设计（BIBD）的构造本质上是同一类平衡抽样问题。
关键技术: totally unimodular matrix, balanced sampling, integer linear programming, unbiased controlled rounding, balanced incomplete block design, uniform random exact sample selection

5. 10.1093/biomet/asaf056 — Factor pretraining in Bayesian multivariate logistic models¶

作者: L Mauri, D B Dunson
期刊/来源: Biometrika
分类: vol 112 · issue 4
相关性 2/10
摘要: 本文研究高维二元结局的多变量 logistic 回归中的贝叶斯推断，estimand 为回归系数与因子载荷的后验分布。模型通过线性预测中引入潜在因子来诱导结局间依赖，条件于因子后各结局独立，形成半参数结构。核心方法利用"维度祝福"对潜在因子进行预估计（pre-estimation），从而将后验计算解耦为并行独立 logistic 回归，并采用 Gaussian approximation 加速回归系数与载荷的推断，同时引入简单校正使 credible interval 具有有效频率覆盖。理论证明了后验集中性质，实证显示模拟与马达加斯加节肢动物多样性数据表现优异。对您有用：该预估计+条件解耦策略与 semiparametric efficiency / debiased ML 中 cross-fitting 思路有结构相似性，可作为高维潜变量模型计算加速的参考。
关键技术: latent factor pre-estimation, Gaussian approximation for posterior, parallel logistic regression

Maintained by 陈星宇 · Homepage · Source on GitHub