JASA — Vol 120 Issue 550 · 2026-06-20¶
- 共 8 篇 · Journal of the American Statistical Association
- 目录核对 ⚠️ 疑似漏 51 篇(对照 OpenAlex 59 篇):10.1080/01621459.2024.2371978、10.1080/01621459.2024.2392906、10.1080/01621459.2024.2366030、10.1080/01621459.2024.2375037、10.1080/01621459.2024.2359131 等
本期导览¶
自动生成:归纳本期主要主题与脉络,不打分、不排名。
这一期共8篇论文,可按两条主线组织:(1) 因果识别与偏差校正(3篇),涵盖纵向非依从、匹配病例对照中的选择偏差与未测量混杂,以及EHR回顾性数据中的左截断;(2) 半参数/非参数建模与高维结构恢复(4–5篇),涉及稀疏贝叶斯组因子模型、网络时间序列的低维流形表示、非平稳空间变形过程,以及跨条件依赖混合模型。另有一篇关于成对排名聚合的隐私保护与去偏方法,可视为与因果推断中去偏思路有相通之处的独立工作。
在因果识别与偏差校正主线上,三篇论文分别针对不同类型的观察性偏差提出了识别与推断策略。《Latent Sequential Ignorability》在纵向数字通信中处理非依从与序列混杂,以分配意向为工具变量、结合贝叶斯依从分层估计策略级ATE;《Firearms in the Home》在匹配病例对照中同时处理未测量混杂与结果定义切换带来的选择偏差,构造了仅基于narrow case定义的随机化检验,再与broad定义合并进行敏感性分析;《Unlocking Retrospective Prevalent Information》针对EHR中发病年龄的左截断,通过成对伪似然保留患病个体的信息,避免传统方法因条件于完整历史而丢失数据,在有限样本下效率显著提升。三篇共同点是在非标准观测数据下为因果参数或回归系数构造可操作的推断程序,但使用的工具(IV、敏感性参数、伪似然)各有不同。
半参数/非参数建模主线上,多篇论文在灵活性与可解释性之间做了不同取舍。《Sparse Bayesian Group Factor Model》用Dirichlet过程混合的rounded kernel对多域计数表建模,通过Dirichlet-Horseshoe先验实现因子载荷的稀疏与组选择,在高维下兼顾变量选择与跨域交互捕捉;《Euclidean Mirrors and Dynamics in Network Time Series》证明网络序列的潜在演化可在欧氏空间中近似表示,从而将非参数流形学习嵌入经典变点检测与可视化;《GeoWarp》用B样条拟合区域垂直均值剖面,再通过三维空间变形刻画残差的非平稳各向异性,专为稀疏海底勘探数据设计;《Immune Profiling Among Colorectal Cancer Subtypes》的依赖有限混合模型通过共享原子与不同权重实现跨条件亚型比较,用分层Dirichlet先验显式刻画条件富集与共享。这些论文的方法论工具(DP混合、horseshoe先验、流形逼近、空间变形)虽各异,但都围绕“在非标准数据结构下恢复潜在低维结构或灵活分布”这一核心任务。
对因果推断方向,建议优先阅读《Latent Sequential Ignorability》与《Firearms in the Home》;对半参数效率或高维统计,可关注《Sparse Bayesian Group Factor Model》(稀疏收缩与半参数混合)和《Euclidean Mirrors》(非参数流形嵌入)。隐私排名聚合一文中自适应去偏的构造思路虽来自不同领域,但与因果推断中的去偏机器学习在修正扰动偏差的精神上可做类比。
因果推断 (causal_inference, 2 篇)¶
1. 10.1080/01621459.2024.2435655 — Inferring Causal Effect of a Digital Communication Strategy under a Latent Sequential Ignorability Assumption and Treatment Noncompliance¶
- 作者: Yuki Ohnishi, Bikram Karmakar, Wreetabrata Kar
- 期刊/来源: Journal of the American Statistical Association
- 机构: Cancer Research And Biostatistics · University of Florida · Florida College · University at Buffalo, State University of New York
- 分类: vol 120 · issue 550 · pp 685-697
- 相关性 8/10 · novelty:
new_method - 摘要: 在纵向数字通信(促销邮件序列)的观察性研究中,目标是估计确定性发送策略的 ATE,同时处理非依从(未开邮件)与序列混杂。核心设定为 latent sequential ignorability,允许时点间存在未测混杂,通过贝叶斯方法与 IV 思路(以分配意向为工具)实现 identification。估计采用贝叶斯纵向因果框架,结合 targeting rule 调整与依从分层,输出策略效应比较与最优策略推断。实证基于美国零售商数据,发现持续接收促销邮件能有效维持高依从用户的参与度,而一贯开邮件者对促销内容敏感度下降。对您可能有用:本文将 longitudinal CI 与 noncompliance/IV 结合于 latent ignorability 设定,是连接您 primary interest 中纵向因果与 IV 识别的应用案例。
- 关键技术:
latent sequential ignorability,intention-to-treat instrumental variable,Bayesian longitudinal causal inference,compliance subclassification,deterministic dynamic strategy evaluation - 为什么对您有用: 直接连接您 primary interest 中的 longitudinal CI 与 IV 子方向:本文在纵向设定下用意向分配作 IV 处理非依从,并在 latent sequential ignorability 下做贝叶斯 identification,是该子方向的实证范例。用您 very_familiar 的 estimation theory in causal inference 可审视其贝叶斯估计的效率性质与 frequentist 渐近对应,或用 moderately_familiar 的 identification theory 检查 latent sequential ignorability 的非参数识别条件是否完备。中期可做:若想从 frequentist semiparametric 视角重做此问题(如推导 longitudinal noncompliance 的 efficient influence function / DML estimator),需先在 moderately_familiar 的 semiparametric theory 上长肌肉。
2. 10.1080/01621459.2024.2441519 · arXiv — Combining Broad and Narrow Case Definitions in Matched Case-Control Studies: Firearms in the Home and Suicide Risk¶
- 作者: Ting Ye, Kan Chen, Dylan Small
- 期刊/来源: Journal of the American Statistical Association
- 分类: vol 120 · issue 550 · pp 698-709
- 相关性 6/10 · novelty:
new_method - 摘要: 在匹配病例对照研究中,目标是检验家中是否有枪支对自杀风险(broad case definition)的因果效应,但使用 narrow case definition(家中自杀)虽效应量大却可能因处理影响结局类型而引入选择偏差。本文提出新的敏感性分析框架,同时处理未测量混杂偏差与选择偏差:在控制未测量混杂对接受处理的效应以及处理对 always-cases 结局定义的效应这两个敏感性参数下,仅用 narrow case 匹配集构造有效的随机化检验。随后用 Bonferroni 法合并 broad 与 narrow 两种定义下的检验程序,并在枪支与自杀数据中发现稳健证据。对您可能有用:该框架将 selection bias 参数化并与 unmeasured confounding 敏感性分析统一,为流行病学匹配设计中处理 post-treatment selection 提供了新思路。
- 关键技术:
matched case-control design,selection bias sensitivity analysis,randomization-based inference,Bonferroni combination test,post-treatment selection bias - 为什么对您有用: 直接连接因果推断中的 sensitivity analysis 与流行病学应用:本文将 selection bias(因 narrow case 定义引入的 post-treatment bias)与 unmeasured confounding 统一参数化,是 sensitivity analysis 子方向的实质性推进。用您 very_familiar 的 identification theory 与 moderately_familiar 的 sensitivity/identification 理论即可审视其参数化假设的完备性与检验的保守性。立即可做:用 identification theory 视角分析其 always-cases 子群体的 identification 条件是否可进一步弱化,或探索 Bonferroni 合并之外的更优组合检验。
非参数 / 半参数 (nonparam_semipara, 2 篇)¶
1. 10.1080/01621459.2025.2449721 — Sparse Bayesian Group Factor Model for Feature Interactions in Multiple Count Tables Data¶
- 作者: Shuangjie Zhang, Yuning Shen, Irene A. Chen, Juhee Lee
- 期刊/来源: Journal of the American Statistical Association
- 机构: University of California, Santa Cruz · University of California, Los Angeles
- 分类: vol 120 · issue 550 · pp 723-736
- 相关性 4/10 · novelty:
new_method - 摘要: 在多域微生物组计数表数据设定下,目标是推断不同域微生物间的交互结构及协变量效应。作者提出稀疏贝叶斯组因子模型(Sp-BGFM),用 Dirichlet 过程(DP)混合的 rounded kernel(log-normal kernel)对计数向量做半参数建模,以灵活处理过度离散与零膨胀。组因子模型刻画混合核的协方差矩阵从而捕捉跨域交互;对因子载荷向量构造 Dirichlet-Horseshoe(Dir-HS)联合稀疏先验,在高维下显著提升变量选择与估计性能。理论层面依赖 DP 混合的半参数灵活性与 horseshoe 的收缩一致性,但未给出后验收敛率或 minimax 界。模拟与真实数据表明 Dir-HS 联合稀疏与 DP 基线建模的必要性。对您可能有用:其 DP 混合 + 联合稀疏先验的半参数建模框架可作为微生物组交互推断的参考,但理论深度有限。
- 关键技术:
Dirichlet process mixture,rounded kernel mixture model,Dirichlet-Horseshoe shrinkage prior,group factor model,joint sparsity,zero-inflated count modeling - 为什么对您有用: 本文属于半参数贝叶斯建模在微生物组计数数据上的应用,连接到 primary interest 的 semiparametric theory 子方向,但未触及效率界或 influence function 等核心工具。用您 very_familiar 的非参数统计视角可审视其 DP 混合核的建模合理性,但该文缺乏后验收敛率分析,您 moderately_familiar 的 M-estimation theory 无法直接攻其贝叶斯理论缺口。follow-up 判断:暂不可做——核心机器(贝叶斯非参数后验收敛率理论 / horseshoe 先验收缩一致性证明)不在武器库中,若要推进需先补贝叶斯高维收缩理论。
2. 10.1080/01621459.2024.2392912 · arXiv — Euclidean Mirrors and Dynamics in Network Time Series¶
- 作者: Avanti Athreya, Zachary Lubberts, Youngser Park, Carey Priebe
- 期刊/来源: Journal of the American Statistical Association
- 分类: vol 120 · issue 550 · pp 1025-1036
- 相关性 4/10 · novelty:
new_method - 摘要: 在动态网络模型设定下,每个节点具有时变低维潜在向量,连接概率为该向量的函数,目标是基于观测网络序列进行网络动态演化的推断与变点检测。作者证明在温和假设下,潜在向量的演化轨迹在适当距离下呈现低维流形结构,且该距离可用观测网络间的分离度近似,从而为底层网络结构提供了欧几里得表示(Euclidean mirrors)。该方法将非参数流形学习与网络拓扑结合,使得网络动态可视化及变点/异常检测可通过经典低维欧式空间中的统计方法实现。实证部分在组织通信网络中成功识别了对应疫情政策巨变的变点。对您可能有用:本文将高维网络序列映射到低维欧式空间的思路,与您熟悉的非参数统计和逆问题中的低维结构恢复有直接对应。
- 关键技术:
latent position network model,low-dimensional manifold structure,Euclidean mirror representation,network distance approximation,change point detection,nonparametric manifold learning - 为什么对您有用: 本文连接到非参数理论中低维流形结构恢复与逆问题推断的子方向;您 very_familiar 中的'逆问题与随机噪声'和'非参数统计'可直接切入本文潜在向量距离近似与流形表示的理论分析部分。判断:立即可做——用您熟悉的非参数 minimax bound 工具可验证其流形距离近似率的紧性,或拓展到更一般的连接概率函数形式。
流行病学 (epidemiology, 2 篇)¶
1. 10.1080/01621459.2024.2427431 — Unlocking Retrospective Prevalent Information in EHRs—A Revisit to the Pairwise Pseudolikelihood¶
- 作者: Nir Keret, Malka Gorfine
- 期刊/来源: Journal of the American Statistical Association
- 机构: Tel Aviv University
- 分类: vol 120 · issue 550 · pp 658-670
- 相关性 5/10 · novelty:
new_method - 摘要: 电子健康记录(EHRs)中,疾病发病年龄常因患者回顾性报告而存在左截断(delayed entry),标准Cox类方法无法有效利用这些回顾性患病(prevalent)数据。本文提出一种基于成对伪似然(pairwise pseudolikelihood)的回归系数估计量,通过构造所有可能受试者对的似然贡献来保留prevalent信息,而无需像传统方法那样条件于完整历史。文章给出了估计量的相合性和渐近正态性证明,模拟显示在有限样本下效率显著优于仅用incident数据的方法。在膀胱癌遗传风险变异复制分析中,新方法发现的显著关联数量约为传统方法的两倍。对您有用:该方法刻画的选择偏差(左截断)是流行病学因果推断中的常见问题,您可借助M估计理论框架分析其伪似然方程的影响函数,或进一步结合双重稳健技术提升鲁棒性。
- 关键技术:
pairwise pseudolikelihood,left truncation,delayed entry,retrospective prevalent data,asymptotic efficiency - 为什么对您有用: 本文聚焦于回顾性队列中的左截断问题,直接对接流行病学中的选择偏差与生存分析子方向。您非常熟悉的非参数统计与M估计理论可用于严格分析其伪似然估计的渐近效率界,甚至可以引入逆概率加权或双重稳健估计来应对模型误设。立即可做:您已具备阅读、复现并扩展该方法的全部技术工具(软件实现、渐近分析)。
2. 10.1080/01621459.2024.2427936 — Immune Profiling Among Colorectal Cancer Subtypes Using Dependent Mixture Models¶
- 作者: Yunshan Duan, Shuai Guo, Wenyi Wang, Peter Müller
- 期刊/来源: Journal of the American Statistical Association
- 机构: The University of Texas at Austin · The University of Texas MD Anderson Cancer Center
- 分类: vol 120 · issue 550 · pp 671-684
- 相关性 3/10 · novelty:
application - 摘要: 在早发(EO)与晚发(LO)结直肠癌(CRC)的转录组数据比较设定下,目标是识别在不同条件下富集的T细胞亚群与共享亚群。本文提出依赖性有限混合模型(dependent finite mixture model),通过共享原子但权重不同的机制刻画条件富集亚型,通过共享原子与相对权重刻画共享亚型,构成有限混合模型混合(MFMM)的变体。模型引入多层结构化 Dirichlet 先验实现跨条件显式比较,后验推断通过 MCMC 完成。模拟与真实数据应用识别出 EO-enriched 与 LO-enriched T 细胞亚型,其生物标志物与肿瘤进展机制相关。对您可能有用:本文提供了流行病学队列中跨组别比较亚群的贝叶斯混合模型框架,可作为因果推断中亚群异质性识别的补充视角。
- 关键技术:
dependent finite mixture model,mixtures of finite mixtures (MFMM),structured multi-layer Dirichlet prior,shared atoms with condition-specific weights,Bayesian posterior inference,immune cell subtype profiling - 为什么对您有用: 本文属于流行病学(结直肠癌早发/晚发亚型比较)的应用贝叶斯混合模型工作,数据与模型设定清晰,可作为 gateway reading 了解跨条件亚群比较的贝叶斯建模思路。研究者武器库中的 M-estimation theory 与 semiparametric theory 不直接适用于此贝叶斯框架,但 identification theory in causal inference 可为后续工作提供口子:将跨条件权重差异的识别问题转化为因果效应估计,用 semiparametric efficiency bound 替代贝叶斯先验约束。中期可做:需先在 moderately_familiar 的 semiparametric theory 上长肌肉,以构建该跨条件比较问题的频率学派效率化估计器。
其他 (other, 2 篇)¶
1. 10.1080/01621459.2025.2484843 · arXiv — Rate-Optimal Rank Aggregation with Private Pairwise Rankings¶
- 作者: Shirong Xu, Will Wei Sun, Guang Cheng
- 期刊/来源: Journal of the American Statistical Association
- 分类: vol 120 · issue 550 · pp 737-750
- 相关性 5/10 · novelty:
new_method - 摘要: 该论文研究在成对比较排名聚合中保护个体隐私的问题。设定中,受访者提供的成对比较经随机响应机制扰动,但扰动后数据不再服从原始比较模型,导致下游聚合产生显著偏差。方法上,提出一种自适应去偏方法,通过校正扰动分布以恢复对真实偏好的一致估计。理论上,建立了整体隐私保障与估计误差之间的 minimax 率达到最优,并给出了确定最优隐私水平的准则;还分析了部分排名(top-K)与全排名恢复的期望排序误差收敛速率。通过模拟和真实数据应用验证了方法的有效性。对您而言,其中的去偏思路与因果推断中的去偏机器学习(DML)在精神上相通,且 minimax 率分析可直接对应您熟悉的 minimax 界限工具。
- 关键技术:
Adaptive debiasing,Randomized response mechanism,Minimax rate,Rank aggregation,Privacy-utility tradeoff,Pairwise comparison model - 为什么对您有用: 该论文虽不直接匹配您的因果推断或高维统计兴趣,但其自适应去偏方法与 minimax 率分析为隐私机制下的估计问题提供了通用框架。利用您 very_familiar 中的 'minimax bounds for estimation problems' 可快速评估其理论最优性;利用 'estimation theory in causal inference' 中的去偏视角可类比理解方法设计。立即可做。
2. 10.1080/01621459.2024.2445874 · arXiv — GeoWarp: Warped Spatial Processes for Inferring Subsea Sediment Properties¶
- 作者: Michael Bertolacci, Andrew Zammit-Mangion, Juan Valderrama Giraldo, Michael O’Neill, Fraser Bransby, Phil Watson
- 期刊/来源: Journal of the American Statistical Association
- 分类: vol 120 · issue 550 · pp 710-722
- 相关性 2/10 · novelty:
application - 摘要: 在海上风电/管道等基础设施选址中,目标是从稀疏的锥探试验(CPT)数据推断海底沉积物的三维地质力学属性(estimand为3-D空间场)。挑战在于沉积物结构呈现强烈的非平稳性与各向异性。本文提出GeoWarp分层空间建模框架:将属性分解为区域垂直均值剖面(B-spline拟合)与残差3-D非平稳高斯过程;后者通过三维空间变形(warpping)与深度依赖方差来刻画非平稳与各向异性。交叉验证表明GeoWarp预测精度优于现有空间方法,并能生成工程可用的3-D模拟。对您而言,本文展示了空间变形与B-spline在复杂非平稳场推断中的工程应用,但核心是应用型空间统计而非因果/高维/半参数效率理论。
- 关键技术:
spatial warping transformation,nonstationary 3-D Gaussian process,B-spline mean profile,depth-dependent variance,cone penetrometer test data,cross-validation - 为什么对您有用: 本文属于应用型空间统计,与您primary interests中的因果推断/高维/效率理论无直接交集,仅B-spline与半参数建模有弱关联。您武器库中的nonparametric statistics与minimax bounds无法直接攻入本文的工程预测优化口子,因为其核心是空间协方差建模而非估计效率或收敛率。作为gateway reading,本文对您进入空间统计方向价值有限,不建议花时间读全文。
Maintained by 陈星宇 · Homepage · Source on GitHub