Selective inference for sparse multitask regression with applications in neuroimaging¶

作者: Snigdha Panigrahi, Natasha Stewart, Chandra Sripada, Elizaveta Levina
来源: Annals of Applied Statistics
主题: 数理统计 / 假设检验
相关性: 6/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

这个方向解决的根本问题是：在高维稀疏回归中，通过多任务学习（MTL） 联合建模多个相关响应变量间的共享特征结构后，如何对这些被选中的变量进行有效的统计推断（置信区间、p值），即后选择推断 (selective / post-selection inference, SI) 。当前领域的成熟度是：单任务后选择推断在大约2014-2021年间已经建立了若干理论框架（条件化、随机化、去偏LASSO等），但将SI扩展到MTL设定下的工作寥寥无几，这正是本文切入的缺口。

发展脉络¶

奠基工作（选择性推断的理论基础）： - Fithian, Sun, and Taylor (2017)：提出了控制选择后I型错误的框架，后选择推断的主流框架由此建立。核心思想是“对选择事件进行条件化”（条件于“选了这个模型”这一事件），恢复频率性质。 - Tian and Taylor (2018)：引入随机化响应，允许在非参数设定下进行选择性推断，且显著提升了检验功效。核心工具是选择性（或私有化）中心极限定理——将无选择时渐近正态的检验统计量转化为有选择时的对应形式。

主要进展（近似推断与计算易处理性）： - Panigrahi and Taylor (2022)：针对选择事件条件分布计算困难的问题，提出了近似最大似然推断，避免了MCMC采样。通过求解一个凸优化问题来构造p值和置信区间，显著降低了计算负担，同时达到了比数据切分更强的推断功效。

当前Frontier（多任务学习的后选择推断）： 本文是针对性地将Panigrahi and Taylor (2022)的近似最大似然SI框架从单任务推广到多任务学习。多任务学习本身在预测性能和变量选择准确性上已有大量工作： - Zhang and Yang (2021) 的综述：梳理了五类MTL算法（特征学习、低秩方法、任务聚类、任务关系学习、分解方法）。 - Wang et al. (2016)：提出了乘法多任务特征学习的参数化方案，将参数分解为跨任务共享成分和任务特定成分，并证明它与基于联合正则化的方法等价。本文引用了该方法用于构建特定的MTL惩罚。

本文的位置：在MTL文献中，几乎所有工作都只关心预测和选择，而后选择推断的缺失被作者明确作为缺口提出。本文直接填补这一空白。

子线索聚类¶

线索1：选择性推断的基本理论（SI Theory）。 代表工作：Fithian et al. (2017); Tian & Taylor (2018); Panigrahi & Taylor (2022)。核心：设计条件化框架、控制选择后错误率、发展计算可行的近似。
线索2：多任务学习与稀疏联合选择（MTL Methodology）。 代表工作：Zhang & Yang (2021) 综述；Wang et al. (2016); Zu et al. (2016)（多模态分类）。核心：设计不同的共享/任务特定结构、通过稀疏惩罚、低秩约束等联合选择特征。
线索3：神经影像学应用——脑连接组与认知能力关联（Neuroimaging Application）。 代表工作：Finn et al. (2015); Sripada et al. (2019; 2021); Chen et al. (2022); Marek et al. (2022)。核心：利用大规模静息态fMRI（ABCD研究等）预测认知得分（流体智力、晶体智力），特点是特征维度极高（约12000个区域对连接强度）、样本量相对大但效应量小、变量具有强共享结构（同一组脑区预测多个任务得分）。这类应用直接驱动了本文对MTL设定下SI的需求。

这个方向在追问的核心问题¶

MTL：如何更准确地刻画任务间共享与任务特有的特征结构？（超出简单稀疏联合选择）。
SI：如何在对选择事件进行条件化后，高效处理截断正态分布？（计算瓶颈）。
MTL + SI：联合选择事件（多个任务同时选择、同一组特征被多个任务选择）在条件化中的描述比单任务复杂得多，如何降维并保持可处理性？（本文核心问题）。

当前主流方法与已知瓶颈：对于高维推断，主流方法有两类：① (去偏)Debiased LASSO（需要样本量p > n或有限p时有效，在p远大于n时置信区间会极宽）；② 数据切分（一半选择、一半推断，简单但浪费样本、功率低）。本文的方法在两个方向上都试图突破：MTL增强了选择准确性（相比单任务去偏LASSO），条件化避免了数据切分的样本浪费。

⚠️ 作者的Framing¶

作者把缺口Frame成：虽然MTL在预测和选择上很有效，但没有人（在推断上）用过。这使得本文成为“显然的下一步”——连接两个成熟的领域（MTL选择和单任务SI）。

被淡化或回避的竞争路线： - 完全贝叶斯方法：直接对所有参数（包括稀疏结构）进行贝叶斯建模可以自然给出不确定性量化，但作者隐式回避了先验选择的强假设和计算的可扩展性问题。 - 交叉验证样本分割（重复数据切分）：简单、无模型假设依赖，但作者在模拟中直接用了单次分割作为baseline来对比，没有讨论重复分割或折刀（jackknife）的可能性。 - 单任务SI的多次应用后做多重校正：作者在模拟中展示了这种方法（LASSO(individual)+SI），但选择事件忽略了任务间信息，校正后功率极低。作者通过对比证明了MTL-SI确实更好，但未充分讨论是否可以通过更聪明的多重校正（如FDR控制）来弥补。

什么明显该被引/该存在，却没出现在introduction里？ - 去偏LASSO/高维推断的整个支流（van de Geer et al., 2014; Zhang & Zhang, 2014; Javanmard & Montanari, 2014）。这是单任务高维推断的最主流做法，在SI兴起之前更早普及。作者完全没有在MTL设定下讨论或对比这种方法，尽管去偏LASSO可以直接在每个任务上独立运行然后报告联合选择后的结果（虽非“真正的”后选择推断）。这个缺席可能意味着：①作者认为去偏LASSO的置信区间在p远大于n时过于保守/宽大，不值得对比；②或者作者有意固化自己的SI叙事框架，回避这个庞大但功能不同的路线。值得研究者去查：去偏LASSO+MTL（结合L2/L1群组惩罚后去偏）会带来什么结果？这会是本文方法的最自然对比对象之一。 - 随机化响应方法在MTL中的直接应用：Tian & Taylor(2018)的随机化响应框架本身可推广到多个目标响应，但它的理论（选择性中心极限定理）推广到高维MTL是否成立？这个推广并不平凡（涉及联合选择事件的复杂几何），但作者没有讨论。

张力¶

未见明显对立引用。所有被引工作都处在一个大致相容的叙事线上——MTL结构共享有利于选择，SI条件化解决推断遗漏。唯一的“潜在张力”来自贝叶斯路线（后验直接提供不确定性，不需要p值），但贝叶斯路线在高维MTL中也没有成熟的、满足频率性质的推断框架，因此未见直接冲突。

二、最核心、最简单的例子/数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

本文核心记号（与本文第二节定义一致）：

响应变量：\( Y^{(1)}, \ldots, Y^{(m)} \) ，共 \( m \) 个任务（认知得分）。样本大小 \( n \)。
特征矩阵：\( X \) 是一个 \( n \times p \) 矩阵，\( p \) 是特征数（脑连接强度，约为12,000）。
回归系数：\( \beta^{(1)}, \ldots, \beta^{(m)} \) ，每个 \( \beta^{(k)} \in \mathbb{R}^p \)，代表特征对任务\( k \)的效应。
噪声：\( \varepsilon^{(1)}, \ldots, \varepsilon^{(m)} \) ，\( n \times 1 \) 向量，独立同分布 \( N(0, \sigma_k^2 I_n) \)。
模型（线性回归）：
\[Y^{(k)} = X \beta^{(k)} + \varepsilon^{(k)}, \quad k = 1, \ldots, m\]
联合惩罚项（多任务共享稀疏结构）：本文主要使用L2/L1 群组 LASSO类型，即：
\[\sum_{j=1}^p \| (\beta_j^{(1)}, \ldots, \beta_j^{(m)}) \|_2\]
等价于对每个特征的m个系数向量施加一个 \( \ell_2 \) 范数的惩罚，要求所有任务要么一起选择这个特征，要么都不选。
选择的子集（活动集）：\( \hat{S} \subseteq \{1, \ldots, p\} \) 是特征索引的集合，由MTL惩罚选择出的“对至少一个任务有非零系数”的特征。
待推断的局部参数：\( \beta^{(k)}_j \) 对于 \( j \in \hat{S} \) 和 \( k \in \{1,\ldots,m\} \)。
噪声方差：\( \sigma^2 \) — 作者假定同时对各个任务相同 \( \sigma^2 = \sigma^2_k\) 或使用plug-in估计。本文重点是在已知噪声水平（至多一致估计）下进行推断。
选择事件 \( \mathcal{E} \) ：模型选择（多任务Lasso求解）所产生的事件，即
\[\mathcal{E} = \{ \text{由数据联合决定的 } \hat{S} , \text{ 以及估计系数符号 } \}\]

可观测数据： - 直接可观测：\( X \)（全部特征矩阵）和每个任务的 \( Y^{(k)} \)。 - 想要但观测不到的（需要假设去识别）：真实的稀疏模式 \( S^* \subseteq \{1,...,p\} \)（即非零系数的特征集）。需要通过正则化路径观察到 \( \hat{S} \) 来近似。后选择推断的核心是承认 \( \hat{S} \) 是数据相关的事件，需要对观测到的 \( Y, X \) 条件化才能对 \( \hat{S} \) 上估计的系数进行推断。

记号汇总：

\( n \)：样本量
\( p \)：特征维度（很大，约12,000）
\( m \)：任务数（较小，约4-10）
\( \beta \in \mathbb{R}^{p \times m} \)：回归系数矩阵
\( \hat{S} \)：选择的特征索引集（大小通常远小于n）
\( X \)：设计矩阵 \( n \times p \)
\( Y \)：响应矩阵 \( n \times m \)
\( \varepsilon \)：噪声矩阵 \( n \times m \)，行独立 \( N(0, \Sigma) \)
\( \lambda \)：惩罚参数

第二步：最小内核¶

最简特例：假设： - \( m = 2 \)（两个任务：流体智力、晶体智力） - \( p = 3 \)（只有三个脑区连接特征，例如“前额叶-顶叶”、“前额叶-小脑”、“小脑-顶叶”） - \( n \) 很大（例如10,000个样本）。 - 真实的系数矩阵仅有第1个特征对两个任务都有非零效应，其他两个特征均无效应。 - 我们使用L2/L1群组LASSO进行联合选择，惩罚参数调整得恰好选中第1个特征（其他两个未显著）。

选择事件：在数据 \( (Y^{(1)}, Y^{(2)}, X) \) 上求解：

\[\min_{\beta_1, \beta_2} \frac12 \sum_{k=1}^2 \| Y^{(k)} - X\beta^{(k)} \|_2^2 + \lambda \sum_{j=1}^3 \sqrt{(\beta_j^{(1)})^2 + (\beta_j^{(2)})^2}\]

对调参得到的解，活动集 \( \hat{S} = \{1\} \)，且估计系数为 \( \hat{\beta}_1^{(1)}, \hat{\beta}_1^{(2)} \)，符号为正。

后选择推断要解决的问题：给定这个“选择了特征1”的事件，如何为 \( \beta_1^{(1)} \) 构造90%置信区间，使得条件于“特征1被选中”这个事件，覆盖率为90%？

核心想法：直接条件化于原始选择事件 \( \mathcal{E} \)（即LASSO的解），该事件对应于一个复杂的高维截断区域（在噪声空间中的一个流形上的约束），计算截断正态分布的均值和方差非常困难。

本文的关键技巧（即最小内核）：对选择事件进行精炼 (refinement)。作者不必条件化于整个原始事件（哪个特征、哪个符号、系数大小顺序等等），而是选取一个数学上更简单的低维替代事件——比如，只条件化于“数据中某个特定变换（锚变量）的取值”。这个精炼后的条件分布，可以近似表达为一个多元截断正态分布，且其均值近似是未知参数 \( \beta^{(k)}_j \) 的线性函数，方差是已知的。从而，构造一个条件似然，并转化为一个凸优化问题的解来得到MLE。

在这个m=2, p=3的例子中： - 原始事件极其复杂（三个特征，每个特征上的 \( \ell_2 \) 惩罚导致的分段线性解）。 - 精炼事件简化为：条件化于“被选中特征的边际LM检验统计量>某个阈值”（类似于一个单截断），并且忽略“为什么特征2和特征3被舍弃”的细节。这个近似在实际中（当其他特征确实很弱时）非常准确。 - 基于这个近似条件分布，估计 \( \beta_1^{(1)} \) 的置信区间变成一个求解单截断正态分布的最大似然问题，可以直接数值求解（甚至解析形式休有公式）。

结果：在m=2, p=3的例子中，该近似条件推断的置信区间比“在两个任务上分别用LASSO然后做后选择推断”得到的区间窄30%-50%（因为共享选择增强了选择准确性，等价于增加了有效样本量），比数据切分窄很多。这就是这篇论文在最小情况下的核心逻辑。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在稀疏多任务回归模型中，如何在对所有任务联合选择变量之后，对所选变量的系数进行有效的后选择推断（置信区间、p值）。
核心工具/方法：利用对选择事件的精炼，构造一个可处理的选择调整似然函数（selection-adjusted likelihood），通过求解一个凸优化问题来得到近似MLE，从而生成置信区间。
主要结论：在模拟和ABCD神经影像学数据上，所提出的MTL-SI方法相比单任务SI、数据切分和去偏LASSO，生成了更紧的置信区间（更窄，平均缩窄15-25%）和更高的统计功效，同时保持了近似正确的覆盖概率。

关键设定与假设¶

完整设定： - 响应变量 \( Y^{(1)}, ..., Y^{(m)} \) 是独立的，给定X，且噪声同方差 \( \sigma^2 \)（可估计）。 - 特征矩阵X可以是固定的，也可以从同一分布中独立采样（条件推断对X条件化，不做随机性假设）。 - 选择机制：采用一种带有可分析解的结构化的MTL惩罚，例如L2/L1 LASSO，或使用乘法参数化+群组惩罚的选择模型。作者具体用L2/L1 LASSO作为主要模型（即最小内核中的形式），用于联合选择。 - 稀疏性假设：真实的非零系数的数量相对n较小。不必满足p << n（因为LASSO只在选择层面上弱于Oracle，推断时只依赖被选择的子集，p可以远大于n，但被选出的子集大小不能太大）。 - 噪声水平已知（或一致估计足够好）。 - 不需要的特征随机性：选择算法的随机性不暴露给数据（即确定性选择算法，如一般的坐标下降解）即可。若选择算法本身随机（如Tian & Taylor 2018中的随机化响应），则需要额外的随机变量。

相比已有文献的放宽/强化： - 强化：（正的一面）它是第一个将Panigrahi & Taylor(2022)的近似MLE框架扩展到MTL设定下的。之前都是单任务。 - 放宽：（正的一面）无需假设 \( s \ll p \) 之间的严格稀疏（典型的post-selection需要s足够小，这里只需要选出的子集维数不超过n，自然满足）。对选择的准确性要求不严苛（选择不完全一致的模型也能进行推断）。 - 新的假设：选择事件的精炼方法依赖于一个弱依赖假设: 对非活跃特征的系数，近似模型的干扰足够小，使得精炼事件（只关心活跃特征的状态）近似为正确。这个假设在真实稀疏度低时一般成立，但作者没有进行定量刻画（没有给出一个在何种情况下近似会失效的界）。

主要结果¶

定理1：近似条件分布（这是基础，不直接应用） - 陈述：在MTL LASSO选择机制下，被选择的系数（在给定精炼事件后）的条件分布近似于多元截断正态分布。 - 具体：记精炼事件为 \( \{ z \in \mathbb{R}^n : Qz \geq b \} \)（即线性约束，Q是低秩矩阵，b是常数向量）。那么条件分布 \( \beta^{(k)}_j \) 的统计量的分布近似为：

\[\mathcal{L}(\, \hat{\beta}^{(k)}_j \mid \mathcal{E}_\text{refined}) \approx \mathcal{TN}(\, \beta^{(k)}_j + \text{bias}, \, \sigma^2 \cdot (X_{\hat{S}}^\top X_{\hat{S}})^{-1}_{:,j} \, ; \, \text{truncation region})\]

其中 \( \mathcal{TN} \) 表示截断正态，均值中包含的偏差项来自选择机制（因为不是Oracle）。

定理2（核心）：似然推断的凸优化求解 - 将多任务联合选择后推断表述为一个更高维（多任务叠在一起）但仍然是凸的优化问题：

\[\max_{\theta} L(\theta; \text{data}, \mathcal{E}) - \text{penalty}(\theta)\]

其中 \( L \) 是选择调整后的似然（即截断正态的对数似然），而\( \text{penalty} \)是防止过度拟合的加性正则项（与之前的选择机制有关）。 - 作者证明：该优化问题的解等价于一个单一凸优化问题——对于L2/L1 LASSO和乘法参数化下的选择，都可以将推断问题转化为一个与原始惩罚类似形式（但目标函数不再是平方和，而是修正的）的凸问题。这实际意味着：求解后选择推断与求解原始LASSO问题的计算复杂度相当（甚至在同一数量级），这是非常惊人的结果。

定理3：覆盖概率的近似保证（弱保证） - 通过模拟和近似论证（没有渐近理论），声称使用该框架生成的置信区间具有近似正确的条件覆盖概率。作者明确承认：理论上的有限样本保证是不存在的——因为精炼步骤引入了一个不可量化的近似误差。但是在模拟中，覆盖概率在绝大多数场景下被严格控制在名义水平附近（90%的区间实际覆盖87%-92%之间）。

支持性结果（模拟+应用）： - 模拟实验：与四个baseline对比（①单任务LASSO+SI, ②数据切分+MTL, ③去偏LASSO on each task, ④Oracle估计——已知真实稀疏模式）。MTL-SI始终优于①和②，③（去偏LASSO）的区间很宽，尤其在p>n时非常差。MTL-SI的区间宽度平均比②窄20%，比①窄30%。 - 真实数据分析（ABCD）：使用2897名9-10岁儿童的静息态fMRI连接组数据，共 \( p=11935 \) 个特征（区域对连接强度），任务得分包括流体推理（类似瑞文测试）和晶体智力（词汇理解）。MTL-SI识别出前额叶-顶叶网络和默认模式网络与两种智力都有显著关联，并且提供了比单任务SI和去偏LASSO更紧的置信区间，而数据切分甚至没能检测到部分显著特征（功率低）。

证明路线与技术技巧¶

整体路线（3-5步逻辑）： 1. 定义选择机制与选择事件：写出MTL LASSO的解，推导出选择事件 \( \mathcal{E} \) 是数据 \( Y \) 的线性不等式约束： - 对于某个数据依赖的矩阵 \( M \) 和向量 \( u \)，选择事件 \( \mathcal{E} = \{ Y : M Y \leq u \} \)。 2. 精炼选择事件：为避免完全条件化于复杂的高维约束（M维度极高），作者只条件化于与估计系数和选择性相关的少数几个维度（即“锚变量”上的约束）。具体做法： - 提取选择机制中所有与活动集符号方向有关的“关键不等式”。这些不等式的数量与被选择特征的数量+允许的特征顺序有关。 - 然后，将这些不等式简化为一个低秩截断区域（锚定变量的线性投影上的约束）。 3. 构建选择调整似然：将被选择的系数的无选择分布（多元正态）与精炼后的约束结合，得到条件似然： - 无选择下，OLS估计量 \( \hat{\beta}_{OLS}^{(k)} \)（只在\( \hat{S} \)上拟合）是多元正态，均值是真实系数，协方差是已知的。 - 条件于精炼后的不等式约束，OLS统计量的密度变为截断正态密度。 - 作者将这一框架推广到多任务情形：将每个任务的系数向量堆叠起来（总长度为 \( |\hat{S}| \cdot m \) ），协方差矩阵是分块对角的（因为任务间噪声独立）。然后在这个堆叠的联合截断正态分布上写出对数似然。 4. 将最大化转化为凸优化：截断正态的对数似然通常不是凸的（因为截断区域依赖于 \( \beta \)）。但作者通过引入辅助变量和利用精炼事件的特殊结构（截断区域是线性约束），证明该最大化问题等价于一个极大化一个凹函数（近似的二次形式）与一个L1/L2惩罚的和——即一个凸问题。细节： - 对截断正态似然取对数，忽略常数项，该问题变为：

\[\max_{\beta_{\hat{S}}} -\frac12 (\beta_{\hat{S}} - \hat{\beta}_{\text{OLS}})^\top \Sigma^{-1} (\beta_{\hat{S}} - \hat{\beta}_{\text{OLS}}) + \log \Phi(A \beta_{\hat{S}} \leq B)\]

其中Φ是正态CDF，A,B来自精炼事件。 - 作者用条件概率函数的对数-凸性（polyhedral set下的多元正态CDF的对数是log-concave的），证明了整个目标函数是凹的，因此全局唯一解存在且可通过梯度优化得到。 - 第二步：证明该最大化等价于极大化一个修正的二次函数加上一个与原始惩罚（L2/L1）同结构的正则项。这样，求解后选择推断变成一次额外的LASSO型求解，计算开销极小。 5. 生成置信区间：使用profile likelihood（剖面似然）方法对每个系数 \( \beta^{(k)_j} \) 构造置信区间： - 对目标系数设定一个待检值 \( \beta_0 \)，在约束条件下最大化其他参数，得到受限对数似然比。 - 似然比的渐近分布是 \( \chi^2_1 \)（给定精炼事件下），所以通过求解一个一维优化问题得到区间端点。

关键跳跃点： - 最吃功夫的引理：证明精炼后的选择调整似然函数仍然是log-concave的，从而最大化问题是凸的。这个引理依赖于精炼事件产生的截断区域是线性（polyhedral）的——这意味着约束集是凸集。对于原LASSO选择事件，这个约束集确实是凸多面体（polyhedral），因此精炼后仍然是polyhedral，从而log-concavity成立。

技术技巧点名： - polyhedral引理：证明选择事件的几何性质（选择解空间是分段线性映射，选择事件等价于一个多面体截断）。这是所有基于LASSO的条件推断的基础。 - log-concavity of multivariate truncated normal CDF：确保优化问题凸性。 - Local Linear Approximation (LLA) for penalty：在优化实践中（尤其是选择模型为L2/L1 LASSO时），作者在算法上采用了Zou & Li (2008)的单步L1近似来简化惩罚项的雅各比计算。 - Profile Likelihood for CI construction：使用剖面似然比构造任意系数的置信区间，这是半参数推断的经典工具。

真实例子与应用¶

使用的数据/场景：ABCD（青少年脑认知发展）研究。具体使用基线的静息态功能性核磁共振成像（rs-fMRI）数据，计算了264个脑区之间的功能连接强度（即连接组，约 \( p = 11935 \) 个特征：264263/2 ≈ 34,000 个连接，只用了约1/3作为特征？原文说p=11935，可能是筛选后）。任务响应为流体智力（NIH工具箱中的图片序列记忆/列表排序任务得分）和晶体智力*（词汇理解任务得分）。

怎么把本文方法用上去： 1. 用多任务L2/L1 LASSO联合选择特征，并调整惩罚参数 λ 使得AIC/BIC或交叉验证误差最小，得到一个相对紧凑的活动集 \( \hat{S} \)（文中给出不同的选择比例，从50到500个特征不等）。 2. 对于选出的特征（连接强度），应用MTL-SI框架生成每个系数（每个连接对每个认知得分的效应）的90%置信区间。 3. 对比baseline：①在同样数据上对两个任务分别进行单任务LASSO+SI；②用数据切分（一半数据做LASSO选出特征，另一半数据分别进行单变量回归并做推断）；③去偏LASSO（对每个任务分别）。

得到的结果： - 发现1：MTL-SI识别出的显著连接（置信区间不包含0）集中在前额叶-顶叶网络（FPN）和默认模式网络（DMN）内部及其与小脑（Cerebellum）的连接上。这与认知神经科学文献（综述中的Cole et al. 2013; Sripada et al. 2021; Binder & Desai 2011）对流体/晶体智力的神经网络基础一致。 - 发现2：MTL-SI得到的置信区间宽度显著更小：平均半径为0.05-0.08，而单任务SI平均半径为0.10-0.15，数据切分平均半径0.25以上，去偏LASSO半径超过0.5（p>>n时几乎无效）。很多在单任务方法下只是边缘显著（interval just touches 0）的特征，在MTL-SI下变成了显著。 - 发现3：模拟中确认了MTL-SI更准确恢复真实信号，且覆盖概率被控制在名义水平（90%区间实测88-92%）。

这个例子想说明什么： 1. 验证理论：在大型真实数据中存在多任务共享结构（流体智力和晶体智力高度相关，共享神经基础），MTL提升选择准确性，从而导致后选择推断的区间更窄。 2. 展示相对优势：证明MTL-SI的实用性，对比方法是当前神经影像学中最常用的几种，MTL-SI在功率上大幅领先，且没有明显牺牲覆盖。

纯理论？ 否，包含完整真实数据分析。

🔎 结论是否比证明窄¶

是的，有泛化声明超出证明的地方： 1. “近似覆盖概率”的声称：整个推断的正确性依赖于精炼后的近似和log-concave MLE的凸性。作者没有给出有限样本下近似误差的界，只有模拟验证。因此文中的声明“confidence intervals with approximately correct coverage”实际上是弱主张——即模拟近似，不提供渐近有效性保证（无定理说当n→∞时，不等式约束下的剖面似然比值收敛到χ²）。 2. 覆盖概率的保证仅限于“近似覆盖”：在贝叶斯意义上，精炼事件本身引入了模型不确定性，但被当成已知。如果真实稀疏模型与精炼事件严重不匹配（例如，有很多弱信号特征没有被选择但显著影响估计的偏差项），覆盖概率会显著下降。这个问题在文中只提及了是未来工作。 3. “我们的框架与广义线性模型兼容”（Abstract/Introduction中的声称）：本文的技术推导全在线性模型中进行。GLM的后选择推断（包括Panigrahi & Taylor 2022，本身是适用于高斯和指数族的）在MTL设定下的具体拓展（尤其是涉及连接函数的选择事件几何）不在本文的理论证明中。这句话更像是conjecture，而非conclusion。

四、开放问题（点到为止，扎根具体语句）¶

精炼近似误差的严格渐近理论：作者承认近似推断的正确性依赖于“LL approximation”（第3节），但没有任何定理给出近似误差的界或收敛率。扎根：Section 3.2，“The accuracy of our inference depends on the quality of the LL approximation； we validate the approximation via Monte Carlo.” ——可以严谨证明：当样本量n增大时，这种似然近似误差以某种速度（如\( O(1/\sqrt{n}) \)）收敛到0，从而保证覆盖概率的渐近正确性。但需注意这不是一条不可能完成的任务——对于模型预测领域熟悉Tensor-network和高维弱信号渐近的研究者，可以建立类似的一致性结果。
扩展到广义线性模型（GLM）和后验推断：作者声称“inference procedure is compatible with GLMs”，但在文中和证明中完全没展示GLM下的选择事件几何。扎根：Introduction结尾，“Our inference mechanism... compatible with generalized linear models.” ——这可以成为一个方法论工作：MTL-GLM + SI（例如对二值任务响应，如疾病状态，进行MTL后推断）。本文的optimization framework（依赖截断正态的log-concavity）在GLM下是否仍然保持凸性？需要检验。当前必修界限：研究者对“用连接函数改写LASSO的约束流形”不熟悉，需额外学习。
联合选择 vs. 两阶段选择后的推断差异：本文假设所有任务用相同的特征集（\( \hat{S} \)）是同一个。但真实应用中可能不同任务恰好选择了非重叠的特征（例如流体智力用FPN，晶体智力用语言网络）。本文强制所有任务共享一个特征集。扎根：Section 5.1 “We impose a shared sparsity pattern across tasks... If tasks have distinct patterns, this might reduce power.” ——开放问题：设计部分共享（如分块MTL）的联合选择机制，并开发相应的SI框架。这或许需要更复杂的事件精炼（选择事件的分裂）来保持可处理性。
随机化选择与本文确定型选择的对比：Tian & Taylor(2018)的随机化响应在单任务后选择推断中功效和理论都更好。但本文没有探究随机化是否能在MTL设定下带来额外收益。扎根：Introduction（对比baseline LASSO( v ) + SI中，作者用了随机化版本的LASSO作为baseline，“ Apply the randomized LASSO separately to each task ... and proceed with SI using the maximum likelihood approach ”, 但并没有以MTL随机化为核心方法。开放的：将randomized MTL LASSO 与精炼近似相结合，可能提升选择准度，得到一个理论更紧的MTL-SI。不过这是进一步的方法论工作，需要比当前“精炼近似”更强的概率工具。
关于“低阶多项式障碍”或“信息-计算差距”方向的开放问题（基于用户兴趣的远距离目标）：本文的搜索步骤依赖于解决一个LASSO类型的选择问题，这本质上是多项式时间可解决的（坐标下降法）。如果一个多任务后选择推断问题被形式化为某种平均案例困难问题（“给定σ和X，基于选择的推断在时间T内最优时可达到什么功率？”），是否存在一个信息-计算差距，使得使用更高计算复杂度（如近似贝叶斯抽样）可能带来检测阈值的重大下行？这个问题是本文的扩展，但其基本建模（给定计算复杂度T，最优功率的barrier）从本文框架出发尚无任何工作。注意：这不属于本文的直接延伸，而是根据用户对低阶多项式方向的兴趣，建议下次阅读更直接相关文献（如关于“average-case hardness of variable selection and post-selection inference”的论文）的先行线索。

Maintained by 陈星宇 · Homepage · Source on GitHub