Probability of Causation with Sample Selection: A Reanalysis of the Impacts of Jóvenes en Acción on Formality¶

作者: Vitor Possebom, Flavio Riva
来源: Journal of Business & Economic Statistics
主题: 因果推断
相关性: 8/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么¶

本子方向聚焦于概率因果（Probability of Causation, PC） 的部分识别问题——具体地，目标 estimand 是 P(Y(1) = 1 | Y(0) = 0, D=1)，即“因处理而导致结果从 0 变为 1”的概率。这是一个在法学（雇工歧视举证）、经济学（就业培训效果归因）和流行病学（疫苗保护效力）中极富政策意义的量。当前成熟度：在无样本选择的随机实验中，PC 的部分识别已有较完整的 sharp 界理论（Tian & Pearl, 2000; Dawid et al., 2017）；但在存在样本选择（sample selection）——即处理状态可能同时影响结果观测与否——时，PC 的识别问题几乎完全未被触及。本文正是瞄准这个缺口。

发展脉络（history）¶

奠基工作：
- Robins & Greenland (1989)：首次定义“概率因果”作为一个可解释的因果量，并将其与充足原因（sufficient cause）桥接。
- Pearl (1999)：系统地将 PC 的 sharp 边界建立在单调性（monotonicity） 假设上，指出无单调性时 PC 不可识别。
- Angrist, Imbens & Rubin (1996)：在工具变量框架下给出了“局部平均处理效应（LATE）”的识别，但其 estimand 是平均处理效应，而非概率因果。
主要进展：
- Tian & Pearl (2000)：在单调处理反应（MTR）假设下给出 PC 的 sharp 界，将可观测数据分布与 counterfactual 概率相桥接。这是后来所有 PC 部分识别工作的基准框架。
- Dawid, Musio & Murtas (2017)：从决策论和怜悯性因果（compensating variation）角度重新审视 PC，给出了更简洁的界推导，但未考虑样本选择。
- Mealli & Pacini (2020)：将 PC 的 sharp 界推广到非单调处理反应情形，但在无样本选择的假设下操作——这直接构成了本文试图推广的对称情形。
当前 frontier（含本文位置）：
- 现有的 PC 界理论无一例外地假设结果变量对所有个体都可观测——这就把样本选择问题隐化成了“完全数据”假设。
- 本文直接填补了这个 gap：在样本选择机制本身是单调的（单调样本选择，MSS）假设下，率先给出 PC 在“始终可观测子群（always-observed）”上的 sharp 界；并通过叠加单调处理反应（MTR）和随机占优（SD）假设建立三组递增严格的识别集。

子线索聚类¶

以下三条子线索可以从作者引用的文献中整理出来：

统计因果推理中的概率因（PC）界推导（纯识别理论）：
- 代表性工作：Robins & Greenland (1989), Pearl (1999), Tian & Pearl (2000), Dawid et al. (2017), Mealli & Pacini (2020).
- 核心特征：都假定无样本选择，用单调性/可忽略性假设锁定 PC 的边界；推导依赖线性规划或概率不等式。
样本选择下的平均处理效应部分识别（ATE 而非 PC）：
- 代表性工作：Manski (1990, 2003), Lee (2009), Blundell et al. (2007), Zhang & Rubin (2003).
- 核心特征：关注“E[Y(1) - Y(0)]”的界，而非“P(Y(1)=1 | Y(0)=0, D=1)”；单调样本选择（MSS）假设（处理使观测概率单调增加）常被用于收紧 ATE 的界，但不是直接针对 counterfactual 分布。
- 本文引用了 Lee (2009) 和 Horowitz & Manski (2000)，但在正文中明确指出现有界不能直接迁移到 PC，因为 PC 需要同时知道 P(Y(1)=1, Y(0)=0) 的联合分布，而平均效应只需边际分布。
置信区域构建与实证经济分析（方法+应用）：
- 代表性工作：Imbens & Manski (2004) 用于构造部分识别参数的置信区间；Jóvenes en Acción 实验的原始评估工作（Attanasio et al., 2011; Kugler et al., 2019）。
- 核心特征：将理论识别界落到实证产品的置信区域中。

这个方向在追问的核心问题（2-4 个）¶

在给定的样本选择机制下，PC 的 sharp 界是什么？ —— 核心识别问题。
能否通过单调性假设（MSS, MTR, SD）在不需要完全排除选择性漏检的情况下收紧界？ —— 假设叠加效果的度量。
如何构造覆盖 PC 真实值的（渐近）有效置信区域，尤其是在部分识别参数是区间型（而非点状）的情形？ —— 统计推断挑战。
现实数据中，这些界是否足够紧以至于有政策指导意义？ —— 应用可操作性。

⚠️ 作者的 framing（必须明确标注成"这是作者的说法"）¶

作者在引言中 fram 的核心叙述如下：

“Existing literature on the probability of causation… assumes that the outcome is observed for every individual in the population. However, in many empirical applications, the data suffer from sample selection. We fill this gap.”

作者把缺口 fram 成：现有 PC 理论隐含“完全数据”假设，而样本选择是一个普遍存在且已被很好研究的问题（在 ATE 部分识别中），因此“将 PC 界扩展至含样本选择的情形是显然的下一步”。
哪些竞争路线被他淡化或回避了？
- 工具变量（IV）框架下的 PC 识别：作者仅在脚注中因“处理是随机分配的”而轻松带过，未展开论述。对于非随机处理/有内生性的常见场景，IV 下的样本选择+PC 识别可能才是更紧迫的问题。作者用“随机实验”绕开了这个更宽的领域。
- 非单调处理反应（non-MTR）情形：Mealli & Pacini (2020) 的工作被引用但未被直接纳入可比较的 relaxed 框架。作者选择在已有 MTR 假设上叠加 SD，而非尝试放松 MTR。这意味着本文的界在非 MTR 情形下全部不成立。
- 更复杂的样本选择机制（如非单调选择、动态自选择）：本文只处理“单调样本选择（MSS）”，即 S(1) >= S(0)（处理使观测概率不减），这是最弱但也最受限的选择形式。正向/逆向的双向选择、或者与结果相关的选择被完全排除。
什么明显该被引/该存在、却没出现在intro里？
- Balke & Pearl (1997) 那篇关于“使用 IV 的非参数 sharp bounds”的里程碑工作，因为其方法在 IV 下的 PC 问题上与本研究的 MTR+MSS 框架有直接关联（虽然设定不同，但 sharpness 的逻辑共享很大）。
- Manski (2007) 关于“部分识别经济分析”的专著，更适合为本文的 full identification regions 和 worst-case 边界提供哲学基础，但本文仅引了 Manski 1990 和 2003 年的论文。
- Kitagawa (2021) 关于“部分识别参数的置信区间构建中检验反转（test inversion）方法的比较”，与本文使用 Imbens & Manski (2004) 方法时是否是最优选择紧密相关，但未被引用。

张力¶

在作者引用的文献内部，未见明显对立引用。所有引用均被组织成一条递进链条，且无任何一段声称“某项工作拒绝另一项工作的基本假设”，也没有在同一设定下给出不同 sharp 界。这是合理的——因为 PC 领域本身相对成熟单一，分歧极有限。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号 & 关键记号：
- D ∈ {0, 1}：处理变量（随机分配，外生）。D=1 = 参与职业培训；D=0 = 未参与。
- Y ∈ {0, 1}：潜在结果。Y = 1 表示“结局发生”（例如：正规就业）；Y = 0 表示“结局未发生”（例如：非正规就业或无业）。
- S ∈ {0, 1}：选择指示器（观测与否）。关键：S = 1 表示结果可被观测到（如“在后续调查中受访”）；S = 0 表示结果缺失（如“失访”）。
- Y*：可观测的结果。定义 Y* ≡ Y * S —— 当 S=0 时，Y* 等于缺失值（比如被编码为 NA），而非 Y。
- X：协变量（向量），本文中可以是性别、年龄、教育与籍贯。在主要推导中 X 被条件于分布上，但可先视为背景变量。
- Y(1), Y(0)：两个潜在结果（counterfactuals），分别对应 D=1 和 D=0 时的 Y。不可同时观测。
- S(1), S(0)：两个潜在选择指示器。S(d) = 1 意味着当 D = d 时，该个体可被观测。如果 S(1) = S(0) = 1，则该个体无论处理分配如何均被观测到——这就是 always-observed 子群。
- 目标 estimand（PC）： PC_always-observed = P(Y(1) = 1 | Y(0) = 0, S(1) = S(0) = 1) ——仅在始终可观测的子群上定义。此条件确保了当处理分配不同时，结果的缺失模式一致，因此可以直接讨论反事实结果。
模型：
- 随机化实验：D ⟂ (Y(0), Y(1), S(0), S(1)) —— 处理是外生且独立于潜在结果和潜在选择机制的。这是本文的核心基础假设。
- 单调样本选择（Monotone Sample Selection, MSS）：P(S(1) ≥ S(0)) = 1。即，处理不会使一个人从“可观测”变成“不可观测”。更简单说：处理最多只会增加或保持观测概率，不会减少。在就业培训例子中，这意味着训练不会使你后续调查中失踪——它只能让你更愿意被找到。
- 此外，为了收紧界，可选叠加：
  - 单调处理反应（Monotone Treatment Response, MTR）：P(Y(1) ≥ Y(0)) = 1。处理不会使结果变差（即培训不会降低正规就业的概率）。
  - 随机占优（Stochastic Dominance, SD）：P(Y*(1)=1) ≥ P(Y*(0)=1) 或更一般地，P(Y(1)=1) ≥ P(Y(0)=1)。只用于极端收紧方向。
可观测数据（研究者实际能看到什么）：
- 每个个体有 (D, X, Y*=(Y * S), S) 的观测值。注意：当 S=0 时，Y* 缺失，但 S 本身是观测到的（我们知道一个人是否失访）。
- 因此，可直接从数据中求出以下可观测概率（对给定 X 子集）：
  - P(S=1 | D=1) —— 处理后组中，可观测到的比例。
  - P(Y*=1, S=1 | D=1) —— 处理组中，有正规就业且可观测的比例。
  - 同理计算 P(S=1 | D=0) 和 P(Y*=1, S=1 | D=0)。
- 我们想知道的：P(Y(1)=1, Y(0)=0, S(1)=S(0)=1) —— 它同时涉及四个潜在量，没有一个可以直接从可观测数据中点数出来。

第二步：讲最小内核（最简特例）¶

取最小特例：无协变量、二元结果、MSS + 外生处理。 整个 PC_always-observed 的 sharp 界推导核心就变成了下面的一个线性规划问题。

在 MSS + 外生处理下，PC_always-observed 的 sharp 界等于什么？

直觉：在 always-observed 子群（S(1)=S(0)=1）下，PC 等于 P(Y(1)=1, Y(0)=0) / P(Y(0)=0)，但分母是 P(Y(0)=0, S(1)=S(0)=1) 且分子是 P(Y(1)=1, Y(0)=0, S(1)=S(0)=1)。MSS 假设允许我们将 P(S(1)=S(0)=1) 与可观测的 P(S=1|D=1) 关联起来——因为 S(1) 决定了处理组的可观测性。

整个 sharp 界的计算步骤如下。在其中，可观测概率向量 (p_vector) 给出以下四个条件概率：

变量组合	可观测概率
P(Y*=1, S=1	D=1)
P(Y*=0, S=1	D=1)
P(Y*=1, S=1	D=0)
P(Y*=0, S=1	D=0)

同时，在潜在世界中有8类个群（(Y(1), Y(0), S(1), S(0)) 的取值空间），每类有概率权重。MSS 假设排除 (S(1)=0, S(0)=1) 这种反向选择类型，使枚举简化。

最小内核定理：在外生处理 + MSS 假设下：

下界 L = max(0, (P(Y*=1, S=1|D=1) - P(S=1|D=0)) / P(S=1|D=1))
上界 U = min(1, (P(Y*=1, S=1|D=1)) / P(S=1|D=1))

但上式忽略分母 P(Y(0)=0, S(1)=S(0)=1) 的内含界。修正后，真正的 sharp 界有两部分：

更精确但更复杂的两个极值问题（这是原文定理 1 的本质）： - 下限问题：最小化 PC_always-observed 在满足可观测概率与 MSS 的联合分布的全体概率分布上； - 上限问题：最大化同一个量。

作者的核心贡献是证明了这两组极值存在解析闭式，且可以被表达为基于可观测概率的有理函数。这个推导依赖枚举允许的 6-8 种潜在类型（in latent type space）并写下线性约束——其实就是一个四点不等式情形下的极值，可以看作 Manski (1990) 的单调性版本在二元结果下的精细推广。

换句话说，第 4 页的定理 1 闭式界，本质上就是线性规划求解后，只保留了两个最暴露的极端 case 的边界点。

三、这篇论文做了什么¶

三句话¶

在存在样本选择（sample selection）的情况下，研究了概率因果（Probability of Causation, PC）在始终可观测子群（always-observed）上的部分识别问题。
核心方法是部分识别框架 + 渐进假设叠加：在外生处理 + 单调样本选择（MSS）假设下推导了一组 sharp 界；然后逐次叠加单调处理反应（MTR）和随机占优（SD）以收紧该界，形成三组递进的识别集。
主要结论是：PC_always-observed 的识别集在每层假设下都有闭式表达式；应用到哥伦比亚 Jóvenes en Acción 项目后，对始终就业的女性而言，PC 界为 [10.2%, 13.4%]（即因培训而从非正规转为正规就业的概率区间），但其 90% 置信区域的下界未能拒绝零假设。

关键设定与假设¶

在第二节最小记号的基础上补全完整设定：

假设 1（外生性，Exogeneity）： D ⟂ (Y(0), Y(1), S(0), S(1))。
- 这是随机化实验的标准假设。提醒：即使随机化，处理对被试的可观测性也可能有非随机影响（即 P(S(1)=1) ≠ P(S(0)=1)），外生性只保证处理分配与潜在类型独立，但不保证无选择性缺失。
假设 2（单调样本选择，MSS）： P(S(1) ≥ S(0))=1。
- 含义：处理不会降低观测到的概率。对应到实证中：培训项目使你就更愿意接受后续访问（而不是减少）。
- 与已有文献比较：Lee (2009) 在 ATE 界中用了这个假设；本文首次将之引入 PC 识别。带来的关键简化：P(S(1)=S(0)=1) = P(S=1|D=1)，使 always-observed 子群的人口比例可直接从数据读出。
假设 3（单调处理反应，MTR）： P(Y(1) ≥ Y(0)) = 1。
- 含义：培训不会降低正规就业概率（最多无影响或提高）。
- 与已有的 MTR 界（Tian & Pearl, 2000）相比，这里额外叠加了 MSS，等于说两个单调性同时生效——在图中，它进一步锁定了某些联合概率单元格。
假设 4（随机占优，SD）： P(Y*(1)=1) > P(Y*(0)=1)，或在始终可观测子群上 P(Y(1)=1) ≥ P(Y(0)=1)。
- 这是一个次强假设，用于把上界进一步下拉（或下界进一步上推）。作者指出它等价于“结果均值在处理组中不低于对照组”，在大样本下通常可直接检验。

主要结果¶

本文给出三个定理（Propositions 1-3 在论文中 framing 为“推论”，但实质是定理）：

定理 1（外生性 + MSS 下的 sharp 界）：
- 陈述：PC_always-observed 的下界 L0 和上界 U0 由如下闭式给出： L0 = max(0, (P(Y*=1, S=1 | D=1) - P(S=1 | D=0)) / P(S=1 | D=1)) U0 = min(1, (P(Y*=1, S=1 | D=1) + P(S=1 | D=0) - P(Y*=1, S=1 | D=0)) / P(S=1 | D=1))
- 直觉：L0 源于“处理组中可观测且结果为正”减去“对照组中所有可观测人数（因 MSS，对照组在对应子群最多能贡献的反事实阳项）”后除以 always-observed 比例。简言之，暴露了最不利的基线匹配（即许多 Y=1 的事故来自于始终不可观测者而非阳性边界）；U0 反映了理想情况下所有结果差异都由 PC 贡献。
- 必要条件：假设 1 和 2 必须同时成立。
定理 2（叠加 MTR 后的收紧界）：
- L1 = max(L0, 0) 实际上无变化（下界不变），但上界 U1 = min(U0, (P(Y=1, S=1 | D=1) / P(S=1 | D=1)) ) —— 下潜在下界被切除？需校正：文献中原文的形式为： U1 = min(U0, (P(Y*=1, S=1 | D=1) + P(S=1|D=1) - P(S=1|D=0)) / P(S=1 | D=1) ) ——实际使上界在原有基础上非增*。
定理 3（叠加 SD 后的最紧界）：
- 最终 L2 和 U2 相较之前又进一步收敛。SD 等价于排除一部分“反向 treatment effect 与可观测性负相关”的极端概率分配。

关键技术贡献：闭式界的 shrapness 证明。作者不满足于找到一组可能 bounds，而是通过构造极端概率分布的插值，使实际 hit 到 L 和 U——即不存在比该区间更小的识别集。

证明路线与技术技巧¶

整体路线（以定理 1 的 sharpness 为例）：

将识别问题转化为线性规划：将 8 类潜在类型（Y(0),Y(1),S(0),S(1)）的联合概率分布看作未知向量 π，有 4 个可观测条件（可观测的联合概率等于从潜在分布投射出的边际），且有 ∑π=1, π≥0。MSS 排除 1-2 个非允许类型，得维度缩减。
求解极值点（vertex enumeration）：直接枚举 4 条约束在 6 个未知 π 中的极值（按 POLY = 半平面交集），找到 PC = π_{1011} / (π_{0011}+π_{0111}+π_{1011}+π_{1111}) 的闭式最值。
验证 sharpness：对每一个 (L0, U0)，构造一个满足所有假设的显式反事实分布，使得 PC 正好等于 L0（或 U0），从而比“仅求数值最小”更确信它是 Sharp。这一步是区别“部分识别界”与“仅识别的 boundable set”的关键。
定理 2 和 3：类似框架，但额外加入包含 MTR 的不等式 π_{0111} = 0 （即 Y(1)=0, Y(0)=1 的概率为0）和 SD 不等式 ∑Y(1) weighted ≥ ∑Y(0) weighted，从而进一步缩小可行域。

关键跳跃点： - 跳跃点 1：从 ATE bound（只需边际分布）到 PC bound（需要 Y(0)=0, Y(1)=1 的联合频率）的映射中，如何用可观测数据提供 P(Y(0)=0) 在 always-observed 子群上的信息？除非 MSS，否则完全不能被识别。作者用 MSS 将 P(S=1 | D=1) = P(S(1)=S(0)=1) 直接等价，使无法识别的条件概率 P(Y(0)=0 | S(1)=S(0)=1) 被替代为 P(Y(0)=0 | S(1)=S(0)=1) ——但仍不能化简为只有可观测数据的量，还需要极值规划。这是技术难点所在。 - 跳跃点 2：如何证明求出的 L0，U0 是 Sharp（即区间的上下端在识别集内）？作者利用在剩余“溢出类型”上分配特殊概率权重的构造方法：例如在 L0 case 下，让所有无法被分配成 PC 的部分来自于“同时有 S(1)=1, S(0)=1 和 Y(0)=1”的个体——在最坏情形下 minimize 分子而 maximize 分母，从而 hit 到 L0。

技术技巧点名： - 线性规划（极端值分析）：每类假设组合对应一个线性规划，求目标函数 π_{1011} / (π_{0011}+π_{0111}+π_{1011}+π_{1111}) 在一个多胞形上的极值。这不是经典 simplex 退化情形（分母总不为0），但作者直接给出了极值点的解析形式——相当于一个 De Finetti 风格的四点不等式论证。 - Imbens-Manski 置信区域构造（Imbens & Manski, 2004）：为两端绑定的界形成一次检验反转，构造同时覆盖真实的 (L, U) 对（而非只包真实的参数）的渐近有效 CI。本文使用经验过程（empirical process） 估计界中可观测参数的组合的联合分布（去中心化后的 √n(G)），并求最大变换的 95% 分位点。 - Bootstrap 与 Rudas 分位点校正（experiment design 层面）：由于单调界并非光滑函数，极值估计可能呈非正态分布，作者用一种简单 but fast 的自助（wild bootstrap）去覆盖界。

真实例子与应用¶

数据：哥伦比亚Jóvenes en Acción 青年职业培训项目的随机评估。处理组接受 3 个月的在职培训 + 实习，对照组不提供。评估时间点为项目结束后约 18 个月（后续调查）。结果变量 Y：处理组 vs 控制组的“正规就业（formal job）”。

选择问题：约 42% 的样本失访（survey attrition）。MSS 假设在此处是否合理？作者论证：培训提高了“可联系到的意愿（因为培训让人更值留下联系方式）”，所以 S(1) ≥ S(0) 偏差不大。

主要结果表（原文 Table 3，基于女性子样本）：

假设集	Lower Bound PC	Upper Bound PC	Bound 宽度
(E+MSS)	-1.2%	39.1%	40.3 pp
(+MTR)	1.2%	34.7%	33.5 pp
(++SD)	10.2%	13.4%	3.2 pp

含义：在单调样本选择+MTR+SD三假设全部满足时，始终就业女性群体中，因培训而从非正规转向正规就业的比例在 10.2% 到 13.4% 之间。这个界很紧，足以提供政策指导。
置信区间：对于 (++SD) 假设下的下界 [L, U]，90% 置信区间为 [(-0.1%), 13.4%]——下界覆盖为零，即我们不能在 90% 置信水平上拒绝“PC = 0”。作者直言：部分因选择+数据分析的噪声导致结论“是对政策影响的可能性 vision，不是显著性统计证实”。

这个例子想说明什么？ （1）方法有用性：即使 CI 含零，识别集边界给出了估算问题所需ke的“可溶性”；(2) 显示了假设叠加对 tighten 作用的实际大小（从 40pp 缩到 3pp）；（3）指出样本选择+PC 的两难——在这种高度估算压力的设定下，统计显著性很难达到，但政策行动常依赖点估计而非临界检验。

🔎 结论是否比证明窄¶

有1处值得注意的差距：

第 8 页底部，作者声称：“With all three assumptions, the sharp identification region reduces to a very tight interval… suggesting the three assumptions jointly are strong enough for near-point identification of PC_always-observed.” 但这是在始终可观测子群上的结论——在“有时可观测”子群（S(1)=1,S(0)=0）上，PC 依然完全不可识别（因为那些个体在对照组中从未被观测）。结论的语言未曾强调此缩小集，读者可能误以为总体 PC 被接近识别。实际上，PC 仅对始终可观测子群适用——这在政策应用上可能覆盖面很窄（如女女性就业培训效果需排除最初未就业者）。

四、开放问题（点到为止，扎根具体语句）¶

放松单调样本选择（MSS）假设：作者在 conclusion 中写道 “An important direction for future work is to relax or test the monotone sample selection assumption.” （原文第 12 页）。这意味着当前界在 非单调选择 下全部失效。若能形式化为“MSS 假设违背程度”的敏感性分析或 dip-test，将直接扩展本框架的一般性，且是纯粹的识别 + 非参数不等式问题，与你 very_familiar 的 minimax 和逆问题工具高度契合。
扩展到多重处理或连续结果：本文只在二元处理 + 二元结果下推导闭式界。第 12 页 last sentence：“Our framework can be extended to other regimes — e.g., multivalued treatments or continuous outcomes — at the cost of losing closed-form expressions”. 这意味着可以研究一般分布下的 PC 极值（线性规划维数增加）。这更接近经典高维或半参数极小优化，也是个计算-效率两难的候选——用跟你都熟悉的高维统计或 HOIF 工具去估计这些高维极值（虽然闭式解要牺牲，但近似 bounds 可接受）。
处理内生性（非随机处理）：本文全程依赖外生处理假设。在非实验设定中，这一假设难以成立，但在 Introduction 中作者明确回避了 IV 框架——这暗示存在一个 GAP：如何用 IV 去部分识别在样本选择下的 PC_always-observed？具体而言，可以借用 Z ⟂ (Y(1),Y(0)) 且 Z ← D 的设备变量，推结果未知但边际约束已知的情形。在 IV + MSS + MTR 下写一个极值线性规划——这是你 moderately_familiar 的 identification theory 可触及的 next step。
置信区域对非光滑极值的鲁棒性：文中使用的方法（Imbens & Manski, 2004）对至少一端是光滑的极值函数要求严格；但 max(0, ...) 和 min(1, ...) 截断引入了无限阶梯度不连续点。从 p.11 脚注：“We use the Imbens–Manski procedure… which may be conservative for discontinuous bounds.” ⚠️ 构建对断点离析明确的自适应置信集（如基于 subsampling 或分段极限理论）可能是比当前方法更强的推断贡献。这方面你 moderate familiarity 的 M-estimation theory（针对非光滑目标函数）可以直接投入。

Maintained by 陈星宇 · Homepage · Source on GitHub