Bounding Causal Effects for Ordinal Outcomes Under Positive Dependence¶

作者: Micha Mandel, Daniel Rodan
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.15754

一、领域脉络与小综述¶

这个方向是什么¶

有序结局（ordinal outcome）的因果推断中，标准的平均处理效应（ATE）因缺乏区间尺度意义而不适用。研究者转而关注基于联合分布的因果量，如 \( \tau = P(Y(1) \ge Y(0)) \) 和 \( \eta = P(Y(1) > Y(0)) \)，它们直接比较个体水平上的优劣。问题在于联合分布不可观测，这些量无法点识别，只能获得部分识别（partial identification）的边界。已有工作给出了仅依赖边际分布的 sharp bounds，但区间往往很宽，实用价值有限。为了收紧边界，有学者提出在“正依赖”假设下使用独立工作假设对应的 lower bounds，但“正依赖”到底需要多强才能保证这些 bounds 有效，此前并无理论分析。本论文填补了这一空白，并提出了更实用的局部依赖假设来收紧边界。

发展脉络¶

奠基工作：Rubin (1974) 建立了潜在结果框架，将因果效应定义在个体层面，但未处理有序结局的特殊性。Fan & Park (2010) 推导了连续型 outcome 下处理效应分布函数的 sharp bounds，为本论文的连续扩展提供了起点。
有序结局的 sharp bounds：Lu et al. (2018) 给出了 \( \tau \) 和 \( \eta \) 的 sharp bounds（本文命题1-2），并观察到在“正依赖”假设下，独立假设下的 bounds 可以大幅度收紧，但未说明“正依赖”具体需要什么条件。作者写道：“Lu et al. suggest using independence-based lower bounds … under the assumption of positively correlated potential outcomes. While these bounds can substantially improve upon the model-free bounds, the precise positivity assumption required for their validity is not discussed.”
其他相关 estimands 与 bounds：Chiba (2017) 给出了有序结局的另一组 sharp bounds，Huang et al. (2017) 考虑了结构零点的情形，Cheng (2009) 研究了多分类处理效应，Lu et al. (2020) 给出了相对处理效应的 bounds。这些工作从不同角度丰富了可处理的因果量，但都停留在边际分布给出的结论，未解决“依赖假设需要多强”这个核心问题。
本文位置：作者在 Lu et al. (2018) 的观察基础上，系统检验了经典正依赖概念（PQD、PRD），发现即使 PRD 也不足以保证独立 bounds 成立（给出反例），然后提出新条件 Diagonal Tail Dominance (DTD)，证明其充分性；接着指出 DTD 太强，再引入 local DTD，推导出更紧的 partial bounds。这是首个从依赖结构角度系统论证有序结局因果 bounds 有效性的工作。

子线索聚类¶

边际 bounds 方法：Lu et al. (2018), Chiba (2017), Fan & Park (2010) —— 仅用边际分布构造 sharp bounds，不假设依赖结构。
依赖假设与 bounds 收紧：本论文的核心线索——探讨在何种依赖假设下独立式的 bounds 可作为下界，提出 DTD 和 local DTD。
其他有序因果量：Huang et al. (2017) (结构零点), Lu et al. (2020) (相对效应), Cheng (2009) (多分类) —— 处理不同具体 estimand，但在依赖假设方面未深入。
评分法/二值化：Benkeser et al. (2021), Rebchuk et al. (2020) —— 通过赋分或二值化将有序问题转化为区间或 binary 问题，但本质改变了问题，且赋分选择影响结论（作者在引言中用 Rebchuk et al. 的例子说明此问题）。

这个方向在追问的核心问题¶

对于 \( \tau \) 和 \( \eta \)，是否存在比 DTD 更弱的充分必要条件？论文已指出 DTD 不是必要的（“sufficient but not necessary”）。
在存在协变量 \( Z \) 的情形下，如何将 DTD / local DTD 的条件转化为可检验的可识别约束（如利用 covariate-specific bounds 后的交叉检验）？
连续结局的 DTD 定义（作者在讨论中给出）是否等价于某种正则条件？其与 copula 依赖结构的关系如何？
如何将局部 DTD 的 bounds 推广到多个处理或序贯设定的情境（如 mediator、longitudinal）？

⚠️ 作者的 framing¶

作者将缺口 frame 成：“Lu et al. 提出独立 bound 可以作为低层，但并未说明需要什么依赖条件；我们发现即使 PRD 也不够 → 我们提出 DTD（充分但不必要）→ DTD 太强 → 我们提出 local DTD 给出更实用的 tighter bounds”。这样，他们的贡献就成为“填补理论缺口 + 提供更实用工具”的显然下一步。
被淡化/回避的竞争路线：作者在引言中提到“Regression models, such as the proportional-odds model, yield estimates that are not easily interpreted in the potential-outcomes framework because of the noncollapsibility of the odds ratio”，一笔带过了另一种主流方法（回归建模），并声明“We focus on bounds based on marginal probabilities and on theoretical properties of P, without considering important issues such as confounding, compliance, and inference”，主动缩小了范围。
值得研究者查的问题：论文引用了 Fan & Park (2010) 的连续 bound，但没有引任何关于 copula 模型 处理有序结局因果的工作（如基于高斯 copula 或铝巴 l 阿基米德 copula 的识别），也没有引 sensitivity analysis 文献中关于秩相关偏约束（如 Rosenbaum 的 gamma 灵敏度）的内容。这些被遗漏的路线可能提供另类依赖假设，值得检查是否被刻意回避。

张力¶

未见明显对立引用。各篇 work 在同一框架（潜在结果 + 边际 sharp bounds）下互补，没有直接矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚¶

符号：
\( Y(0), Y(1) \)：潜在结果，取值于有序集合 \(\{1,2,\dots,J\}\)，数值越高表示“越好”。
\( p_{jk} = P(Y(0)=j, Y(1)=k) \)：联合概率，\( J\times J \)矩阵。
\( p_j^0 = P(Y(0)=j) \)，\( p_k^1 = P(Y(1)=k) \)：边际分布（可观测）。
\( \tau = P(Y(1) \ge Y(0)) = \sum_{j=1}^J \sum_{k=j}^J p_{jk} \)：不差于对照的概率。
\( \eta = P(Y(1) > Y(0)) = \sum_{j=1}^{J} \sum_{k=j+1}^J p_{jk} \)：严格受益的概率。
\( \Delta_j = P(Y(1) \ge j) - P(Y(0) \ge j) = \sum_{k=j}^J p_k^1 - \sum_{k=j}^J p_k^0 \)：基于阈值的分布差异（完全由边际确定）。
模型：无模型——所有概率都为未知参数，仅有边际约束 \( \sum_k p_{jk} = p_j^0 \)，\( \sum_j p_{jk} = p_k^1 \)，\( p_{jk} \ge 0 \)，\( \sum_{j,k} p_{jk}=1 \)。
可观测数据：仅能观测到处理组和对照组的两个独立随机样本，分别给出边际分布 \( p_j^0 \) 和 \( p_k^1 \) 的一致估计。不可观测的量是联合概率 \( p_{jk} \) 的全部内部结构（除了边际约束）。

第二步：最小内核¶

最简特例：假设 \(Y(0)\) 和 \(Y(1)\) 完全一致且均匀分布，即 \( P(Y(0)=Y(1))=1 \)，且 \( p_j^0 = p_j^1 = 1/J \) 对所有 \(j\)。此时：

真实 \( \eta = 0 \)（因为严格大于的概率为0），真实 \( \tau = 1 \)。
若不假设依赖结构，仅用边际 sharp bounds（命题2）：\( \eta \) 的 sharp lower bound 为 \( \max_j \Delta_j \)。因为 \( \Delta_j = 0 \) 对所有 \(j\)（边际相同），所以 \( \eta_L = 0\)，没问题；但 upper bound \( \eta_U = \min_j \{ 1 + \Delta_j - p_j^1 \} = \min_j \{ 1 - 1/J \} = 1 - 1/J\)，区间 \([0, 1-1/J]\) 很宽，上界不紧。
若假设正依赖（PRD 或 PQD）：因为完全一致是 PRD 的特例，所以这些假设成立。
独立工作假设下计算的 \( \eta_I = \frac{J-1}{2J} \)（由公式 \( \sum_{j<k} p_j^0 p_k^1 = (J-1)/(2J) \)）。当 \(J\) 较大时，\( \eta_I \approx 1/2 \)，而真实 \( \eta = 0 \)，因此独立 bound 完全不是下界，反而远大于真实值。这个反例说明用独立 bound 作为下界是危险的。

这个极端例子丢掉了内核要说明的问题：为什么独立 bound 可能失效？因为独立 bound 要求联合概率满足 \( p_{jk} \ge p_j^0 p_k^1 \) 对于所有 \( j<k \)，但在完全一致下 \( p_{jk}=0 \) 对于 \( j<k \)，不满足这个不等式。

现在把上述直觉抽象为更一般的 DTD 条件。开尾 DTD 定义为：对所有 \(j\)，

\[P(Y(1) > j \mid Y(0)=j) \ge P(Y(1) > j).\]

如果在完全一致的例子里检查：LHS = \( P(Y(1) > j \mid Y(0)=j) = 0 \)（因为给定 Y(0)=j 时 Y(1)=j 确定），RHS = \( (J-j)/J >0 \)（当 \(j<J\)），所以 DTD 不成立。因此，只有 DTD 成立时才能保证独立 bound 是下界（命题3(i): 开尾 DTD ⇒ \( \eta_I \le \eta \)）。

所以本文核心数学内核就是：找出使 \( \sum_{j<k} p_{jk} \ge \sum_{j<k} p_j^0 p_k^1 \) 成立的充分依赖条件。论文通过逐行考察 \(j\) 行的概率分配，发现只要在对角线项 \(p_{jj}\) 这一“行”的条件概率不低于无条件概率，就能通过求和推出整体不等式成立。这就是 DTD 条件的几何直觉——它保证“对角线”上的个体有更强的受益倾向。

三、这篇论文做了什么¶

三句话¶

研究问题：在有序结局的因果推断中，目标量 \( \eta = P(Y(1)>Y(0)) \) 和 \( \tau = P(Y(1)\ge Y(0)) \) 仅由边际分布不可识别，本文旨在探究在何种正依赖假设下，基于独立工作假设的 tight lower bounds (\( \eta_I, \tau_I \)) 是有效的，并给出更实用的改进 bounds。
核心工具/方法：提出 Diagonal Tail Dominance (DTD) 条件（开尾和闭尾两个版本），证明其充分性；进而提出 局部 DTD，利用仅在部分水平成立的 DTD 来构建改进的 low bounds（命题4）。
主要结论：标准正依赖概念（PQD, PRD）不足以保证独立 bounds 有效（提供反例）；DTD 是充分的但较强；局部 DTD 更合理，能导出比无假设 bounds 更紧的 lower bounds，并保持有效性。

关键设定与假设¶

有序结局取值 \(\{1,\dots,J\}\)，从低到高表示结局变好。
潜在结果框架，忽略混杂（假设随机化或可忽略性，使得边际分布 \( P(Y= j \mid Treatment=t) \) 可从数据一致估计）。
所有理论假设针对联合分布 \(P\) 的未知结构，不涉及抽样误差（推断问题在讨论中略提，不是重点）。
相比 Lu et al. (2018) 的新增假设：作者没有要求全局正依赖，而是引入 DTD (Definition 3) 和局部 DTD，这是本文独创。

主要结果¶

命题1-2（Lu et al. 2018 的已有结果）：
- 对 \(\tau\)：\(\tau_L = \max_j \big( P(Y(0)=j) + \Delta_j \big)\)，\(\tau_U = \min_j \big( 1 + \Delta_j \big)\)。
- 对 \(\eta\)：\(\eta_L = \max_j \Delta_j\)，\(\eta_U = \min_j \big(1 + \Delta_j - P(Y(1)=j)\big)\)。
这些 bounds 只依赖于边际，是 sharp 的（即可通过构造联合分布达到）。

命题3（新结果）：
- 开尾 DTD（\(\forall j: P(Y(1)>j \mid Y(0)=j) \ge P(Y(1)>j)\)）⇒ \(\eta_I \le \eta\)。
- 闭尾 DTD（\(\forall j: P(Y(1)\ge j \mid Y(0)=j) \ge P(Y(1)\ge j)\)）⇒ \(\tau_I \le \tau\)。
证明直接求和：\( \eta = \sum_j P(Y(1)>j, Y(0)=j) \ge \sum_j P(Y(1)>j) P(Y(0)=j) = \eta_I \)，开放尾 DTD 保证不等号成立。

命题4（新结果）：
- 设 \(D_{ot}\) 为满足开尾局部 DTD 的 \(j\) 的集合，则改进下界

\[\tilde{\eta}_L = \max_{1\le j \le J} \Big( \Delta_j + \sum_{\substack{k\ge j \\ k\in D_{ot}}} P(Y(1)>k) P(Y(0)=k) \Big).\]

- 对 \(\tau\) 类似，用闭尾局部 DTD 的集合 \(D_{ct}\) 构造 \(\tilde{\tau}_L\)。
核心想法：在那些 DTD 成立的水平上，可以安全地把独立项加上去而不破坏 bound 的有效性。

证明路线与技术技巧¶

整体路线（以命题3为例）： 1. 写出 \( \eta \) 的求和形式：\( \eta = \sum_{j=1}^{J-1} P(Y(0)=j, Y(1)>j) \)。 2. 对每个 \(j\)，利用开尾 DTD 将条件概率转化为不等式：\( P(Y(1)>j \mid Y(0)=j) \ge P(Y(1)>j) \)，乘上 \(P(Y(0)=j)\) 得 \( P(Y(0)=j, Y(1)>j) \ge P(Y(0)=j) P(Y(1)>j) \)。 3. 对所有 \(j\) 求和即得 \( \eta \ge \sum_j P(Y(0)=j) P(Y(1)>j) = \eta_I \)。

命题4的证明（附录C）：
基本思路是将事件 \(\{Y(1) \ge Y(0)\}\) 分解为不同区域。对于固定的 cutoff \(j\)，构造一个 candidate lower bound：

\[\tau_j = P(Y(1) \ge j, Y(0) \le j) = P(Y(0)=j) + \Delta_j + \sum_{k>j} P(Y(1) \ge k, Y(0)=k).\]

重点在最后一项：对每个 \(k>j\)，若 \(k\in D_{ct}\)，则 \( P(Y(1) \ge k, Y(0)=k) \ge P(Y(1) \ge k) P(Y(0)=k) \)（由闭尾 DTD），替换后得到 \( \tau_j \ge P(Y(0)=j) + \Delta_j + \sum_{k>j, k\in D_{ct}} P(Y(1) \ge k) P(Y(0)=k) \)。取 \( \max_j \) 即为 \(\tilde{\tau}_L\)。对 \( \eta \) 类似。

关键跳跃点：证明的难点在于理解为什么局部 DTD 条件仍然能给出比 sharp bounds 更紧的 bound，以及如何合理地将独立项加进候选 bound 中。作者的技巧是利用矩阵中“对角线上的水平”恰好对应需要加上独立项的位置——见 Figure 2 的彩色矩阵和 Web Figure 1 的直观。

技术技巧点名： - 彩色矩阵可视化（核心启发式工具，非数学严格，但用于解释）。 - 概率分解与不等式替换（逐行条件）。 - 没有使用 empirical process、chaining 等高级工具；全是初等概率运算。

真实例子与应用¶

论文使用 急性缺血性卒中临床试验（Berkhemer et al. 2015, NEJM）的数据，该试验比较血管内治疗+常规护理 vs 常规护理，主要结局为90天时改良Rankin量表（mRS）评分，7个水平。作者将 mRS 0-1 合并为1个水平（“无显著残疾”），最终 6 个水平（水平6对应最好，水平1对应死亡），见表3。

怎么用：计算边际分布（处理组和对照组在各水平的频率），代入 sharp bounds 公式得到无假设的区间：\(\eta \in [0.155, 0.790]\)，\(\tau \in [0.378, 1]\)。再计算独立假设下的值：\(\eta_I=0.486\)，\(\tau_I=0.672\)。若接受全局 DTD，这些值可作为下界，结论是受益比例≥49%，不差比≥67%。但作者指出 DTD 对中等水平（如j=3）可能不合理，他们检验发现局部 DTD 在较高水平（≥4）成立，因此用局部 DTD 改进 bound 得到 \(\tilde{\eta}=0.224\)，\(\tilde{\tau}=0.512\)，比无假设的0.155和0.378有所提高。
这个例子想说明：① 无假设的区间太宽（上界接近1），实用价值低；② 全局独立假设的 bounds 大大收紧，但需要强假设；③ 局部 DTD 是更合理的折衷，且在实践中可以依据临床知识判断哪些水平的 DTD 可能成立（如高水平对应功能良好，治疗优势更明显），从而得到比无假设更好的下界。

🔎 结论是否比证明窄¶

命题4给出的改进 bounds 并未被证明是 sharp 的。论文只说“improved lower bound”，未声称达到 sharp 或最优。作者在讨论中提及“这些 bounds 依赖于选取哪个水平作为候选 cutoff，取 max 后是否最优未证明”。具体语句见 Section 4.5 末尾：“Thus, while using the independence-based bounds … the much weaker and more plausible assumption of local DTD can lead to tighter bounds than those obtained without any assumptions”。比较克制的说法。

另外，关于连续扩展的 DTD 定义，论文只用一句话描述，没有给出严格证明（“Propositions 3 and 4 extend to the continuous case”），缺乏细节。

四、开放问题¶

更弱的充分条件：DTD 是充分的但不必要。是否存在更弱的、可检验的或更合理解释的条件，能保证独立 bounds 成立？扎根于命题3后面一句话：“These sufficient conditions … are not necessary. … there exist joint distributions for which \(\tau_I < \tau\) and \(\eta_I < \eta\) even though the conditions fail.” 这是一条明显 future work。
连续结局下严格的处理：论文在讨论中给出连续 DTD 定义，但未做任何理论分析。连续情形下 DTD 是否等价于某种条件 copula 形式？如何构造对应的局部 DTD bounds？扎根于讨论第一段：“The notions of diagonal tail dominance and local diagonal tail dominance can be extended to the continuous case with appropriate modifications. … Propositions 3 and 4 extend to the continuous case.” 这句话过于简略，缺乏验证。
协变量调整下的 DTD 可检验性：论文提到有协变量时可计算条件 bounds 再积分，但 DTD 需在每层条件成立。能否利用可观测的协变量分布来检验或覆盖 DTD 的合理性？甚至能否通过对协变量进行排序来构造类似对角线的条件？扎根于讨论第二段：“In the presence of confounders … the lower bounds remain valid if (local) open- and closed-tail DTD hold conditionally on the confounders.”
有限样本性质与推断：论文讨论极短，仅说“standard methods can be used to estimate sampling variance”。但 bounds 本身是边际经验的函数，其估计量的偏差、置信区间构造（尤其是 sharp bounds 的拐点处的非光滑性）尚未被仔细分析。扎根于讨论第三段：“Since they are functions of the marginal empirical distributions, standard methods can be used to estimate their sampling variance and to construct confidence intervals.” 这明显低估了偏度和 bootstrap 的缺陷。

Maintained by 陈星宇 · Homepage · Source on GitHub