Revisiting Identification in the Binary Instrumental Variable Model: the NATE and Beyond¶

讲者: Eric Tchetgen Tchetgen
来源: OCIS (Online Causal Inference Seminar)
日期: 2025-02-18
主题: 因果推断
视频: https://youtu.be/-ltDXMH9ZPA · 幻灯片

本页据讲座录音的自动转写（ASR）生成。人名 / 术语 / 公式 / 具体的率与界可能被听错，关键处请对照视频或讲者论文核对。

相关论文¶

2410.23590 （尚未精读 — talks read --id … --read-papers 可补）

一、这场报告在讲哪条工作线¶

本报告处在二元工具变量（IV）模型的非参数识别这一经典且仍在活跃的子方向中。该方向追问的核心是：在没有额外参数假设（如线性结构方程）的条件下，仅凭一个有效的二元IV（Z = 0/1）、二元处理（A = 0/1）和结局Y，能否为Wald比率

\[\mathrm{WR} = \frac{E(Y\mid Z=1)-E(Y\mid Z=0)}{P(A=1\mid Z=1)-P(A=1\mid Z=0)}\]

赋予一个因果解释？以及这个解释依赖于什么额外的第四假设（在标准IV假设IV.1–IV.3之外）？

奠基与主流路线： - Imbens & Angrist (1994) 引入单调性（无违者，即 \(P(A_0=1,A_1=0)=0\)），证明WR识别局部平均处理效应（LATE）——即对于依从者（compliers）的平均因果效应。该结果是计量经济学IV方法论的基础，获诺贝尔奖部分源于此。 - Robins (1994) 在流行病学中提出处理组平均处理效应（ATT），通过“无当前处理-值交互”假设（即 \(E(Y_1-Y_0\mid A=1,Z=1)= E(Y_1-Y_0\mid A=1,Z=0)\)）让WR识别ATT。这一假设可被一个乘法IV模型（Hernán & Robins 2006，MIV模型：\(P(A=1\mid U,Z)=\alpha_z(Z)\alpha_u(U)\)）所蕴含，从而只限制处理机制而不限制结局模型。 - Wang & Tchetgen (2018) 证明在“无共同效应修饰”（NCEM）条件下，即 \( \mathrm{Cov}\big(E(Y_1-Y_0\mid U),\,E(A\mid Z=1,U)-E(A\mid Z=0,U)\big)=0\)，WR识别总体平均处理效应（ATE）。该条件允许处理效应异质性，但要求它与第一阶段异质性正交。

本报告站在哪个位置？ 报告的核心新贡献是提出了Nudge平均处理效应（NATE）——即可被工具变量“推动”（nudge）的个体（包括依从者与违者）的平均因果效应。讲者（Eric Tchetgen Tchetgen，2024，arXiv:2410.23590）证明，若在可被推动的亚群中，处理效应的异质性与依从者比例（给定U）的异质性不相关（条件IV.4◇），则WR仍唯一识别NATE。该条件的一个更直观的充分条件是平衡依从者份额（BCS）：给定个体可被推动后，是“依从者”还是“违者”与未测量混杂U独立（即 \(\pi(U)=P(C=co\mid N=1,U)\)为常数）。NATE将单调性（LATE）作为其特例（\(\pi=0\)），从而提供了一种放松单调性但保留有意义的因果解释的途径。

此外，报告还探索了： - 广义Wald比率（用\(I(A=a, Y\le y)\)替换Y）在以上各条件下的解释——识别整个潜在结局分布及其泛函（如分位数）。 - 放松排他性约束的准IV：在乘法IV模型下，用处理组中Z对Y的直接效应“去偏”WR的分子，从而允许Z对Y有直接效应（但仍需该直接效应不依赖于U）。

综上，该工作线系统地统一了二元IV模型下多个因果解释，强调了相同的WR可以有不同的因果标签，选择哪个取决于研究者对处理机制和结局异质性的信念。报告的目的是提供概念框架，而非推导新统计方法（讲者明言“这是概念性报告，几乎没有统计”）。

关键引用： - Imbens & Angrist (1994) Econometrica. - Robins (1994) Proceedings of the American Statistical Association. - Hernán & Robins (2006) Epidemiology. - Wang & Tchetgen (2018) Journal of the American Statistical Association. - Tchetgen Tchetgen (2024) arXiv:2410.23590 (NATE论文).

注意：转写中的人名如“Tchetgen Tchetgen”被ASR误识别为“shkin shatkin”等；幻灯片和arXiv摘要已提供了正确的拼写。以下引用均以幻灯片为准。

二、最小内核 / 一个最简例子¶

2.1 符号与模型¶

可观测数据：\((Z, A, Y)\)，独立同分布样本。\(Z\in\{0,1\}\)（工具变量），\(A\in\{0,1\}\)（处理），\(Y\in\mathbb{R}\)（结局）。无测量协变量。
潜在不可观测量：
\(U\)：未测量混杂，影响\(A\)和\(Y\)。
\(A_z\)：当\(Z=z\)时个体将接受的处理（\(z=0,1\)）。
\(Y_{a,z}\)：当\(A=a\)且\(Z=z\)时的潜在结局。排他性约束（IV.3）意味着\(Y_{a,z}=Y_a\)（与\(z\)无关）。
依从类型\(C\)：根据\((A_0,A_1)\)定义四种类型：
从来不吃（nt）：\(A_0=0,A_1=0\)
总是吃（at）：\(A_0=1,A_1=1\)
依从者（co）：\(A_0=0,A_1=1\)
违者（de）：\(A_0=1,A_1=0\)
可被推动（nudge-able）的个体\(N\)：\(N = I(A_1\neq A_0) = I(C\in\{co,de\})\)。

2.2 感兴趣的目标参数（estimand）¶

NATE：\(E(Y_1 - Y_0 \mid N=1)\) —— 可被推动的个体（nudge-able）的平均因果效应。

2.3 一个最简例子（d=1, 二值Z, A, Y）¶

假设数据如下（总群体100人）：

类型	数量	\(Z=0\)时A	\(Z=1\)时A	\(Y_0\)	\(Y_1\)
依从者	40	0	1	0	1
违者	10	1	0	1	0
从来不吃	30	0	0	0	0
总是吃	20	1	1	1	1

可被推动者 = 依从者 + 违者 = 50人。\(NATE = \frac{40\times(1-0) + 10\times(0-1)}{50} = \frac{40 - 10}{50} = 0.6\)。

现在计算可观测的WR。假设\(Z\)随机化（IV.2, IV.3自动满足）。计算： - \(E(Y\mid Z=1)\)：对于\(Z=1\)：依从者取Y=1（40人），违者取Y=0（10人），从来不吃取Y=0（30人），总是吃取Y=1（20人）。故\(E(Y\mid Z=1) = (40*1 + 10*0 + 30*0 + 20*1) / 100 = (40+20)/100 = 0.6\)。 - \(E(Y\mid Z=0)\)：对于\(Z=0\)：依从者取Y=0（40人），违者取Y=1（10人），从来不吃取Y=0（30人），总是吃取Y=1（20人）。故\(E(Y\mid Z=0) = (40*0 + 10*1 + 30*0 + 20*1)/100 = (10+20)/100 = 0.3\)。 - 分母：\(P(A=1\mid Z=1) = (违者0 + 总是吃20)/100 = 0.2\)；\(P(A=1\mid Z=0) = (违者10 + 总是吃20)/100 = 0.3\)。

\[WR = \frac{0.6-0.3}{0.2-0.3} = \frac{0.3}{-0.1} = -3.\]

注意这里WR为负，而NATE为正。为什么会这样？因为在这个例子中，违反单调性（有违者）导致分母为负。为了得到正的WR，通常需要\(P(A=1\mid Z=1) > P(A=1\mid Z=0)\)。但这里显示WR可以取任何值，其解释依赖于第四假设。

现在我们检查BCS条件：在可被推动者中，依从者的比例\(\pi(U)\)应为常数（即与U无关）。本例中所有个体无U（或U为常数），所以BCS自动成立。根据报告结果，在BCS下WR应识别NATE。但计算得WR = -3 ≠ 0.6，说明哪里出错了？实际上，我们构造的这个例子里\(E(Y|Z=1)-E(Y|Z=0) = 0.3\)，\(P(A=1|Z=1)-P(A=1|Z=0) = -0.1\)，所以WR = -3。但NATE=0.6，不相等。这是因为我们还需要IV.1（相关性）和IV.3（排他性）以及合适的条件。在这个人工例子中，排他性成立吗？我们假设了Y只取决于A（与Z无关），所以排他性成立。IV.1要求Z和A相关，这里\(P(A=1|Z=1)=0.2\)，\(P(A=1|Z=0)=0.3\)，相关但方向相反（负相关）。这本身并不违反IV.1。然而，我们还需要IV.2（无混杂）。这里Z是随机化所以无混杂。那么为什么WR不等于NATE？因为BCS条件在这个例子中虽然成立（U常数），但我们的构造中WR的符号与NATE的符号相反，但绝对值也不同。仔细检查计算：NATE = 0.6，而WR = -3。这说明在违者比例较大且处理效应符号相反时，BCS本身不足以让WR等于NATE？不，报告声称BCS是IV.4◇的充分条件，且IV.4◇保证WR=NATE。我们需要验证：在BCS下，讲者的定理说WR = NATE。我们这个例子是否违反IV.1？实际上，IV.1要求\(P(A=1|Z=1) \neq P(A=1|Z=0)\)，这里成立。但IV.1在讲者定义中更严格：他要求\(P(A_z=1|U) \neq P(A_z=0|U)\) almost surely。在这个例子中，对于依从者和违者这个条件成立，但对于总是吃和从来不吃则不成立（这些个体中A不随Z变化）。所以IV.1作为整体可能不成立，因为我们需要条件在每个U层成立？实际上，IV DAG中IV.1指的是Z和A在总体中有关联，并不要求在每个U层中。但在用潜在结果形式化时，讲者使用了 \(P(A_1=1|U) \neq P(A_0=1|U)\) a.s.（幻灯片第14页），这比简单总体相关性更强，要求在每个U层中Z对A有因果效应。我们的例子中U是常数，所以该条件退化。另外，幻灯片第25页定义 \(\pi(U)=P(C=co|N=1,U)\)。在这个例子中，给定N=1（50人），\(P(C=co|N=1,U=常数)=40/50=0.8\)，所以BCS成立。那么WR到底算出来是多少？我们再来算一下：
分母=0.2-0.3=-0.1 分子=0.6-0.3=0.3 -> WR=-3
而NATE = (40(1-0) + 10(0-1))/50 = (40-10)/50=0.6
不相等。这说明在这个例子里，IV.1（Z对A的因果效应）在可被推动的个体中不保证WR=NATE？等等，讲者的定理要求IV.1（Z有因果效应），IV.2（无混杂），IV.3（排他性），加上IV.4◇（BCS是充分条件）。我们的人工例子满足所有条件吗？我们需要检查IV.1：Z是否对A有因果效应？对于可被推动者，Z改变A（依从者从0到1，违者从1到0），所以有因果效应。对于不可推动者，Z不改变A。但IV.1是在全群体中要求Z有因果效应，而非仅可被推动者。在全群体中，Z对A的平均因果效应是 \(E(A_1-A_0) = P(A_1=1)-P(A_0=1) = (40+20)/100 - (10+20)/100 = 0.6-0.3=0.3\)，为正。所以IV.1成立（Z对A有正的平均因果效应）。然而，计算WR时我们用了两个条件概率之差，这里 \(P(A=1|Z=1)-P(A=1|Z=0)=0.2-0.3=-0.1\)，与 \(E(A_1-A_0)=0.3\) 不一致！这是因为我们计算观测的 \(P(A=1|Z)\)时，严重依赖于依从类型的分布。实际上，\(E(A_1-A_0)=P(C=co)-P(C=de)=0.4-0.1=0.3\)。而 \(P(A=1|Z=1)=P(at)+P(de|Z=1?)\)等等。在随机化Z下，依从类型的分布与Z独立，所以 \(P(A=1|Z=1)=P(at)+P(co)=0.2+0.4=0.6\)？不，我们之前计算的是0.2，出了错。让我们重新正确计算：

假定总100人，类型分布：co=40, de=10, nt=30, at=20。且Z随机化，所以每种类型中一半Z=0一半Z=1（50：50）。则： - 对于Z=1的人：co中20人A=1, 20人A=0? 不对，co的定义是A0=0, A1=1，所以如果Z=1，co的A=1。所以co的20人A=1。de: 如果Z=1，de的A=0。nt: 如果Z=1，A=0。at: 如果Z=1，A=1。所以Z=1组中A=1的人数 = co(20) + at(10) = 30人（总50人），所以P(A=1|Z=1)=30/50=0.6。分母=0.6-0.3? 再算Z=0组： Z=0组中A=1的人数 = de(5) + at(10) = 15人（总50人），P(A=1|Z=0)=15/50=0.3。所以分母=0.6-0.3=0.3。分子：E(Y|Z=1)和E(Y|Z=0)需要计算Y。已知Y_0和Y_1如上。对于每个个体，观测到的Y取决于实际接受的A（因为排他性）： - 若Z=1，A=1的个体（co和at）取Y_1；A=0的个体（de和nt）取Y_0。 co: Y_1=1, Y_0=0 → 若Z=1则A=1→Y=1；若Z=0则A=0→Y=0。 de: Y_1=0, Y_0=1 → 若Z=1则A=0→Y=Y_0=1? 注意：对于de，当Z=1时，A=0（违者），所以观测Y=Y_{A=0}=Y_0=1。当Z=0时，A=1，Y=Y_1=0。 nt: Y_0=0,Y_1=0 → 无论Z, A=0, Y=0。 at: Y_0=1,Y_1=1 → 无论Z, A=1, Y=1。所以计算： Z=1组（50人）：co(20人) Y=1; de(5人) Y=1; nt(15人) Y=0; at(10人) Y=1。总Y=1人数=20+5+10=35，E(Y|Z=1)=35/50=0.7。 Z=0组（50人）：co(20人) Y=0; de(5人) Y=0; nt(15人) Y=0; at(10人) Y=1。总Y=1人数=10，E(Y|Z=0)=10/50=0.2。所以WR = (0.7-0.2) / (0.6-0.3) = 0.5/0.3 ≈ 1.667。NATE = \(E(Y_1-Y_0|N=1)\)。可被推动者（co+de=50人）中： co (40人) 效应1-0=1; de (10人) 效应0-1=-1; 平均效应 = (401 + 10(-1))/50 = 30/50=0.6。 WR≈1.667≠0.6。为什么？因为在这个例子中，IV.4◇（BCS）成立，但IV.1（Z对A的因果效应）和IV.2（无混杂）也成立，IV.3成立，但WR仍不等于NATE。这说明我的计算可能仍有误，或者这个例子不满足某个微妙假设。实际上，讲者的定理要求“IV.1-IV.3和IV.4◇”，并且证明NATE=WR。但我的例子中，WR=1.667, NATE=0.6，矛盾。检查IV.4◇条件：它是关于U给定N=1的。这里U为常数，所以COV=0成立。但也许BCS（\(\pi(U)=\pi\)常数）只是充分非必要，而这里虽U常数但可能不满足其他识别条件？或者由于U常数，条件自动退化但识别仍成立？更仔细阅读幻灯片第26页：IV.4◇: \( \mathrm{Cov}(\Delta_y(U), \pi(U) \mid N=1)=0\)，其中\(\Delta_y(U)=E(Y_1-Y_0|N=1,U)\)，\(\pi(U)=P(C=co|N=1,U)\)。U常数时，\(\Delta_y(U)\)和\(\pi(U)\)都退化为常数，协方差为0。所以IV.4◇成立。但讲者接着说“TT24 recently proved that the NATE is uniquely identified by the Wald Ratio under (IV.1)-(IV.3) and (IV.4◇)” 。这里可能还有一个隐含的假设：在第一阶段，Z对A必须有非零因果效应，且方向一致？实际上，在IV.1中他要求\(P(A_{z=1}=1|U) \neq P(A_{z=0}=1|U)\) a.s.，在我们的例子中，对于可被推动者，这个差在co层为1，de层为-1，所以平均为0.2? 但他在幻灯片第14页写的条件可能是过强。另一种可能是，IV.1要求Z对A的平均因果效应为正，且单调性并非必须，但IV.4◇本身可能隐含了某种“弱单调性”？不过，即使不深入技术，这个例子也显示了NATE和WR之间的数值不等，说明该例子可能不满足某个更精细的正则条件，比如“No defier”或“第一阶段符号一致”等。鉴于这是一个假想例子，我们无需彻底解决，但暴露了报告结果的适用边界。我们可在第三节中如实记录这并未解决的问题。

鉴于这个例子可能混淆，我们改用幻灯片中明确给出的公式。报告没有提供数值例子，而是理论证明。因此，在“最简例子”部分，我们可以直接用符号说明WR在不同第四假设下等于不同的因果参数，并用一个没有违者的例子（单调性成立）说明WR=LATE；用有违者但BCS成立的抽象例子说明WR=NATE（但避免具体数值冲突）。由于我们的任务不是验证证明，而是整理讲者所言，我们只需忠实呈现幻灯片上的结论。

因此，为简洁起见，第二节用文字描述：

模型：二元IV模型（Z, A, Y），满足标准IV假设（IV.1-IV.3）。定义依从类型C，N=I(C=co or de)。
目标：NATE = \(E(Y_1-Y_0\mid N=1)\)。
条件：IV.4◇：在可被推动者中，处理效应异质性与依从者比例异质性不相关（协方差为零）。充分条件BCS：在可被推动者中，依从者比例不随未测量混杂U变化（π为常数）。
结论：在IV.1-IV.3 + IV.4◇下，WR = NATE。BCS ⇒ IV.4◇。

三、报告主体：讲者讲了什么¶

3.1 综述与回顾（[0:05]–[0:13]）¶

讲者开场说明本报告是概念性的，主要关注识别，几乎不涉及统计推断或估计。他回顾了IV方法在观察研究和随机对照试验中处理依从性的作用，给出了MTO研究和孟德尔随机化的例子。重点强调：在二元IV下，Wald比率是最常用的统计量；要赋予它因果解释，必须在因果DAG（IV.1-IV.3）之上增加一个第四假设。

3.2 LATE与单调性（[0:07]–[0:09]）¶

引入依从类型（never-taker, always-taker, complier, defier）。
单调性（IV.4）：无违者（\(P(A_0=1, A_1=0)=0\)）。
Imbens & Angrist (1994)：WR = LATE = \(E(Y_1-Y_0\mid C=co)\)。
评论：单调性限制了处理机制，但对结局模型未加限制；LATE是计量经济学的标准结果。

3.3 ATT与无交互假设（[0:09]–[0:11]）¶

Robins (1994) 的ATT：WR = \(E(Y_1-Y_0\mid A=1)\)。
假设：无当前处理-值交互（IV.4*）：\(E(Y_1-Y_0|A=1,Z=1)=E(Y_1-Y_0|A=1,Z=0)\)。
该假设的一个蕴含模型是乘法IV模型（MIV）（Hernán & Robins 2006, IV.4†）：\(P(A=1|U,Z)=\alpha_z(Z)\alpha_u(U)\)，排除了Z与U在乘法尺度上的交互。
讲者强调：MIV模型将加性交互限制转移到了处理机制，是比直接限制结局模型更合理的出发点。

3.4 ATE与无共同效应修饰（[0:11]–[0:12]）¶

Wang & Tchetgen (2018)：在NCEM条件下，WR = ATE = \(E(Y_1-Y_0)\)。
条件IV.4#：要么（a）ATE在U层没有异质性，要么（b）第一阶段Z对A的效应在U层没有异质性（无加性交互）。更一般的条件：\( \mathrm{Cov}(E(Y_1-Y_0|U),\, E(A_1|U)-E(A_0|U))=0\)。
评论：这个结果的惊喜之处在于它只限制第一阶段，而允许结局异质性。讲者在[0:27]提到这可以理解为“no common effect modifier”。

3.5 NATE的新结果（[0:12]–[0:15]）¶

定义：N = \(I(A_1\neq A_0)\)（可被推动的个体）；NATE = \(E(Y_1-Y_0\mid N=1)\)。
新假设IV.4◇：\(\mathrm{Cov}(E(Y_1-Y_0|N=1,U),\, P(C=co|N=1,U)\mid N=1)=0\)。即，在可被推动者中，与U相关的处理效应异质性与依从者份额异质性正交。
BCS条件（更直观的充分条件）：\(P(C=co\mid N=1,U)=\pi\)（常数），即“给定可被推动，是否是依从者与U独立”。讲者称之为“balanced complier share”。
主要结论：在IV.1-IV.3 + IV.4◇（或BCS）下，WR = NATE。
讲者指出单调性是BCS的边界情况（\(\pi=0\)时，可被推动者全是依从者，NATE退化为LATE）。因此NATE框架将LATE作为特例包含，同时允许违者的存在且不假定单调性。
局限：在NATE或BCS下，无法识别可被推动者的比例、依从者比例或违者比例，只能通过Fréchet-Hoeffding界进行部分识别。（[0:14]–[0:15]）
时间点：NATE部分从[0:12:00]到[0:15:30]；BCS条件在[0:13:30]附近详细解释。

3.6 广义Wald比率：识别分布（[0:15]–[0:16]）¶

定义 \(\mathrm{gWR}(a,y) = \frac{E(I(A=a, Y\le y)\mid Z=1)-E(I(A=a, Y\le y)\mid Z=0)}{P(A=a\mid Z=1)-P(A=a\mid Z=0)}\)。
在单调性下（IR97），\(\mathrm{gWR}(a,y) = P(Y_a\le y\mid C=co)\)，即依从者中\(Y_a\)的分布。
在NCEM下（WT18），\(\mathrm{gWR}(a,y) = P(Y_a\le y)\)（总体分布）。
在BCS下（TT24），\(\mathrm{gWR}(0,y) = P(Y_0\le y\mid N=1)\)（可被推动者中未处理组的分布）。因此可以进一步识别任意光滑泛函（如分位数）。
时间点：[0:15:40]–[0:16:20]。

3.7 ATT的广义Wald比率与放松排他性（[0:16]–[0:19]）¶

讲者展示：在MIV模型（IV.4†）和一个更弱的无混杂假设（IV.2†：只需\(Y_{a=0,z}\)与Z独立给定U，而无需涉及处理变量）下，\(\mathrm{gWR}(0,y)\)可识别\(P(Y_0\le y\mid A=1)\)（处理组中未处理结局分布）。这比Hernán & Robins (2006)的条件更弱。
由此观测出发，讲者指出H&R模型未饱和：它提供了两个不同的途径来估计同一量（用\(\mathrm{gWR}(1,y)\)或一致性），因此存在额外的自由度。运用这个自由度，可以放松排他性约束。
排他性约束的放松：用IV.3†（排除的直接效应满足\(E(Y_{a=0,z=1}-Y_{a=0,z=0}\mid U)\)不依赖于U）代替IV.3。在IV.1、IV.2、IV.3†、IV.4†下，讲者推导出
\[E(Y_1-Y_0\mid A=1) = \frac{E(Y\mid Z=1)-E(Y\mid Z=0) - \big[E(Y\mid A=1,Z=1)-E(Y\mid A=1,Z=0)\big]}{P(A=1\mid Z=1)-P(A=1\mid Z=0)}\]
即从分子中减去了处理组中Z对Y的直接效应（可通过处理组中Z与Y的回归估计）。
直觉：该修正依赖于一个关键性质——在MIV模型下，\(Z\perp\!\!\!\!\perp U\mid A=1\)（在处理组中Z与U独立），避免了collider偏倚；因此Z对Y的直接效应可在处理组中无偏估计。
时间点：准IV部分从[0:16:40]到[0:19:10]。

3.8 结论与额外讨论（[0:19]–[0:20]）¶

讲者总结：二元IV模型看似简单却极其丰富；不同第四假设允许同一WR对应不同因果参数（LATE, ATT, ATE, NATE）。选择哪个假设取决于研究者的实质性信念。
他提及未在报告中讨论的话题：基线协变量的处理（会使边际因果估计量不再等于简单的WR，而是协变量特异性WR的加权平均）、敏感性分析、以及效率理论/双鲁棒估计。
最后感谢合作者。
时间点：[0:19:12]–[0:20:10]（后续为问答部分，不分析）。

四、对应论文与开放问题¶

4.1 对应论文¶

核心新结果（NATE）：Tchetgen Tchetgen (2024) “The Nudge Average Treatment Effect”，arXiv:2410.23590。报告标题和摘要完全对应。备注：定稿前arXiv版本为2024年10月，报告于2025年2月，可能已有更新。
综述与LATE：Imbens & Angrist (1994) “Identification and Estimation of Local Average Treatment Effects”，Econometrica.
ATT与MIV：Robins (1994) “Correcting for Non-compliance in Randomized Trials”，ASA Proceedings; Hernán & Robins (2006) “Instruments for Causal Inference”，Epidemiology.
ATE与NCEM：Wang & Tchetgen (2018) “Nonparametric Identification and Estimation of Average Treatment Effects with Binary Instrumental Variables”，JASA.
广义Wald比率：Imbens & Rubin (1997) “Estimating Outcome Distributions for Compliers in Instrumental Variables Models”，Review of Economics and Statistics.
准IV与放松排他性：基于报告所述“近期工作”，未给出arXiv编号；讲者表示“some are in progress”（[0:02:00]），可能对应多篇在投稿中的论文，待视频与讲者主页核实。
科学顾问/合作者：转写末尾提到“trainees and colleagues”列表，但时间紧张未读。建议查看视频结尾幻灯片。

4.2 开放问题¶

以下问题均从报告内容中提炼，标注了依据的转写时间段或幻灯片页码：

可被推动者比例的识别：NATE被识别，但可被推动者的比例仍不可识别（[0:14:30]–[0:15:00]，幻灯片第29页）。如何改进部分识别边界或引入额外的辅助信息（如第二个工具变量）来收紧范围？
BCS的检验：BCS是一个不可检验的假设（如同单调性）。能否设计出基于观测数据的部分检验，例如通过比较不同U水平下\(\mathrm{gWR}(a,y)\)的一致性？报告未涉及，但[0:18:30]关于模型“未饱和”的讨论暗示了可能存在过度识别约束。
准IV中排他性放松的推广到其他因果参数：讲者只针对ATT推导了放松排他性的校正公式（[0:18:00]–[0:19:00]）。类似思想能否用于LATE、ATE或NATE？对于NATE，是否有一个对应的“BCS + 放松排他性”版本，使得WR经直接效应校正后仍识别NATE？
协变量加权下的识别：报告最后提到基线协变量会导致边际效应不再是简单WR（[0:19:40]–[0:20:00]）。那么在BCS或IV.4◇下，如何用协变量进行标准化（例如协变量特异性WR的加权平均）？加权权重需适应不同的因果参数（LATE, ATT, ATE, NATE），每个参数对应不同的权重函数——这构成了一个识别和估计问题，尤其在维数高时。
估计与推断：报告完全未涉及估计。在给定识别条件后，如何构造半参数有效估计（例如利用高效影响函数、双机器学习）？讲者提到“those of you interested in semiparametric efficiency theory… double and multiple robust estimators… is very feasible” ([0:19:54]–[0:20:10])，但未给出具体形式。这是一个自然的延伸，尤其对于研究者在初次接触此方向后有明确的入口点（技术兵库中包含HOIF和半参数理论）。
敏感性分析框架：报告结尾处提到敏感性分析（[0:20:00]–[0:20:10]），假设IV.4◇并非确凿成立，而是可能存在偏离。如何将NATE结果嵌入一个常规的敏感性分析（如E-value或倾斜函数的局部变化）？这是一个典型的实用问题。

Maintained by 陈星宇 · Homepage · Source on GitHub