Two stage least squares with time-varying instruments: An application to an evaluation of treatment intensification for type-2 diabetes¶
作者: Daniel Tompsett, Stijn Vansteelandt, Richard Grieve, John Robson, Manuel Gomes
来源: Statistical Methods in Medical Research
主题: 因果推断
相关性: 9/10
链接: 期刊页 · arXiv
一、领域脉络与小综述¶
这个方向是什么: 这个子方向要解决的根本统计问题是:在纵向/时间序列数据中,当存在随时间变化的未测量混杂时,如何识别并估计持续治疗策略的因果效应。当前,主流的 g-methods(如 g-formula、IPW、g-estimation)依赖"无未测量混杂"假设(Sequential Randomization Assumption, SRA),但在观察性流行病学与比较有效性研究中该假设极易被打破。工具变量(IV)方法旨在绕过未测量混杂,但经典 IV 方法几乎全部针对时间固定处理设计;将 IV 推广到时间变化设定,既需要重新定义 IV 的条件独立性假设序列,又需要处理跨时间段的工具变量与处理之间的动态交互结构。该方向目前处于"方法框架刚提出、理论性质尚在摸索、实证应用刚起步"的阶段。
发展脉络: - 奠基工作:Robins(1986起)提出 g-estimation 与 Structural Nested Models (SNMs),为时间变化处理与混杂的因果推断奠定了基本框架。Vansteelandt & Joffe (2014) 回顾了 SNMs 的部分兑现潜力,指出其在未测量混杂下需要 IV 才能运作,但应用稀少。 - 主要进展(MR 路线):Mendelian Randomisation (MR) 领域率先将多变量 IV 方法引入时间变化设定。Sanderson, Davey Smith, Windmeijer, Bowden (2018/2020) 发展了 Multivariable MR (MVMR),将多个暴露期视作多个相关暴露,用多变量 2SLS 估计各自直接效应。Sanderson, Richardson, Morris, Tilling (2022) 进一步用 MVMR 估计单暴露在不同时间点的直接效应。Shi, Swanson, Kraft, Rosner (2021) 则从 MR 角度提出了基于 g-estimation 的 Structural Mean Models 以处理重复测量的时间变化暴露。 - 当前 frontier(非 MR 路线与批评): - 非 MR 路线:Michael, Cui, Lorch, Tchetgen Tchetgen (2020) 提出了基于时间变化 IV 的 Marginal Structural Mean Models (MSMMs),放宽 SRA,但要求"无未测量混杂预测依从类型"。Chen & Zhang (2021) 发展了 IV-optimal DTRs 框架,在部分识别下做动态治疗 regimes 的优化。Tompsett, Vansteelandt, Grieve, Dixon 等 (2025) 比较了 g-estimation(时间固定 IV)与 IPW(时间变化 IV)在风湿病数据中的表现。 - 批评与警告:Tian & Burgess (2022) 发出严厉警告:MVMR 在时间变化设定中,若结局模型误设定(如暴露测量时间点与真实作用时间不匹配),估计不仅偏,甚至方向反转(负值对应正值真效应)。 - 本文的位置:本文避开 MVMR 的遗传学语境,直接在经典计量经济学/流行病学的 2SLS 框架内,将多变量 2SLS 推广到时间变化 IV 与时间变化处理设定,并通过模拟与糖尿病真实数据评估其有限样本表现与误设定稳健性。
子线索聚类: 1. MVMR 路线:将时间变化暴露映射为多变量暴露,用多变量 2SLS 估计各时间点直接效应(Sanderson 2018, 2020, 2022; Shi 2021; Burgess 2020)。核心假设是遗传变异作为基线 IV 满足多变量 IV 条件;瓶颈在于 MR 的排他性假设在多变量设定下极难满足,且时间变化效应的解释依赖结局模型的精确设定。 2. Structural Models 路线:基于 Robins 的 SNMs/MSMs,用 g-estimation 或加权估计处理时间变化 IV(Vansteelandt & Joffe 2014; Michael 等 2020; Tompsett 等 2025)。核心假设是 IV 序列条件独立性及对依从类型的限制;瓶颈在于 g-estimation 的计算复杂性与对模型设定的敏感性。 3. Provider Preference IV 路线:在比较有效性研究中,用医生处方偏好作为 IV(Gudemann, Shields, Dennis, Bowden 2023; Baiocchi, Small 等 2012; Ertefaie, Small 等 2015)。核心假设是偏好只通过处方影响结局;瓶颈在于偏好的测量、随时间变化的偏好构造、以及多治疗选择下的选择偏倚。
这个方向在追问的核心问题: 1. 识别:在时间变化未测量混杂下,时间变化 IV 的序列条件需要哪些额外假设(如对依从类型、对过去 IV 的条件)才能识别持续处理的因果效应? 2. 估计:多变量 2SLS 在时间变化设定下是否保持无偏与一致?在模型误设定(尤其是第二阶段结局模型)下,其偏倚方向与程度如何? 3. 弱 IV 诊断:多内生变量设定下,如何诊断每个时间点的 IV 强度?Sanderson-Windmeijer 条件 F 检验能否直接移植? 4. IV 构造:医生处方偏好如何随时间变化构造?其外生性如何验证?
⚠️ 作者的 framing: - 作者将缺口 frame 为:g-methods 依赖无未测量混杂,而现有 IV 方法(尤其是 2SLS)在时间变化设定下缺乏系统评估与扩展;MVMR 虽有发展,但主要在遗传学语境,且其误设定风险已被 Tian & Burgess (2022) 指出。因此,"将经典 2SLS 扩展到时间变化 IV 设定并系统评估其性质"成为显然的下一步。 - 被淡化的竞争路线:Michael 等 (2020) 的 MSMM 加权估计、Chen & Zhang (2021) 的 IV-optimal DTRs 框架,在 intro 中仅一笔带过(引用句只提"假设类似数据结构但去掉某些箭头"),未深入比较其识别策略与估计效率。SNMs 的 g-estimation 路线虽被引用,但未被作为主要竞争者。 - 明显该被引却未出现的:Robins (1986/1988) 的原始 SNM 论文未在 intro 中直接点名(只通过 Vansteelandt & Joffe 2014 间接引用);Hernán & Robins (2020) 的 Causal Inference Book 未被引;Baiocchi, Small 等 (2012) 的 Near/Far 匹配虽在参考文献中,但 intro 未讨论其非参数 IV 设计思路对时间变化设定的潜在优势。
张力: - MVMR 的正面对立:Sanderson 等 (2022) 声称 MVMR 可估计时间变化暴露的直接效应;Tian & Burgess (2022) 则通过模拟证明,在结局模型误设定下 MVMR 估计不仅偏且方向反转。本文的模拟结果部分呼应了 Tian & Burgess 的警告(标准 2SLS 在误设定下偏倚严重),但声称扩展 2SLS 在某些误设定下"相对稳健"——这一声称与 Tian & Burgess 的悲观结论之间存在张力,值得研究者去核验本文模拟设定的具体条件是否与 Tian & Burgess 一致。
二、最核心、最简单的例子 / 数学问题¶
第一步:符号、模型、可观测数据
- \(t\):时间点指标,\(t = 0, 1, \ldots, T\)。\(t=0\) 为基线。
- \(A_t\):时间 \(t\) 的处理变量(内生变量)。本文中为二值或连续(糖尿病例子中为"是否接受强化治疗 DPP4/SU")。这是我们要估其因果效应的对象。
- \(Z_t\):时间 \(t\) 的工具变量。本文中为连续(医生处方偏好指标)。这是可观测的外生变量。
- \(L_t\):时间 \(t\) 的可观测混杂向量。包含基线协变量与随时间更新的临床指标(如 HbA1c)。
- \(U_t\):时间 \(t\) 的未测量混杂向量。不可观测,正是需要 IV 来绕过的对象。
- \(Y\):结局变量(在最终时间点 \(T+1\) 测量,如 HbA1c 变化量)。
- \(\beta_t\):时间 \(t\) 处理 \(A_t\) 对结局 \(Y\) 的因果效应参数(estimand)。在线性结构均值模型下,\(\beta_t\) 为 \(A_t\) 的系数。
- ATE:总平均因果效应,定义为 \(\text{ATE} = \sum_{t=0}^T \beta_t\)(假设线性可加)。
- \(M_t\):条件 IV 集合。作者定义 \(M_t\) 为使得 \(Z_t\) 在给定 \(M_t\) 后满足条件 IV 假设的变量子集。本文设定中 \(M_t = (L_0, L_t, \bar{A}_{t-1}, \bar{Z}_{t-1})\),即基线协变量、当前混杂、过去处理与过去 IV。
- 可观测数据:研究者实际观测到的是 \(n\) 个个体的纵向面板 \((L_0, Z_0, A_0, L_1, Z_1, A_1, \ldots, L_T, Z_T, A_T, Y)\)。\(U_t\) 不可观测,只能靠 \(Z_t\) 对 \(U_t\) 的条件独立性假设去识别 \(\beta_t\)。
模型(线性结构均值模型): 数据生成机制为: - 第一阶段(处理模型):\(A_t = \gamma_{t0} + \gamma_{tL} L_t + \gamma_{tZ} Z_t + \gamma_{tA} \bar{A}_{t-1} + \gamma_{tZp} \bar{Z}_{t-1} + U_t + \epsilon_t\),其中 \(Z_t\) 与 \(U_t\) 条件独立(给定 \(M_t\)),\(\epsilon_t\) 为随机误差。 - 第二阶段(结局模型):\(Y = \alpha_0 + \sum_{t=0}^T \beta_t A_t + \alpha_L L_0 + U_Y + \epsilon_Y\),其中 \(U_Y\) 为未测量结局混杂,与 \(Z_t\) 条件独立。 - 关键假设:\(Z_t \perp U_t \mid M_t\) 且 \(Z_t \perp U_Y \mid M_t\)(条件 IV 排他性);\(Z_t\) 对 \(A_t\) 有非零条件效应(条件 IV 强度)。
第二步:最小内核——两时间点、单内生变量、单 IV 的扩展 2SLS
剥掉所有多时间点与多变量的复杂性,取 \(T=1\)(两个时间点 \(t=0, 1\)),单处理 \(A_t\),单 IV \(Z_t\)。此时要估 \(\beta_0\) 和 \(\beta_1\),ATE = \(\beta_0 + \beta_1\)。
标准 2SLS(错误做法): - 第一阶段:分别回归 \(A_0\) on \(Z_0\),\(A_1\) on \(Z_1\)(忽略跨时间交互与条件混杂)。 - 第二阶段:回归 \(Y\) on \(\hat{A}_0, \hat{A}_1\)。 - 为什么错:\(A_1\) 受 \(A_0\) 影响,\(Z_0\) 通过 \(A_0\) 影响 \(A_1\);标准 2SLS 忽略了 \(\bar{A}_{t-1}\) 和 \(\bar{Z}_{t-1}\) 对当前处理的预测作用,导致第一阶段拟合值包含未测量混杂 \(U_t\) 的残差信息,第二阶段估计偏倚。
扩展 2SLS(本文核心): - 第一阶段:对每个 \(t\),回归 \(A_t\) on \((Z_t, L_t, \bar{A}_{t-1}, \bar{Z}_{t-1})\)。在 \(T=1\) 时: - \(A_0\) 阶段:\(A_0 = \gamma_{00} + \gamma_{0Z} Z_0 + \gamma_{0L} L_0 + \epsilon_0\)(此时 \(\bar{A}_{-1}, \bar{Z}_{-1}\) 为空)。 - \(A_1\) 阶段:\(A_1 = \gamma_{10} + \gamma_{1Z} Z_1 + \gamma_{1L} L_1 + \gamma_{1A} A_0 + \gamma_{1Zp} Z_0 + \epsilon_1\)。 - 得到拟合值 \(\hat{A}_0, \hat{A}_1\)。 - 第二阶段:回归 \(Y\) on \((\hat{A}_0, \hat{A}_1, L_0)\)。 - 为什么成立(直觉):通过在第一阶段纳入 \(\bar{A}_{t-1}\) 和 \(\bar{Z}_{t-1}\),我们剥离了过去处理与过去 IV 对当前处理的预测部分,使得 \(\hat{A}_t\) 仅包含 \(Z_t\) 通过直接路径传递的外生变异。由于 \(Z_t \perp (U_t, U_Y) \mid M_t\),且 \(M_t\) 中的 \(\bar{A}_{t-1}, \bar{Z}_{t-1}\) 已被纳入第一阶段,\(\hat{A}_t\) 与第二阶段的未测量混杂残差条件独立,从而 \(\beta_t\) 的估计一致。
最小内核的数学本质:扩展 2SLS 的核心是将条件 IV 假设 \(Z_t \perp U \mid M_t\) 转化为操作性的回归设定——通过在第一阶段纳入 \(M_t\) 的全部可观测部分,使得 \(Z_t\) 的残差效应与未测量混杂隔离。这本质上是将多变量 2SLS 的"多内生变量"结构(\(\bar{A}\) 为内生序列)与"多工具变量"结构(\(\bar{Z}\) 为工具序列)组合成一个增广的第一阶段设计矩阵,从而在第二阶段恢复外生性。
三、这篇论文做了什么¶
三句话: ①研究了在纵向数据中存在时间变化未测量混杂时,如何用时间变化 IV 估计持续处理的因果效应; ②核心方法是将经典 2SLS 扩展到多变量设定,在第一阶段纳入过去处理 \(\bar{A}_{t-1}\)、过去 IV \(\bar{Z}_{t-1}\) 与当前混杂 \(L_t\),以满足条件 IV 假设; ③主要结论是:模拟显示扩展 2SLS 在多种设定(包括第二阶段误设定)下偏倚较小且覆盖率稳定,而标准 2SLS 偏倚严重;真实数据应用表明医生处方偏好可作为时间变化 IV 估计糖尿病治疗强化的 ATE。
关键设定与假设: - 数据结构:纵向面板 \((L_0, Z_0, A_0, L_1, Z_1, A_1, \ldots, L_T, Z_T, A_T, Y)\),\(U_t\) 不可观测。 - 条件 IV 假设(核心): 1. 条件排他性:\(Z_t \perp U_Y \mid M_t\) 且 \(Z_t \perp U_t \mid M_t\),其中 \(M_t = (L_0, L_t, \bar{A}_{t-1}, \bar{Z}_{t-1})\)。这意味着在给定过去处理、过去 IV 与当前混杂后,当前 IV 与未测量混杂独立。 2. 条件强度:\(Z_t\) 对 \(A_t\) 有非零条件效应,给定 \(M_t\)。 3. 无未测量混杂预测依从类型:这是从 Michael 等 (2020) 引入的假设,要求未测量混杂不预测个体对 IV 的响应模式(即依从类型)。本文在模拟中隐含假设此条件成立,但在理论推导中未显式陈述其必要性——这是一个值得核验的缺口。 - 线性结构均值模型:\(E[Y - \sum_{t=0}^T \beta_t A_t \mid \bar{A}_t, \bar{Z}_t, \bar{L}_t] = \alpha_0 + \alpha_L L_0\)。这意味着处理效应可加、无交互、且未测量混杂对结局的效应仅依赖基线协变量。 - 与已有文献的对比:相比 MVMR(Sanderson 2022),本文不依赖遗传学排他性;相比 Michael 等 (2020) 的 MSMM,本文用 2SLS 而非加权估计;相比 Tompsett 等 (2025) 的 g-estimation,本文用 OLS 框架而非 g-estimation 的非线性求解。
主要结果: 1. 扩展 2SLS 的一致性(理论):在条件 IV 假设与线性结构均值模型下,扩展 2SLS 的第二阶段估计 \(\hat{\beta}_t\) 一致收敛至真值 \(\beta_t\)。证明依赖于第一阶段纳入 \(M_t\) 后,\(\hat{A}_t\) 与第二阶段残差条件独立。 2. 模拟结果(核心量化结论): - 设定:\(T=2\)(三个时间点),\(\beta_t = (3, 2, 1)\),ATE = 6。模拟了 6 种场景:正确设定、第二阶段遗漏 \(L_0\)、第二阶段遗漏交互项、第一阶段误设定、弱 IV、IV 外生性部分违反。 - 扩展 2SLS vs 标准 2SLS:在正确设定下,两者均无偏,但标准 2SLS 的 RMSE 更大(因第一阶段效率损失)。在第二阶段遗漏 \(L_0\) 时,标准 2SLS 偏倚达 20%+,覆盖率降至 50%以下;扩展 2SLS 偏倚 < 5%,覆盖率 ~95%。在第二阶段遗漏交互项时,扩展 2SLS 偏倚仍 < 10%,标准 2SLS 偏倚 > 30%。 - 弱 IV 场景:Sanderson-Windmeijer 条件 F 检验能有效诊断弱 IV;在弱 IV 下,扩展 2SLS 的覆盖率降至 ~80%,但偏倚仍远小于标准 2SLS。 - IV 外生性违反:当 \(Z_t\) 与 \(U_Y\) 有微弱相关(\(\rho=0.1\))时,扩展 2SLS 偏倚 ~15%,标准 2SLS 偏倚 ~40%。 3. 弱 IV 诊断:本文将 Sanderson-Windmeijer (2016) 的条件 F 检验移植到扩展 2SLS 的第一阶段,对每个 \(A_t\) 检验在给定其他内生变量拟合值后 \(Z_t\) 的剩余预测力。模拟显示该检验在扩展 2SLS 下有效,但在标准 2SLS 下因遗漏 \(\bar{A}_{t-1}, \bar{Z}_{t-1}\) 而失准。
证明路线与技术技巧: - 整体路线: 1. 定义条件 IV 集合 \(M_t\):从因果 DAG 出发,识别使得 \(Z_t\) 满足条件独立性的最小变量集。 2. 构建扩展第一阶段:对每个 \(t\),将 \(A_t\) 对 \((Z_t, M_t)\) 回归,得到 \(\hat{A}_t\)。 3. 构建第二阶段:将 \(Y\) 对 \((\hat{A}_0, \ldots, \hat{A}_T, L_0)\) 回归,得到 \(\hat{\beta}_t\)。 4. 证明一致性:通过条件 IV 假设,论证 \(E[\hat{A}_t (U_Y + \sum U_t)] = 0\),从而第二阶段 OLS 一致。 5. 等价性证明:在特定条件下(IV 数量 = 内生变量数量、两阶段均用 OLS),证明扩展 2SLS 与有限信息最大似然 (LIML) 及 k-class 估计量等价,从而继承其渐近性质。 - 关键跳跃点: - 从条件 IV 到第一阶段设定的映射:作者需要论证 \(M_t\) 的选择不仅满足条件独立性,还使得第一阶段 OLS 拟合值 \(\hat{A}_t\) 与第二阶段残差独立。这一步依赖于线性模型假设与 \(M_t\) 的完备性——若 \(M_t\) 遗漏了某个可观测混杂,条件 IV 假设可能仍成立,但 \(\hat{A}_t\) 会包含混杂信息,导致偏倚。作者在模拟中测试了这一风险(遗漏 \(L_0\) 场景),但理论部分未显式处理 \(M_t\) 误设定的后果。 - 等价性证明中的矩阵运算:作者通过展开 \(P_Z = Z(Z'Z)^{-1}Z'\) 与 \(P_{Z,M}\) 的投影矩阵,证明在 \(Z\) 数量 = \(A\) 数量且两阶段均 OLS 时,扩展 2SLS 的估计量与标准多变量 2SLS 在特定投影空间下数值相等。这一步依赖于 \(Z\) 与 \(M\) 的投影空间正交性,即 \(Z\) 的变异在控制 \(M\) 后完全独立——这是线性代数技巧,不是因果假设。 - 技术技巧点名: - 投影矩阵与 OLS 几何:用 \(P_Z\) 与 \(P_{Z,M}\) 的分解论证等价性(用在哪:等价性证明;起什么作用:将扩展 2SLS 纳入经典 2SLS 的渐近理论框架)。 - Sanderson-Windmeijer 条件 F 检验:用 Cragg-Donaldson 统计量的条件版本诊断每个 \(A_t\) 的 IV 强度(用在哪:第一阶段诊断;起什么作用:在多内生变量设定下避免整体 F 检验的误导)。 - Bootstrap 置信区间:用非参数 Bootstrap 估计 \(\hat{\beta}_t\) 的标准误(用在哪:第二阶段推断;起什么作用:避免渐近正态近似在有限样本下的覆盖率不足)。
真实例子与应用: - 数据 / 场景:英国 THIN 数据库(The Health Improvement Network),约 40,000 名 2 型糖尿病患者,2006-2013 年。基线为首次处方二甲双胍后需要强化治疗的时间点。处理 \(A_t\) 为"是否在时间 \(t\) 接受 DPP4 抑制剂 vs SU"(二值)。结局 \(Y\) 为 12 个月后 HbA1c 变化量(连续)。 - IV 构造:\(Z_t\) 为"医生在时间 \(t\) 前 12 个月内处方 DPP4 vs SU 的比例"(连续,时间变化)。作者论证此 IV 满足条件排他性:给定患者基线特征 \(L_0\) 与当前临床状态 \(L_t\),医生的处方偏好只通过当前处方 \(A_t\) 影响结局,不直接影响 HbA1c 变化。 - 怎么用上去: - 第一阶段:对每个时间窗口,回归 \(A_t\) on \((Z_t, L_t, \bar{A}_{t-1}, \bar{Z}_{t-1})\),得到 \(\hat{A}_t\)。 - 第二阶段:回归 \(Y\) on \((\hat{A}_t, L_0)\),得到 \(\hat{\beta}_t\) 与 \(\hat{\text{ATE}}\)。 - 诊断:计算 Sanderson-Windmeijer 条件 F 值,检验 IV 强度。 - 得到什么结果: - 条件 F 值 > 10(IV 强度足够)。 - 扩展 2SLS 估计的 ATE = -0.45(95% CI: -0.82, -0.08),表明 DPP4 相比 SU 在 12 个月后 HbA1c 下降多 0.45 个单位。 - 标准 2SLS 估计的 ATE = -0.20(CI 更宽),与扩展 2SLS 差异显著,印证了模拟中标准 2SLS 偏倚的警告。 - Naive 回归(无 IV)估计 ATE = -0.10,偏倚方向与 IV 估计相反,提示未测量混杂(如患者自选择)导致 SU 看似更有效。 - 这个例子想说明什么:展示扩展 2SLS 在真实纵向数据中的可操作性,验证医生处方偏好作为时间变化 IV 的合理性,并对比标准 2SLS 与 Naive 方法的偏倚差异。
🔎 结论是否比证明窄: - 一致性证明的局限:作者在理论部分只证明了扩展 2SLS 在线性结构均值模型与条件 IV 假设下的一致性,未给出渐近分布或效率界。模拟中用 Bootstrap 做推断,但缺乏渐近正态性的理论保证。 - 误设定稳健性的声称 vs 证明:作者声称扩展 2SLS 在"某些第二阶段误设定下相对稳健",但这一结论仅基于模拟,无理论证明。模拟中遗漏 \(L_0\) 时扩展 2SLS 偏倚小,是因为 \(L_0\) 对 \(Y\) 的效应被 \(\hat{A}_t\) 吸收了一部分(因 \(\hat{A}_t\) 包含 \(L_0\) 的投影),但这不是一般性性质——若遗漏的混杂与 \(\hat{A}_t\) 不正交,偏倚仍会很大。 - 无未测量混杂预测依从类型的假设:Michael 等 (2020) 显式要求此假设,本文在引用中提及但未在定理中显式陈述其必要性。若此假设不成立,扩展 2SLS 的一致性可能被打破——作者未讨论这一风险。
四、开放问题(点到为止)¶
- \(M_t\) 误设定的后果:若条件 IV 集合 \(M_t\) 遗漏了某个可观测时变混杂 \(L_t^*\)(即真实 \(M_t^* = M_t \cup \{L_t^*\}\)),扩展 2SLS 的偏倚方向与界是什么?本文模拟仅测试了遗漏 \(L_0\),未测试遗漏 \(L_t\)(\(t>0\))。扎根点:第 3.2 节模拟设定仅考虑基线混杂遗漏,未讨论时变混杂遗漏。
- 非线性结构均值模型下的扩展:本文局限于线性可加的 \(\sum \beta_t A_t\) 结构。若处理效应存在交互(\(A_t \times A_{t-1}\))或与混杂交互(\(A_t \times L_t\)),2SLS 的第二阶段如何扩展?扎根点:第 2.2 节假设 4 限定为线性结构均值模型,模拟场景 5 测试了交互遗漏但仅展示偏倚,未提出解决方案。
- 渐近效率与半参数界:扩展 2SLS 在条件 IV 假设下的渐近效率界是什么?与 g-estimation 的 SNMs 或 MSMM 加权估计相比,2SLS 是否达到半参数有效界?扎根点:第 4.1 节仅证明一致性,未讨论效率;Vansteelandt & Joffe (2014) 指出 g-estimation 在 SNMs 下可达到局部有效界,本文未比较。
- 无未测量混杂预测依从类型假设的必要性:Michael 等 (2020) 的此假设在扩展 2SLS 框架下是否必需?若违反,偏倚的量级如何?扎根点:第 2.1 节引用 Michael 等 (2020) 的数据结构,但定理陈述中未包含此假设,留下识别完备性的缺口。
Maintained by 陈星宇 · Homepage · Source on GitHub