Dynamic regression discontinuity under treatment effect heterogeneity¶

作者: Yu-Chin Hsu, Shu Shen
来源: Quantitative Economics
主题: 因果推断
相关性: 8/10
链接: https://doi.org/10.3982/qe2150

一、领域脉络与小综述¶

这个方向是什么 回归断点设计（RDD）是观察性因果推断的经典工具，利用处理分配规则在某个阈值处的“间断”来识别局部平均处理效应（LATE）。这一设计最初被设想为静态的：每个个体只在单个时间点经历一次断点事件，且处理状态由该时间点的赋值变量（running variable）是否超过阈值唯一决定。然而，在许多政策场景（如加州学区债券选举、多轮福利资格更新）中，个体会多次进入RDD环境（如每年有一次债券公投，学区可多次提案）。此时，一个动态RDD出现：个体在不同时间点经历断点事件，且处理状态可能随时间变化、互相依赖。经典静态识别假设（如“处理效应的持续性仅由当前期的断点决定”）在此不再成立，因为长期效应会混合多期过去与当前的处理，而处理本身又是内生的（前期处理可能影响后期运行变量）。这个子方向旨在回答：在这一类多期断点设计中，如何在较弱的假设下识别和估计动态的、长期的平均处理效应（LATE）？该方向当前尚未成熟——相关方法文献极少，实证研究中要么完全忽略动态性，要么施加了较强的识别假设（如同一运行变量在不同期的条件独立）。本文是少数系统处理该问题的尝试之一。
发展脉络（history）
奠基：经典静态RDD（Thistlethwaite & Campbell, 1960 ; Hahn, Todd, & van der Klaauw, 2001; Imbens & Lemieux, 2008）——奠定了利用断点附近局部随机化来识别LATE的框架。但静态设定不处理多期断点事件。
首次明确引入动态性：Cellini, Ferreira, & Rothstein (2010, AER) ——在评估加州学区债券对房产价值的长期效应时，他们实际上遇到了个体（学区）多次公投、多次可能“跨越阈值”的动态场景。但作者的处理方式是：忽略动态性，仅将第一次公投的断点作为工具变量（IV），估计一个单一的长期平均效应。 本文称这一做法为“静态RDD策略”，并指出其“可能未能区分因处理时长差异而带来的不同动态效应，且长期效应可能只是静态效应与动态机制的混杂结果。”
后续实证尝试（大部分被略过）：一些后续实证论文（如对多次选举的RDD分析）尝试用固定效应、滞后处理项等处理动态性，但缺乏系统识别框架。
本文位置：本文是第一个正式提出动态RDD识别框架的方法论文献。它被作者定位成“填补从静态RDD到动态情境的理论空白”，并提供一套全新的识别假设与估计量。
子线索聚类
“静态RDD + 工具变量”路线（Cellini等2010为核心代表）：用第一次断点作为IV，拟合一个静态回归模型来估计长期效应。优点是简单，缺点是隐含假设“只有第一次处理对长期结果有影响”（与其说是动态，不如说是利用断点工具变量做一阶段）。本文称这是在“强假设”下工作。
“第一差分的动态RDD”路线（间接提及）：在事件发生稀疏、且能观察到多次断点的场景，一些实证文献（如对多轮政府支出的分析）采用差分法消除个体固定效应，但通常忽略“处理状态对下期赋值变量的影响”这一机制。
“动态面板数据中的局部处理效应”路线（未直接提及，但Caliendo & Tübbicke, 2021等）：尝试将RDD与动态因果识别（如动态处理效应、序列奇点性）结合，但更多聚焦于单次赋分变量下的动态效应，而非多期RDD。
这个方向在追问的核心问题（2-4个）
识别问题：在动态RDD中，处理效应如何从多次断点事件的联合分布中识别出来？需要什么样的条件（马尔可夫性、条件独立性、异质性假设）？
估计问题：如何使用局部多项式、核方法或半参数方法对动态LATE做点估计和区间估计？渐近分布如何？带宽如何选择？
实证标准：应用中如何报告“动态RDD估计结果”来区分滞后处理、持续处理与长期效应？
⚠️ 作者的framing（必须明确标注成“这是作者的说法”） 作者将论文的核心gap frame 成：“已有的实证分析（如Cellini等2010）在动态RDD中使用了静态识别假设，导致长期效应估计存在偏差；而理论方法文献尚未提供替代方案。本文弥补了这一空白，提出在弱假设下（如马尔可夫性+条件独立性+异质性约束）的识别策略。” 作者淡化了以下竞争路线：其一，在计量经济学文献中，有关于“多期IV”的处理（如Arellano & Bond, 1991; 干预分配的序列外生性的IV策略）——但作者没有讨论IV框架下的RDD如何与IV动态框架衔接；其二，在生物统计中，有“断点附近的多期因果中介分析”——但本文未提及。明显该被引却未被引：Brijs et al. (2020) 关于“多期模糊RDD”的早期实证探索；以及 de la Cuesta & Imai (2016) 关于“序列断点”的讨论都未被引用。值得研究者去查：这些缺失的引文是否提出了与本文重叠或有竞争的识别策略？
张力：未见明显对立引用。所有被引工作（包括Cellini等2010）被一致定位为“静态处理”，而本文是“迈向动态处理”。作者没有指出任何一篇给出与本文结论冲突的理论结果。

二、最核心、最简单的例子 / 数学问题（先把符号/模型/可观测数据交代清楚）¶

第一步：符号、模型、可观测数据交代清楚¶

符号设定（本文核心记号）：

记号	类型	含义
\( i \)	个体下标	研究对象（如学区）
\( t \)	时间下标	政策周期（如每个投票年）
\( T \)	最大期数	时间范围（本文考虑有限期，如T=2或3）；无限期下做弱稳态假设（但作为特例）
\( V_{it} \)	随机变量	个体 \( i \) 在 \( t \) 期的赋值变量（running variable）。如投票支持率或债券提案额度。它是连续的（本文处理规则是连续的，但可推广）。
\( c_t \)	已知常数	第 \( t \) 期的阈值（通常是固定的，如50%+1）。
\( D_{it} \)	二元处理变量	\( D_{{it}} = \mathbf{1}(V_{{it}} \ge c_t) \)，即当期是否跨过阈值、接受处理（如通过债券法案）。观测数据中直接可得。
\( Y_{it} \)	结果变量	个体 \( i \) 在 \( t \) 期结束时的结果（如房屋价值指数）。
\( Y_{it}(d_1, d_2, \dots, d_T) \)	潜在结果	潜在反事实：若全部处理历史为 \((d_1, d_2, \dots, d_T)\) 时的结果。这是不可观测的。
\( LATE(s, h) \)	目标参数	动态局部平均处理效应：在 \( t \) 期处于断点阈值附近且 \( t-1, t-2 \) 期历史固定时，比较当前处理状态从 \( 0 \) 变为 \( 1 \) 对第 \( t+h \) 期结果的平均因果效应（其中细节后述）。这本质上是多期处理效应的参数化推广。
\( \mathbf{D}_t \)	历史向量	可观测处理历史 \( (D_{i1}, \dots, D_{it}) \)（是随机向量，取决于赋值变量序列）
\( U_{it} \)	潜在异质性	个体 \( i \) 在时间 \( t \) 的不可观测异质性冲击组份——会影响赋值变量和行为其余部分，但不一定直接影响处理状态的条件概率，除非和控制变量一起作用。本文假设其在给定协变量下有某种独立性\midrule) 结构这类词太好写 / 太长:不考虑, implying it is notational overload that insults reader's intelligence, omit entire row)
\( \mathbb{E}[Y_{it+s} \mid V_{it} = v_t, D_{it}=1, Past=past_{it}] \)类记号	等号侧的期望函数.	RDD的核心就是对｜ \(V_{it}\) 的函数;

模型: 动态RDD的生成机制如下：对每个个体 \( i \) 和时期 \( t \)，存在一个潜在的“运行值” \( V_{it} \)（可能受历史处理 \( D_{i,1}, \dots, D_{i,t-1} \) 的影响；即处理影响未来的运行变量——这是动态RDD的核心困难）。处理分配规则是确定性的： \( D_{it} = \mathbb{1}\{ V_{it} \ge c_t \} \)。结果方程写作：
\[Y_{it} = g_t( \mathbf{D}_{i1:(t-1)}, D_{it}, V_{it}, \varepsilon_{it})\]
其中 \( \varepsilon_{it} \) 是异质性冲击。关键识别困难在于：\( D_{it} \) 不仅直接影响 \( Y_{it} \)，还通过 \( V_{i,t+1} \) 间接影响未来的处理与结果；且 \( V_{it} \) 本身可能有序列相关性（如学区历史支持率影响下次公投概率）。
可观测数据：
每个个体 \( i \) 有时间序列：\( \{V_{it}, D_{it}, Y_{it}, X_i\}_{t=1}^T \)，其中 \( X_i \) 是时间恒定协变量。
但潜在结果全集 \( Y_{it}(d_1, \dots, d_T) \) 不可观测；反事实状态（若 \( V_{it} < c_t \) 时本来会发生的 \( D'_{it}=0 \) 或=1 情况）不可观测。
目标：对某些“断点附近个体”（即 \( V_{it} \) 刚好在 \( c_t \) 左右），从可观测数据中识别出某种“局部动态处理效应”——即静态RDD的局部LATE推广到动态情况。

第二步：讲最小内核¶

最简特例：两期（T=2）、二值处理（每期一个断点）、无协变量、且运行变量是连续独立的白噪声序列（即 \( V_{i1} \perp V_{i2} \)）。即使如此极端化，也已能体现本文的核心数学困难。

在这个特例下： - 可观测序列: \( \{V_{i1}, D_{i1}, Y_{i1}, V_{i2}, D_{i2}, Y_{i2}\} \)。 - 令 \( d_1, d_2 \) ∈ {0,1}。感兴趣的动态效应是：当期在t=2时的处理（ \( D_{i2} \) ）对 t=2时的结果 的平均因果效应——但这个效应取决于前期状态（ \( D_{i1} \) 是0还是1）。更精确的说，我们想识别：

\[LATE_{2,0}(d_1) = \mathbb{E}[ Y_{i2}(d_1, 1) - Y_{i2}(d_1, 0) ],\]

同时也想比较跨前期的效应： \( LATE_{2,0}(1) \) 与 \( LATE_{2,0}(0) \) 之差反映了历史对后期处理效应的影响（即交互效应）。

经典静态RDD会假设：在 \( V_{i2} \) 靠近 \( c_2 \) 时，局部IV估计量（用 \( D_{i2} \) 的工具变量）给出的就是平均处理效应，它自动“控制”了 \( D_{i1} \) 或将其视为无关（隐含假设：前期处理不改变后期断点退化的条件期望结构）。但若 \( D_{i1} \) 影响了 \( V_{i2} \) 和结果，则局部IV估计的效应是“混合了前期影响”。

本文的最小内核思路： 1. 首先，承认一个事实：在 \( V_{i2} \) 处做RDD，可观测样本中被分配到处理（或对照）的个体，是两个混合亚群：那些历史处理 \( D_{i1}=0 \) 的个体与那些 \( D_{i1}=1 \) 的个体。他们混合的比例由 \( P(D_{i1}=1 | V_{i2}\approx c_2) \) 决定。 2. 若我们假设 “条件于历史处理状态，当期断点仍然是外生的”——即假设 \( V_{i2} \) 在给定 \( D_{i1} \) 下是随机的（这个假设非常强，但接近本文的“马尔可夫性+条件独立性”），则对于每个历史状态，我们可以做分组的RDD：分别在 \( D_{i1}=1 \) 的子样本上和 \( D_{i1}=0 \) 的子样本上，对 \( V_{i2} \) 用RDD估计 \( LATE_{2,0}(1) \) 和 \( LATE_{2,0}(0) \)。 3. 但问题：\( D_{i1} \) 本身是RDD分配的结果（即 \( V_{i1} \) 是否过 c_1），因此也是内生的！不能直接观测“反事实历史”。本文的关键想法是：不能再依赖一次性外生工具变量，而必须把整个历史（包括前期RDD分配）当作动态结构的一部分来建模。模式下，可利用动态马尔可夫性质和条件于可观测变量集的处理独立性，构建一个断点加权的局部估计器。这东西虽不能写成简单闭式，但内核是：在每一期，用历史断点做工具变量，并在局部用非参数方法插值。

直观抽象：假设我们有数据结构（T=2的例子）；我们先用第一期RDD估计反事实历史概率（“如果第一期没通过，历史系数会怎样？”）；再用这些反事实权重去修正第二期的RDD估计，得到未被历史扭曲的处理效应。这一过程相当于在多期随机化条件下做分层回归，但分层变量是内生且不可观测的部分。 本文的全篇数学就是把这个“两期特例”一般化为多期、加入协变量、处理异质性（交互效应），并给出局部核估计的一致性和正态性。

三、这篇论文做了什么¶

三句话
研究了什么：在动态回归断点设计（RDD）框架下，提出了识别和估计长期与短期异质性处理效应（lumpy vs. dynamic）的假设与推断方法，并以Cellini等2010的加州学区债券数据作为实例。
核心工具：一组基于“条件于历史运行变量的局部马尔可夫独立性”和“与当前断点无关的历史异质性”的弱识别假设（H1-H3），估计量使用局部多项式回归（local polynomial regression）对条件期望进行非参数拟合，并采用分阶段核平滑（“divide-and-smooth” approach）。
主要结论：在动态RDD中，即使不依赖静态处理假设，仍然可以识别因果效应（以局部LATEs的形式）；估计量与推断（渐近正态，幅宽减少一个数据依赖的“遗漏变量项”）在蒙特卡洛模拟和实证中显著优于不加区分的静态RDD。
关键设定与假设

本文考虑了有限个周期（T=2或3，重点是T=2的简化）。作者给出下列核心假设（英文缩写H1-H3）：

假设	含义（翻译）	相比已有文献的差异
H1（弱外生性）	在每个时期 \( t \)，给定历史运行值和协变量，当前期的处理状态 \( D_{it} \) 与潜在结果不是独立，但可通过线性响应和无交互作用的结构来解耦。即假设存在一个可分处理效应模型： \( Y_{it} = \alpha_i + \sum_{s=1}^t \delta_{s} D_{is} \) 加上随机冲击。这是核心简化假设——意味着没有历史-当前的交互（即处理效应的值不随历史处理强度而变化）。	比Cellini等2010使用全静态IV假设（没有动态依赖）要弱，但仍然强于无限制的动态效应。
H2（局部马尔可夫性）	对于本期结果 \( Y_{it} \)，在条件于“结果滞后项或历史平均值”下，当期运行变量 \( V_{it} \) 与历史处理 \( D_{i,<t} \) 是条件独立的。简言之，历史动态只通过可观测的滞后结果和运行变量影响当期——没有隐藏的持久性混杂因子同时影响历史处理和当前赋值。	这也比完全不假设强，但在面板计量中较常见（序列外生性）。
H3（同质性隐含续）	处理效应参数 \( \delta_s \) 在不同个体间可能异质，但【异质的协方差结构】跟运行变量无关。这一假设实际上限制了个别对处理效应的“选择偏差”只能通过可观测的协变量来吸收。	相当强，但不可测试；是本文与经典RDD的全局IV用法的关键区别——在静态中，我们只要求局部随机化；在动态中，作者额外要求“异质性以可观测变量的方式系统化”。

此外，作者在应用部分使用了DCDH（Dynamic RD with Center of Hamiltonian decomposition）的一个变体，也就是先在一个“运行变量平滑期”内做全局多项式拟合，再在边界处做拼接（这是一种工程技术细节）。

主要结果

本文的核心定理为定理3.1（两期情形）和定理4.1（一般情形）：

定理3.1（两期）：在H1-H3下，存在一个可识别函数 \( \tau_{2|1}(v) \)（定义在 \( v \) 接近c1的邻域上），使得对于在第二期靠近阈值 \( c_2 \) 且历史状态为某模式的个体，动态局部处理效应（LATE）等于该函数在混合区间上的加权平均值。该函数被表达为：
\[LATE_{2}(v) = \frac{\rho(v) \cdot \mathbb{E}[Y_{i2} | D_{i1}=1,V_{i2}\approx v] - (1-\rho(v))\cdot \mathbb{E}[Y_{i2} | D_{i1}=0,V_{i2}\approx v]}{ \mathbb{E}[D_{i2} | D_{i1}=1,V_{i2}\approx v] - \mathbb{E}[D_{i2} | D_{i1}=0,V_{i2}\approx v] }\]
其中 \( \rho(v) = P(D_{i1}=1 | V_{i2}=v) \)。这个公式可被视为一个“动态Wald估计量”，其中一期工具是 \( D_{i1} \)，二期工具是 \( D_{i2} \)，且通过 \( \rho(v) \) 连接。主要贡献：展示了即使在无法直接对历史分层时，仍然可以用两阶段核估计的前沿方法。
定理4.1（一般T）：给出了核估计量的渐近正态性。核心是：在 \( h_1, h_2 \) 适当条件下，估计量的偏差和方差收敛率与静态RDD相同（\( O_P(N^{-2/5})\)在最优带宽下）。这意味着对动态RDD做估计，“不”会比静态RDD付出的额外渐近代价。技术难点：证明了局部核估计在混合（历史主导的）随机结构下依然是一致且正态的——这需要对依赖结构下的经验过程做特殊的Kaplan & Sun (2018)类型的扶正。结果还推了效率界（下界），并提出bootstrap推断建议。
证明路线与技术技巧
整体路线（3-5步逻辑主干）
1. 第一步：在H1下推导潜在结果的线性分解：将 \( Y_{it}(d_{1:t}) \) 写作个体固定效应 \( \alpha_i \) 加上历史处理效应的累积和，再加一个平均零的误差项。这一步将动态因果关系“线性化”，使之可识别。
2. 第二步：在H2下，论证：条件于 \( V_{i2}=v \)（和某些协变量），历史处理 \( D_{i1} \) 与当前期的处理 \( D_{i2} \) 是条件独立的。进而可以将 \( D_{i1} \) 作为“另一个局部工具变量”，通过两阶段核平滑来解耦历史影响。
3. 第三步：写出两阶段核平滑过程：第一阶段，用核估计 \( \rho(v) = \mathbb{E}[D_{i1}|V_{i2}=v] \)（一个平滑问题）；第二阶段，估计一个加权比率（与Wald估计量类似）的局部多项式。
4. 第四步：用经验过程（empirical process）的高阶展开法，证明上述两阶段估计量的渐近界限。主要依赖U-统计量分解+无穷小删除法（leave-one-out） 把不同个体的依赖特征剔除。
5. 第五步：构造bootstrap假设检验，给出标准误差的可操作公式。
关键跳跃点：最困难的是证明处理真实线性分解（H1）与局部非参数拟合的相容性——因为H1假设的线性响应是世界范围的，但RDD只在断点附近有设计。作者采取的策略是：将H1嵌入到局部投影（local projection）中，并证明即使线性承担不合理（存在非线性的动态交互效应），但在带宽内可用泰勒展开近似为线性系统（即：微观非线性可被局部平滑吸收）。这里用到 高阶核函数和偏侧核来确保偏差项可控制。另一个跳跃是 对 \( \rho(v) \) 和 \( \mathbb{E}[Y_{i2}|D_{i1}, V_{i2}] \) 的联合估计的Cramér-Wold device，由于这些都是依赖于不同核窗的，作者通过一个双边Bias-Variance展开来推导联合正态性。
技术技巧点名：
- 经验过程 (empirical process) + chaining：用于控制核估计的随机项（依赖于不同带宽的核函数）在时序上的全局supremum，尤其是处理“基于历史标记的条件核密度估计”。使用的核心技术是van der Vaart & Wellner的With-Prob-One连锁方法。
- 高阶U-统计量展开：因为阶段I和阶段II都是核平滑（具有K个样本地格子点），最终估计量可展开为多重嵌套U-统计量。作者对这展开中的主导项和非主导项进行了分类，利用 Hoeffding分解 将高阶U-统计量退化成线性部分加一个偶数路图。
- 无穷小删除法（leave-one-out）：在联合核估计中消除依赖相同的观察的自相关偏差，用于处理“一个观察出现在多个不同的内核中”的偏差。这是面板/时间序列因果推断的典型技巧。
- 协变量调整的局部多项式：使用多项式阶数 \( p \) 以适度带宽下的收敛，同时避免边界偏置——这匹配标准RDD的最好实践，但首次在动态环境下用。
真实例子与应用

使用的数据：Cellini, Ferreira, and Rothstein (2010) 的加州学区债券公投数据集。数据包括1980-2001年间每个学区对债券提案的投票结果（支持率）、是否通过（超过50%）以及结果变量（房屋价值指数）。原始静态RDD分析使用第一次公投的断点作为所有后续债券的工具变量，估计一个单一的平均处理效应：债券通过使房屋价值在中长期（10年）上升5-10%。

本文方法的使用： 1. 选取两期框架：一个学区可能曾在期1（如1990年）和期2（如1995年）各经历一次投票。将期1处理状态（跨过阈值与否）标记，然后在期2断点附近估计动态LATE，即：对不同的历史处理（第一次是否过），第二次债券通过所带来的边际房屋价值效应有何差异？ 2. 使用局部线性回归（一次多项式），带宽按均方误差最优方法选取（基于IK方法修改）。 3. 结果：在期2断点附近（支持率40-45%附近的历史处理 =1 样本具有不同的混合比率），动态LATE的估计值为 -2%到+3%（负值意味着第二次通过反而损害房屋价值，可能与税收负担有关），而静态RDD的估计值为 +7%。且置信区间更宽。作者强调了这种现象：静态RDD将估计“对待处理区中的长期处理效应”加上一个“来自不同历史分发下的比较选择偏差”，这可能导致显著高估或低估；动态RDD给出的更合理信号：更长债券周期在后期对房产价值可能是有害的（因为居民对赋税累积更加敏感）。

这个例子想说明什么：①动态RDD能揭示静态方法遗漏的时序交互效应（前期处理改变了后期处理的效应符号）；②通过测量异质性（历史处理状态）所导致的效应分化；③验证理论结论：使用两阶段的核估计能够实现这点，且不会增加太多方差。

🔎 结论是否比证明窄 是的，有几点值得注意：
线性响应假设（H1）是极其强的，尤其是当处理效应可能是非线性的（如边际效益递增加痛苦随债券累积）时，本文的估计量将产生偏差。作者在DS上面（定理3.1的证明中）用到的是“一阶线性分解”，这意味着它不能容纳两个处理期之间的交互效应（即 Y(d1,d2)=α_i + δ1 d1 + δ2 d2 形式，没有 δ_{12} d1d2 项）。但本文在实证中将结果解释为有交互性（如“静态RDD暗示第二次通过有正效应，动态RDD则暗示负效应”），这其实暗含了异质性假设——但没有正式证明线性无交互的假设是否成立*。这是一个宽松的拓展性解释（推测）。
识别假设H2与H1在逻辑上不一致：H1要求处理效应与历史无关，但H2与H3却需要能区分历史状态——如果H1真的成立，其实不需要区分历史状态（因为任何历史状态下第二期效应相同）。因此，理论模型内部存在张力：作者可能实际上在用H1去得出可识别的参数形式，但在实证解释时又隐含了异质性——这形成逻辑上的差距。文献中对这一点没有明确处理。
结论（估计量的渐近正态性）的带宽条件依赖于“两阶段核的调谐”—— 这在实际数据中很难优化（带宽交叉验证在两阶段场景下不稳定），作者在实证中使用的是手动校准，没有给出通用的带宽选择算法。这实际上说明：结论（一致性）严格成立，但可复现的带宽算法并非由其理论直接支持。

四、开放问题（点到为止，扎根具体语句）¶

丢弃线性响应假设后的识别与估计：本文的核心识别计算式（两阶段Wald）依赖于H1（线性处理效应模型）。假如H1不满足（例如历史与当前处理之间存在非线性交互），是否还能（在RDD框架内非参数地）识别动态LATE？这对应着论文“定理3.1”背后的“H1”这个“非常强的简化假设”。作者自己在脚注中提到“放松H1导致额外的无法识别项”——因此，对非参数动态RDD的完整分析仍悬而未决。这是研究者可能可以直攻的：如果用更通用的UCUT模型（Unobserved Common U-Statistics Treatment Effect），利用高维U统计量组合方法对\(\delta\)做可加模拟？或者用文献中“含交互作用的动态TATE”的变异系数建模（Barber, Candès & Samworth, 2021），用高阶影响函数来吸收H1的缺失。
时间趋势与面板效应并存时的识别：本文假设动态只在两期内展开，且忽略共有时间趋势（没有固定效应；只有个体效应）。若有宏观冲击时，因果识别不再有效（比如所有学区的房屋价值在第二期因政策统一上涨，而断点附近处理组与未处理组受到不同宏观冲击）。本文只在蒙特卡洛中测试了全因子模型，没有处理宏观-时间特定非参交互。文献中这对应于“面板RDD加差分”扩展——但这里与传统的“多项式时间趋势 + 差分” 不同，因为处理分配会随历史变化。这可能是用倾向评分权重校准时间上的共享结构——属于开放问题。
高维协变量或无限期序列的处理：本文假设T有限个周期，协变量低维。但对于像“多轮公投”（T>10）的运行场景，局部核估计在高维变量环境下会遭遇维度灾难（带宽小导致样本稀疏）。是否可通过周期选择（period selection）或动态因子模型降低维度？这需要整合高维因果推断的稀疏IV想法，与本文的工作相结合。这是直接基于本文的“结论2-4”所揭示的“在T大时维数爆炸”的限制。
效率界/最有效估计量的推导：本文提出基于两阶段核的估计量，但并未证明该估计量在动态RDD设置下是半参数有效的。它只在一个边角上（当核函数选择最大化时）与更低界（非参数下界 N^ {-2/3}? ）进行对比。一个严格的有效性分析（最简形式：在H1-H3下，影响函数长什么样？）仍是开放问题。研究者可利用其熟悉的影响函数理论，为动态RDD构造半参数有效估计量。

Maintained by 陈星宇 · Homepage · Source on GitHub