Semiparametric Dynamic Logit Model with Endogenous Networks¶

作者: Brice Romuald Gueyap Kounga
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.16230

一、领域脉络与小综述¶

这个方向是什么¶

本文所解决的根本问题是：在面板二值选择模型中，当存在时变的未观测社会特征（同时驱动经济决策和社会网络形成）时，如何识别和估计模型的斜率参数与状态依赖系数。这是一个经典的“内生性 + 遗漏变量”问题在网络面板数据情境下的具体呈现。这个子方向的当前成熟度较低：多数已有工作要么假设网络是外生的（或仅处理静态网络），要么假设未观测异质性是时间不变的（可被固定效应吸收），而本文首次尝试将两者同时放松。

发展脉络（history）¶

奠基工作： - Chamberlain (1980) 和 Heckman (1981) 开启了面板二值选择模型中状态依赖与异质性的方向。Chamberlain的条件似然思路是本文的核心武器之一。 - Honoré and Kyriazidou (2000) 做出了关键突破：他们证明，在动态logit模型中，通过交换邻近时刻结果序列的顺序（满足概括统计量相同），可以把个体固定效应消掉。这是本文的第二个核心武器。作者在文中用"key breakthrough"（原文）定位这篇工作。 - Robinson (1988) 开创了部分线性模型的半参数方法，提供了处理非参数干扰项的经典工具箱。

主要进展： - Auerbach (2022) 证明了一个重要结论：在部分线性回归模型中，具有相同网络形成行为的个体可以通过匹配消掉未观测异质项，而无需为连接形成过程指定参数模型。这是本文的第三个核心武器，也是从网络数据获得识别力的关键。对这个工作的定位，原文是"shows that... agents with identical network formation behavior can be matched to difference out unobserved heterogeneity without specifying the link formation process"（第5页）。 - Goldsmith-Pinkham and Imbens (2013)、Hsieh and Lee (2016)、Arduini et al. (2015) 分别提出用参数或半参数模型来描述连接形成过程，以此获得识别。作者给了这些工作一个清晰的定位："While powerful, these approaches depend on the correctness of the assumed network formation model"（第5页）。这意味着本文的方法论"优越性"建立在不用假设网络形成模型这一特征上。 - Johnsson and Moon (2021) 提出了一种互补的控制函数方法，用了不同的识别假设。

当前frontier 与本文位置： - Ouyang and Yang (2024) 提出了动态二值选择面板模型的半参数估计量，放松了对固定效应分布形式的假设。这篇工作在2024，是动态logit方向的最新进展之一，其匹配思路与本文有相似性。 - Gueyap Kounga (2026) 是本文作者此前的工作（同一个作者的另一篇arxiv文章），建立的是静态半参数logit模型的网络类型匹配识别与估计。本文在摘要中直接把自己的定位说得很清楚："extends the network-type matching approach of Auerbach (2022) from static linear models to a dynamic nonlinear framework"（第3页）。此外，"provides the first identification results for dynamic binary choice models with endogenous network formation"（第3页）。

子线索聚类¶

这些被引文献大致落在三条子线索上：

动态二值选择模型与固定效应（Chamberlain 1980, Heckman 1981, Honoré and Kyriazidou 2000, Honoré and Kyriazidou 2019, Ouyang and Yang 2024）──这条线关注的是在面板二值选择框架下消除个体异质性的数学构造，是识别策略的"纵轴"。
网络形成内生性（Goldsmith-Pinkham and Imbens 2013, Hsieh and Lee 2016, Arduini et al. 2015, Auerbach 2022, Johnsson and Moon 2021）──这条线关注的是如何应对网络形成过程中的未观测偏误。其中Auerbach (2022)的方法是本文"横轴"的直接来源。
半参数面板数据模型（Robinson 1988, Henderson et al. 2008, Qian and Wang 2012）──这条线提供处理非参数干扰项的工具集成，特别是Robinson (1988)的部分线性模型框架构成了本文建模形式的基础。

这个方向在追问的核心问题¶

核心问题	当前主流方法	已知瓶颈
① 如何在网络内生条件下识别动态二值选择模型的斜率参数？	假定网络形成模型已知（Goldsmith-Pinkham and Imbens 2013等）或使用控制函数法（Johnsson and Moon 2021）	"depend on the correctness of the assumed network formation model"（第5页作者原话）
② 如何处理时变的未观测社会特征？	假设wit = wi（时间不变），或把wit当作新的固定效应	时间不变的假设在很多实证中不现实（青少年风险态度会演化）
③ 动态面板logit模型中，网络数据能否替代重复观测来消除时变干扰？	目前没有现成工作	本文的核心贡献就是正面回答这个问题
④ 状态依赖与网络内生性之间的交互会导致什么识别陷阱？	两种困难分别处理，不交叉	本文识别策略同时处理两者

⚠️ 作者的 framing（需要特别标注为作者的说法）¶

作者把缺口frame成什么： "the first identification results for dynamic binary choice models with endogenous network formation, a setting that has received virtually no attention despite its empirical importance"（第3页）。这种framing把本文定位成一个被忽视的盲区的第一个穿透者。

哪些竞争路线被他淡化或回避了： - 他承认 Goldsmith-Pinkham and Imbens (2013) 等方法 "powerful"，但用一句话就带过了它们的依赖条件，没有详细讨论这些参数模型在具体应用中的表现如何。 - 他提到 Johnsson and Moon (2021) 的控制函数方法时只用"complementary"来形容，没有说明自己方法相对控制函数法的精确优势（虽然在模拟中显示了network controls estimator在某些设定下不仅没用，还会引入新偏误）。 - 对于机器学习/深度学习处理未观测异质性的路线（如heterogeneous treatment effect literature中正得到广泛应用的各种方法），这篇intro里完全没有提及。

什么明显该被引/该存在、却没出现在intro里？ - 代理因果推断（Proximal Causal Inference）领域的工作（如Tchetgen Tchetgen et al., 2020; Miao et al., 2018），其中用近因变量（proxies）来识别未观测混杂的思路与本文用网络类型匹配消除latent wit的思路有结构平行性，虽然没有被引但值得你关注。 - 任何与"时变未观测异质性在面板logit模型中的识别"相关的计量理论工作，只看它的ref list的话，覆盖面并不特别宽。（你可能需要自己去搜索是否有其他处理时变latent confounders在面板logit下的工作。）

张力¶

未发现明显的、在给定条件下结论相反的冲突引用。各工作的结论基本上都是"在各自假设下可实现识别"。未发现矛盾。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

目标参数/estimand： \(\beta \in \mathbb{R}^k\)（斜率系数向量），\(\alpha \in \mathbb{R}\)（状态依赖系数）。这两个是要估计的结构参数。
随机变量与样本：
\(y_{it} \in \{0,1\}\)：代理 \(i\) 在时间 \(t\) 的二值结果（如青少年吸烟与否）。可观测。
\(X_{it} \in \mathbb{R}^k\)：时变协变量向量（如零花钱金额、恋爱状态）。可观测。
\(D_{t} \in \{0,1\}^{n \times n}\)：时间 \(t\) 的邻接矩阵（网络连接状态）。\(D_{ijt}=1\) 表示 \(i\) 与 \(j\) 在 \(t\) 时相连（无向，无自环）。可观测。
\(w_{it} \in [0,1]\)：代理 \(i\) 在时间 \(t\) 的未观测社会特征（如风险态度）。不可观测——这是全部内生性的来源。
\(\varepsilon_{it}\)：标准逻辑斯蒂分布误差项。不可观测，但分布形式已知。
\(\eta_{ijt}\)：网络形成过程中的误差项。不可观测。
维数指标： \(i=1,2,\ldots,n\)（代理个数），\(t=0,1,\ldots,T\)（时间周期数），\(T \ge 3\)（否则识别失败，见第4.2节Remark 3）。\(k\) 是协变量的维数。
\(\lambda(\cdot): [0,1] \to \mathbb{R}\)：未知可测函数，代表未观测社会特征 \(w_{it}\) 对结果的直接影响。这是非参数干扰项，需要被消掉。
估计量（最终要构造的是什么）： \((\widehat{\beta},\widehat{\alpha})\)，核加权条件最大似然估计量。

模型（数据生成机制）¶

结果方程（模型的核心结构）：

\[y_{it} = \mathbf{1}\{ X_{it}' \beta + \alpha y_{i,t-1} + \lambda(w_{it}) - \varepsilon_{it} \ge 0 \}, \quad t=1,\ldots,T.\]

其中: - \(X_{it}'\beta + \alpha y_{i,t-1}\) 是"希望估的部分"（线性参数）， - \(\lambda(w_{it})\) 是"希望消掉的部分"（非参数干扰项）， - \(\varepsilon_{it} \sim \text{Logistic}(0,1)\)（已知的分布形式）。

网络形成方程（无参数限制）：

\[D_{ijt} = \mathbf{1}\{ f(w_{it}, w_{jt}, y_{i,t-1}, y_{j,t-1}) \ge \eta_{ijt} \} \cdot \mathbf{1}_{(i \ne j)}.\]

其中 \(f: [0,1]^2 \times \{0,1\}^2 \to \mathbb{R}\) 是完全未知的对称可测函数。不需要对它做参数假设。 它的作用是：连接形成由 \((w_{it}, w_{jt}, y_{i,t-1}, y_{j,t-1})\) 决定，所以网络携带了关于 \(w_{it}\) 的信息——这恰恰是识别策略的切入点。

可观测数据 vs 潜在/不可观测量¶

类别	什么量	以什么形态/维度出现
可观测	\(y_{it}, X_{it}\), \(D_{ijt}\)	面板数据：每个代理每期一个结果、一个协变量向量；每期一个 \(n \times n\) 邻接矩阵
不可观测	\(w_{it}, \varepsilon_{it}, \eta_{ijt}\), 函数 \(\lambda(\cdot), f(\cdot)\)	全是潜在量，只有通过假设或识别策略才能恢复或消掉

第二步：讲最小内核¶

本文的最小内核可以提炼为：在特殊的单期配对比较中，状态依赖参数 \(\alpha\) 如何被识别。

最简特例：取 \(T=3\)（即只有三个结果观测周期 \(t=1,2,3\)，外加初始条件 \(y_{i0}\)），协变量维数 \(k=1\)，且 \(w_{it}=w_i\) 不随时间变化（时间固定的社会特征——这简化了问题但保留了核心逻辑）。

在这个特例下： - 条件 \(\lambda(w_{i,s+2}) = \lambda(w_{i,s+1})\) 自动满足（因为 \(w_i\) 不变），所以只需要 \(X_{i,s+2} = X_{i,s+1}\)。 - 网络存在，但只需要找到两个网络类型相同的个体 \(i\) 和 \(j\)。

核心思路（两句话）： 1. 对单个代理 \(i\)，构造两个结果路径 \(A = (y_{i0}, 0, 1, y_{i3})\) 和 \(B = (y_{i0}, 1, 0, y_{i3})\)。它们的似然比（在 \(X_{i3}=X_{i2}\) 条件下）等于某个指数形式，但仍包含 \(\lambda(w_i)\) 项。 2. 对另一代理 \(j\)（网络类型与 \(i\) 相同，即 \(w_j = w_i\)）做同样的事，然后计算 \(i\) 走路径 \(A\) 且 \(j\) 走路径 \(B\) 的条件概率。此时 \(\lambda(w_i)\) 和 \(\lambda(w_j)\) 完全抵消，只剩下 \((\beta, \alpha)\)。

具体数学推导（最小内核下可读的版本）：

设 \(X_{i3} = X_{i2}\)（协变量局部稳定条件），设 \(w_i = w_j\)（网络类型相同条件——由网络数据的码度匹配实现）。取 \(s=1\)，即交换时期 \(t=1\) 和 \(t=2\) 的结果。

路径 \(A\) 和 \(B\) 的对数似然比（Lemma 1 的特殊版本）：

\[\frac{P(y_i \in B \mid X_i, w_i)}{P(y_i \in A \mid X_i, w_i)} = \exp\big( (X_{i1}-X_{i2})'\beta + \alpha(y_{i0} - y_{i3}) + \lambda(w_i) - \lambda(w_i) \big) = \exp\big( (X_{i1}-X_{i2})'\beta + \alpha(y_{i0} - y_{i3}) \big).\]

这里 \(\lambda(w_i)\) 消掉了。这说明即使不跨代理配对，当 \(w_i\) 不变时，单期 swap 就足以消掉 \(\lambda\)。但本文的设定中 \(w_{it}\) 是时变的，所以才需要跨代理消除 \(\lambda(w_{it})\)。

时变 \(w_{it}\) 情形下的最小内核（真正的核心）：

在时变情形下，单个代理的似然比变为：

\[\frac{P(y_i \in B \mid X_i, w_i)}{P(y_i \in A \mid X_i, w_i)} = \exp\big( (X_{i1} - X_{i2})'\beta + \alpha(y_{i0} - y_{i3}) + \lambda(w_{i1}) - \lambda(w_{i2}) \big).\]

它仍然含 \(\lambda(w_{i1}) - \lambda(w_{i2})\)。现在对网络类型相同的代理 \(j\)（即对所有 \(\tau\) 有 \(w_{i\tau} = w_{j\tau}\)）做同样的似然比，然后形成跨代理条件概率（\(i\) 走路径 \(A\)，\(j\) 走路径 \(B\)，给定它们一正一反）：

\[\frac{P(y_i \in A, y_j \in B)}{P(y_i \in B, y_j \in A)} = \exp\big( ( \Delta X_j - \Delta X_i )'\beta + \alpha\big( (y_{j0} - y_{j3}) - (y_{i0} - y_{i3}) \big) + \big( \lambda(w_{i1}) - \lambda(w_{i2}) - \lambda(w_{j1}) + \lambda(w_{j2}) \big) \big).\]

因为 \(w_{i1} = w_{j1}\) 且 \(w_{i2} = w_{j2}\)（网络类型相同），中间的 \(\lambda\) 项完全抵消：

\[\frac{P(y_i \in A, y_j \in B)}{P(y_i \in B, y_j \in A)} = \exp\big( ( \Delta X_j - \Delta X_i )'\beta + \alpha\big( (y_{j0} - y_{j3}) - (y_{i0} - y_{i3}) \big) \big).\]

取log后，这就是一个标准的 \(F(\cdot)\) 形式（逻辑斯蒂分布函数），完全由 \((\beta, \alpha)\) 决定。于是条件 logit 似然可构造，\(\lambda\) 和网络形成函数 \(f\) 都被消掉了。这就是整篇论文的核心数学操作。

三、这篇论文做了什么¶

三句话¶

① 研究了动态部分线性logit模型（含滞后因变量和时变未观测社会特征）中斜率参数 \(\beta\) 和状态依赖参数 \(\alpha\) 的识别与估计问题，该模型中的网络是内生的（连接形成与结果共享未观测特征）。
② 核心工具是条件最大似然 + 网络类型匹配（codegree相似性）+ 核加权局部平滑：用Honoré-Kyriazidou式的路径交换消除个体异质性，用Auerbach式的网络类型等价消除未知社会影响函数 \(\lambda(\cdot)\)。
③ 主要结论是：在 \(T \ge 3\) 且满足局部协变量稳定条件下，\((\beta, \alpha)\) 可被点识别（Theorem 1），提出了核加权条件最大似然估计量，并在弱正则条件下证明其 \(\sqrt{n}\)-一致性与渐近正态性（Theorem 2 & 3）。

关键设定与假设¶

模型（已在第二节交代）： 结果方程：\(y_{it} = \mathbf{1}\{ X_{it}'\beta + \alpha y_{i,t-1} + \lambda(w_{it}) - \varepsilon_{it} \ge 0 \}\), \(\varepsilon_{it} \sim \text{Logistic}\)。
网络形成方程：\(D_{ijt} = \mathbf{1}\{ f(w_{it}, w_{jt}, y_{i,t-1}, y_{j,t-1}) \ge \eta_{ijt} \}\), \(f\) 未知对称可测。

关键假设（Assumption 1）： - (i) \((X_i, w_i, \varepsilon_i)\) i.i.d. 跨代理（但允许时变相关）
- (ii) \(\eta_{ijt}\) 在给定 \(X_i, w_i, \varepsilon_i\) 后独立，且对角线以上i.i.d.
- (iii) \(w_{it}, \eta_{ijt} \sim U[0,1]\)（边际均匀分布——主要是为了简便）
- (iv) \(\varepsilon_{it}\) 标准Logistic分布，独立跨 \((i,t)\)
- (vi) 联合对称性：\(f(w_1, w_2; y, y') = f(w_2, w_1; y', y)\)（核心：交换 \(i\) 和 \(j\) 时，同时交换 \(w\) 和滞后结果）
- (vii) 完备性条件：对每个 \((y, y')\)，映射 \(w \mapsto f(w, \cdot; y, y')\) 在Lebesgue测度零的集合外是单射

Assumption 2（网络等价蕴含社会影响等价）：

\[E\big[ (\lambda(w_{it}) - \lambda(w_{jt}))^2 \mid \rho_{ijt} = 0 \big] = 0.\]

在完备性下 \(\rho_{ijt}=0 \implies w_{it}=w_{jt}\)，因此这个假设等价于要求 \(\lambda\) 是定义良好的函数。

相比已有文献的放宽或强化： - 相比Auerbach (2022)：放宽了线性模型、静态、\(w_i\) 不变的三个限制，但用logit分布代替了线性结构（更窄了——线性模型不需要分布假设）。
- 相比Honoré and Kyriazidou (2000)：放宽了"单独的面板固定效应"为"时变的社会特征"，但增加了网络类型匹配要求（更严了——需要网络和足够的个体数量）。

主要结果¶

Theorem 1（识别）：在 Assumption 1-2 下，对任意内部时期 \(s \in \{1,\ldots,T-2\}\)，在 \(\rho_{ij\tau}=0\) 对所有 \(\tau\)、\(X_{i,s+2}=X_{i,s+1}\)、且 \(y_{is}+y_{i,s+1}=1\) 的条件下，事件 \(\{y_i \in A_s, y_j \in B_s\}\) 的条件概率是：

\[F\big[ (\Delta_s X_j - \Delta_s X_i)'\beta + \alpha( y_{j,s-1} - y_{j,s+2} - y_{i,s-1} + y_{i,s+2}) \big],\]

只依赖于 \((\beta, \alpha)\) 和可观测量。这个定理是对 \(\lambda\) 和 \(f\) 实现完全无假设消除的数学陈述。

直觉：路径交换把 \(\lambda(w_{it})\) 以差的形式引入似然比，而网络类型相同保证两个代理的 \(\lambda\) 差完全相同，于是跨代理配对时抵消。

Theorem 1使用的基本条件：
(1) \(T \ge 3\)（否则不可识别——见Remark 3中的math：\(T=2\)时条件概率中保留 \(\lambda\) 相关项）。
(2) 代理 \(i,j\) 在所有时期 \(\tau\) 满足 \(\rho_{ij\tau}=0\)（即 \(w_{i\tau}=w_{j\tau}\)——通过codegree匹配近似）。
(3) 局部协变量稳定条件 \(X_{i,s+2}=X_{i,s+1}\)（通过核平滑近似）。

Theorem 2（一致性）：在 Assumption 1-4 下，\((\widehat{\beta}, \widehat{\alpha}) \xrightarrow{p} (\beta, \alpha)\)。同时 \(\widehat{\lambda}(w_{it})\) 对每个 \(i,t\) 一致。

Theorem 3（渐近正态性）：在 Assumption 1-5 下，

\[\sqrt{n} \begin{pmatrix} \widehat{\beta} - \beta \\ \widehat{\alpha} - \alpha \end{pmatrix} \xrightarrow{d} \mathcal{N}\big(0, 4\Sigma^{-1}V\Sigma^{-1} \big),\]

其中 \(V\) 是E[score贡献的条件条件方差]，\(\Sigma\) 是Hessian极限矩阵（具体形式见文中(19)-(21)）。
关键点：Sandwich形式 \(4\Sigma^{-1}V\Sigma^{-1}\) 来源于核加权的U-统计量结构（2阶U-统计量加倍了方差，因为每对贡献被利用了两次；这是解释 4× 的来源）。

证明路线与技术技巧（理论型）¶

整体路线（对一致性Theorem 2）：
Step 1: 定义极限目标函数 \(\Omega(\delta, b, a) = E[m_{ijs}(b, a) \mid \delta_{ij}=0]\)。证明它在真值 \((\beta, \alpha)\) 处唯一最大化（由条件logit似然的严格凹性 + 识别条件 Assumption 4(v) 保证）。
Step 2: 证明样本目标函数 \(\Omega_n(\widehat{\delta}, b, a)\) 一致收敛到 \(\Omega(\delta, b, a)\)。分为三步：(2a) 点态收敛——核估计的期望一致；(2b) 将 \(\widehat{\delta}\) 替换为 \(\delta\) 的误差控制为 \(O_p(1/(h_1^2\sqrt{n}))\)；(2c) 利用m_{ijs}在(b,a)中的Lipschitz连续性（logistic函数光滑）获得uniform收敛。
Step 3: 用Newey-McFadden (1994) Theorem 2.1的真实值。

整体路线（对渐近正态性Theorem 3）：
Step 1: 在真值处展开得分：\(\nabla \Omega_n(\beta, \alpha) = -\binom{n}{2}^{-1} \sum_{i<j} W_{ij} s(v_i, v_j, \beta, \alpha)\)，这里 \(W_{ij}\) 是双核（网络码度 + 协变量局部稳定）权重的乘积。
Step 2: 对加权U-统计量做Hájek投影：主导项为 \(2\sqrt{n} \sum_i t(y_i, X_i, w_i)\)，其中 \(t(\cdot)\) 是给定个体数据后条件期望的score贡献。
Step 3: 用经典i.i.d. CLT给出 \(2\sqrt{n} \sum_i t(\cdot) \xrightarrow{d} \mathcal{N}(0, 4V)\)。
Step 4: 证明Hessian的极限矩阵 \(\Sigma\)（证明用了核定位 + codegree一致性）。
Step 5: Slutsky定理得到最终sandwich形式。

关键跳跃点（最吃功夫的引理）： - Lemma 1（单个代理的似然比） 是全部识别构造的起点。它的难度主要在代数计算：需要精确跟踪 \(t=s,s+1,s+2\) 三个时期的结果设定如何影响logistic指数形式。\(s+2\) 期的角色是关键——它的存在使得在局部稳定性条件下，\(i\) 的三个贡献相乘后恰好得到一个只含 \(\alpha\) 和 \(X\) 差、不含 \(\lambda\) 的项。如果只有两期（\(T=2\)），这个消不掉。 - Codegree一致性与\(\widehat{\delta}_{ij}\) 的收敛速度：码度距离的定义(12)涉及双重求和 \(\frac{1}{n}\sum_k(\frac{1}{n}\sum_l D_{klt}(D_{ilt} - D_{jlt}))^2\)。证明 \(\widehat{\delta}_{ij} \xrightarrow{p} \delta_{ij}\) 需要网络数据有足够的混合/条件独立性，而这里 \(D_{ijt}\) 之间的相关性（同一对在每个时间点）使得一致性证明比独立同分布情形更复杂。论文在证明sketch中引用了"Ahn and Powell (1993)"的Lemma A.3类比技术，但没有提供完整的细节。 - 核带宽选择：Theorem 3 的渐近正态性要求带宽 \(h_1 = o(1), h_1^{-1} = O(\sqrt{n})\)（Assumption 3(ii)），以及足够的平滑性(Assumption 5(i)连续、非恒定)。但这个条件中 \(h_1^{-1} = O(\sqrt{n})\) 是稍微"速度过慢"的——通常核估计要求 \(h^{-2} = O(n)\)（即 \(h \propto n^{-1/2}\) 的标准带宽）以保证方差收敛；但这里是 \(h^{-1} = O(\sqrt{n})\)，即 \(h \propto n^{-1/2}\) 的下界，所以文本推导中需要额外假设（Assumption 3(ii)的第三条：\(n E[K_1(\widehat{\delta}_{ij}^2/h_1)] \to \infty\)）才能保证方差控制。

技术技巧点名： - Hájek投影：用于处理U-统计量主导项，将 \(\sqrt{n}\) 阶多维渐近分布问题转化为标准i.i.d. CLT。
- 核加权（双核）: \(K_1\) 用于码度匹配（近似网络类型等价），\(K_2\) 用于协变量局部稳定性（近似 \(X_{i,s+2}=X_{i,s+1}\)）。这是一个很有意思的多维核应用——两种不同类型的条件通过不同的核平滑参数独立控制。
- Logistic identities: \(F(x)/(1-F(x))=e^x\) 和 \(1-F(x)=F(-x)\) 是消掉所有 \(\exp(\cdot)\) 以外项的关键代数学技巧——没有logit分布假设，这个识别策略就无法工作（作者在Remark 2中明确说了："does not extend to arbitrary single-index models"）。
- 留一法 / 条件似然: 不是本文独有的技巧，但作为识别策略的"第一个组成部分"被采用。

真实例子与应用¶

论文使用了Teenage Friends and Lifestyle Study (TFLS)——格拉斯哥中学工薪阶层社区的青少年纵向数据。

数据/场景：129名学生在3个时间点（13岁、14岁、15岁）的吸烟情况与友谊网络。每个学生提名最多6位好友。吸烟记录为三分类（从不/偶尔/经常吸烟），被二值化为"是否吸烟"。
怎么把方法用上去：
结果变量 \(y_{it}\)：是否吸烟。
协变量 \(X_{it}\)：每月的零花钱（英镑）、是否处于恋爱状态（二元指标）——两者都是时变的。
初始条件 \(y_{i0}\)：在分析的主设定中设为0（所有学生在13岁都不吸烟），把三个调查波当作t=1,2,3处理。
网络 \(D_t\)：将有向提名对称化（任一个有向提名即视作无向连接）。
得到什么结果：论文中在第26页标注了"Results to be added after estimation."，所以这份版本的实证结果部分还未填入。但从模拟结果的模式来看，他预期这个方法不会产生像Naive/Controls那样偏的状态依赖高估。

🔎 结论是否比证明窄¶

关键注意点： - Assumption 1(vii)（完备性条件） 要求：对每个 \((y, y')\)，映射 \(w \mapsto f(w, \cdot; y, y')\) 必须能唯一确定 \(w\)。这个条件在证明中用于从 \(\rho_{ijt}=0\) 推出 \(w_{it}=w_{jt}\)。但在现实应用中，如果网络形成过程真的非常粗糙（比如连接的变异性主要由随机噪声主导），这个条件的合理性存疑。定理1的识别结论依赖于这个单射性。作者在文中举了"f is strictly monotone in w"作为例子，但这个条件到底多强，他没有做详细讨论。 - Theorem 3的渐近正态性需要 Assumption 5(i)：f连续且非几乎处处常数。这比完备性更精细。在证明sketch中，这个条件用于保证码度距离估计量的Hessian收敛性。如果f是单调但阶梯式的（有跳跃不连续），那渐近正态性能否保持？论文没说。 - 识别策略需要 \(T \ge 3\)。但是，在现实应用的动态logit设定中，T=3是一个常见数据量（如Add Health用了三个波，TFLS也是三个波）。这对论文的实际应用范围不构成严重限制，但在定义上需要注意：如果数据只有两波（T=2），这个方法完全不能用（而这不是"需要更精确的核带宽"之类的小问题，而是识别失效）。 - Bootstrap/置信区间方法：论文没有给出标准误差的实践操作步骤。渐近方差公式(18)以 \(4\Sigma^{-1}V\Sigma^{-1}\) 给出，如何用样本构造这些矩阵、带宽的选择如何影响推断，都缺少具体指导。

四、开放问题（点到为止，扎实具体语句）¶

内生初始条件：论文假设 \(y_{i0}\) 的生成过程可以"观察"且不受选择偏误影响（例如主设定中直接假定 \(y_{i0}=0\)）。作者把自己放在："extending the framework to allow for endogenous initial conditions, building on the approach of Heckman (1981)"（第27页，未来工作第一条）。这是一个清楚的gap：如果初始条件与 \(w_i\)/\(w_{it}\) 相关，识别结论是否还能直接推广？技术上，需要在条件似然中增加一个初始条件模型。
测试状态依赖 vs. 未观测异质性的网络版本：这在传统面板logit中已经有多种检验方法（如Honoré和Kyriazidou (2000)的差分检验），但在网络内生设定下还没有。论文在第27页写了："developing formal tests for the presence of state dependence versus unobserved heterogeneity in the network context would be empirically valuable"。
有限样本下码度匹配的带宽选择问题：论文使用 \(h_1 = n^{-1/9}/10\) 和 \(h_2 = n^{-1/5}/5\) 的任意选择，没有讨论Cross-validation或多带宽参数选择。这是实际应用中容易产生偏差的设置。是否能借助某种"去偏差"技术（见第6.3节的sandwich公式）简化带宽选择？这是一个开放问题。
替代的Matching策略（图同构 / 谱嵌入方法）：论文在结论中写出："Considering alternative notions of network similarity, such as graphon-based distances or spectral methods, may improve finite-sample performance"（第27页）。结合你的计算复杂度兴趣（treewidth/einsum），这也可以是一个实质性的方向：能不能把网络类型的计算从简单的"码度"（一个简单的1-维统计量）推广到更丰富度的图上等价类嵌入，同时保持可计算性？

Maintained by 陈星宇 · Homepage · Source on GitHub