Structural functional identifiability and model discovery in differential equation models¶

作者: Torkel E Loman, Alexander P Browning, Ruth E Baker
主题: 其他
相关性: 6/10
链接: https://arxiv.org/abs/2606.30289

一、领域脉络与小综述¶

这个方向是什么¶

本文研究的核心问题是：在微分方程模型中，当未知成分是函数（而非有限维参数）时，能否从理想（无噪声、无限密集）的观测数据中唯一地恢复这些未知函数？这被称为结构功能可辨识性（structural functional identifiability）。它是经典的结构参数可辨识性（structural parameter identifiability）在函数空间中的直接推广。该问题为近年来兴起的“混合建模”（hybrid modelling）——将已知的机械论模型结构与机器学习（如神经网络、高斯过程）表示的未知函数相结合——提供了理论基础。其根本的统计/科学问题是：在什么条件下，数据能唯一地确定一个无限维的未知量？

发展脉络（history）¶

奠基工作：参数可辨识性（1970s-2000s）

Bellman & Åström (1970) [1]：开创性地提出了结构参数可辨识性的概念，即从理想输入-输出数据中唯一确定模型参数的可能性。这是整个领域的基石。
Chis, Banga & Balsa-Canto (2011) [3, 15]：对系统生物学模型的结构可辨识性方法进行了系统比较，指出了微分代数方法（如特征集、Gröbner基）在处理非线性动态模型时的优势与局限。本文引用其作为“结构可辨识性分析”的标准方法。
Raue et al. (2009) [2] 与 Villaverde et al. (2022) [4]：将可辨识性分析从纯理论（结构）扩展到实践（实用），提出了基于剖面似然（profile likelihood）的实用可辨识性分析方法，并建立了完整的模型校准协议。本文引用它们来区分“结构”与“实用”可辨识性。

主要进展：从参数到函数，混合建模的兴起（2018-2024）

Chen, Rubanova, Bettencourt & Duvenaud (2018) [19]：提出神经常微分方程（Neural ODE），将整个右侧函数用一个神经网络参数化。本文引用其作为“完全数据驱动”的基线模型，即没有任何机械论知识的情况。
Rackauckas et al. (2020) [9]：提出通用微分方程（Universal Differential Equations, UDEs），将已知的机械论结构与未知函数（用神经网络表示）结合。本文引用其作为“混合建模”的典型代表，并指出其在实际应用中广泛用于演示混合建模工作流。
Raissi, Perdikaris & Karniadakis (2019) [10]：提出物理信息神经网络（PINNs），将物理定律（PDE）作为正则化项融入神经网络训练。本文引用其作为“未知函数用灵活近似器表示”的又一例证。
Alber et al. (2019) [6] 与 Noordijk et al. (2024) [7]：从更广阔的视角综述了机器学习与多尺度/机械论建模的结合，强调了这种混合方法在生物、物理和工程科学中的机遇与挑战。本文引用它们来定位“混合建模”这一大背景。

当前Frontier与本文位置：功能可辨识性的理论化（2025-2026）

Loman & Baker (2025) [18]：本文作者的前期工作，首次引入了“功能可辨识性”这一概念，并将其应用于化学反应网络中的通用微分方程。本文在此基础上，将其发展为一个更一般、更系统的理论框架。
本文（Loman, Browning & Baker, 2026）：将结构可辨识性从参数正式推广到函数。它首先识别出几类广泛存在的、必然导致功能不可辨识的模型结构（如标量ODE、部分/完全增广系统），然后展示了如何用微分代数方法（输入-输出多项式）来判断一般模型的功能可辨识性，并揭示了函数空间特有的新现象（如函数间纠缠、内在函数不可辨识性）。最后，在化学网络和Lotka-Volterra模型上进行了应用。

子线索聚类¶

参数可辨识性理论与方法：以 [1, 2, 3, 4, 5, 13, 14, 15, 16, 17] 为代表。核心是研究如何从理想或有限数据中唯一确定有限维参数。方法包括微分代数、剖面似然、贝叶斯方法等。这是本文的直接理论前身。
混合建模与科学机器学习：以 [6, 7, 8, 9, 10, 11, 12, 29, 30, 31] 为代表。核心是将机械论模型与数据驱动的函数近似器（如神经网络、高斯过程）结合，以发现未知的方程、函数或本构关系。这是本文的应用背景和动机来源。
扩展到更复杂模型的可辨识性：以 [32, 33, 34, 35, 36] 为代表。将可辨识性分析从ODE扩展到PDE、SDE等更复杂的模型。本文在讨论部分指出这是未来的重要方向。

这个方向在追问的核心问题¶

唯一性：给定一个模型结构和理想观测，未知函数是否被唯一确定？这与参数可辨识性中的“全局可辨识”对应。
纠缠：未知函数与未知参数之间、或多个未知函数之间，是否存在代数依赖关系，使得它们可以相互补偿而不改变观测？这是功能可辨识性中最核心的新现象。
内在不可辨识性：即使没有其他未知量，一个单独的未知函数是否也可能因为模型结构（如缩放、平移对称性）而不可辨识？
观测的影响：可辨识性如何依赖于哪些变量被观测？改变观测集能否解决不可辨识性问题？

当前主流方法与已知瓶颈：主流方法是微分代数，通过反复微分和代换来消除未观测变量，得到只含观测变量的输入-输出方程。瓶颈在于：对于大规模或高度非线性的模型，微分消元（differential elimination）的计算成本极高，且自动化工具尚不成熟（[36] 是重要进展，但主要针对参数情况）。

⚠️ 作者的 framing¶

作者将缺口 frame 成：“从参数推断到函数推断的转变不仅仅是维度的变化，而是引入了全新的、参数设定中没有的歧义形式。” 因此，本文是“显然的下一步”——为混合建模这一实践提供理论基础，回答“何时机械论假设真正约束了未知动态的恢复，何时没有”。

被淡化或回避的竞争路线： - 实用可辨识性：作者明确将本文限定在“结构”层面，回避了有限、有噪数据下的实用可辨识性问题。这被定位为“结构分析之后的下一个步骤”。 - 模型结构未知的情况：作者在讨论中明确提到，当模型结构本身（如引入新状态变量）也在变化时，本文的理论不适用，这是一个“开放挑战”。

什么明显该被引/该存在、却没出现在intro里？ - 非参数统计中的识别性理论：例如，非参数回归、非参数工具变量、非参数因果推断中的识别性条件。这些领域也研究从数据中恢复无限维对象（如条件期望函数、结构函数）的唯一性，与本文问题有深刻的概念联系。作者完全未提及这一平行文献。（这是值得研究者去查的问题：非参数统计中关于“函数识别性”的经典结果，与本文的微分代数方法有何异同？）

张力¶

未见明显对立引用。所有被引工作基本在各自的子问题上形成共识，没有发现彼此矛盾或在略不同条件下得相反结论的情况。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
- X(t) ∈ ℝⁿ：系统的状态向量，随时间 t 演化。
- Y(t)：观测到的输出向量，是 X(t) 的函数。本文假设 Y 由 X 的部分或全部分量组成。
- F：已知的、描述系统动态的函数结构。
- H：已知的观测函数。
- p ∈ ℝᵐ：未知的标量参数向量。
- f = (f₁, ..., fₖ)：未知函数集合。每个 fⱼ : Uⱼ → ℝ，其中 Uⱼ ⊆ ℝⁿ 是状态空间的一个子集。
- (f₁, p₁) 与 (f₂, p₂)：两组不同的未知量选择。
- Ẋ(t) = dX/dt：状态向量对时间的导数。
模型：考虑一个一般的常微分方程（ODE）模型：
```
Ẋ(t) = F(X; f, p)
Y(t) = H(X(t))
```
其中 F 和 H 是已知的，p 是未知参数，f 是未知函数。数据生成机制是：给定一组真实的未知量 (f*, p*)，系统从某个初始条件 X(0) 开始演化，产生轨迹 X(t)，进而得到观测 Y(t)。
可观测数据：研究者能观测到的是 Y(t) 及其各阶导数（在结构可辨识性的理想设定下，假设有无穷密集、无噪声的观测）。想要但观测不到的是：
1. 未知函数 f 本身。
2. 未知参数 p 本身。
3. 可能还有部分未观测到的状态变量（即 X 中不在 Y 里的分量）。

第二步：讲最小内核¶

本文的核心思路可以用一个最简单的特例来理解：一个标量ODE，其中包含一个未知函数和一个未知参数，且两者以加法形式出现。

最简特例：考虑模型

Ẋ = f(X) + dX

其中： - X(t) ∈ ℝ 是完全可观测的状态变量（即 Y(t) = X(t)）。 - f: ℝ → ℝ 是未知函数。 - d ∈ ℝ 是未知参数。

问题：能否从 X(t) 的完美观测中唯一地恢复 f 和 d？

核心思路与证明：假设有两组不同的未知量 (f₁, d₁) 和 (f₂, d₂) 产生了完全相同的 X(t) 轨迹。那么，对于所有 t，有：

Ẋ = f₁(X) + d₁X = f₂(X) + d₂X

这意味着：

f₂(X) = f₁(X) + (d₁ - d₂)X

这个等式必须对 X(t) 轨迹上取到的所有值都成立。

结论：对于任意选择的 d₂，我们都可以通过定义 f₂(X) = f₁(X) + (d₁ - d₂)X 来构造一个 f₂，使得 (f₂, d₂) 产生与 (f₁, d₁) 完全相同的观测轨迹。由于 d₂ 可以任意选择（例如，取 d₂ = d₁ + 1），因此存在无穷多对 (f, d) 与观测数据一致。

因此，f 和 d 都是结构不可辨识的。

这个最小内核揭示了什么？ - 问题的本质是加法纠缠：未知函数 f 可以吸收未知参数 d 的任何变化，只要在 f 中加上一个线性项 (d₁ - d₂)X 即可。 - 观测数据只能约束组合量 f(X) + dX，而无法将 f 和 d 的贡献分开。 - 这正是本文 Proposition 3.1 的核心内容，也是全文所有更复杂不可辨识性结果的原型。论文的一般情形（如部分增广系统、完全增广系统）都是这个“加法纠缠”思想在不同模型结构下的推广。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：将经典的结构参数可辨识性概念推广到函数空间，提出了结构功能可辨识性（structural functional identifiability）的理论框架，用于判断在ODE模型中，未知函数能否从理想观测数据中唯一恢复。
核心工具/方法：主要使用微分代数（differential algebra）方法，通过构造输入-输出多项式（input-output polynomials）来消除未观测变量，从而分析未知函数和参数的可辨识性。
主要结论：识别出几类必然导致功能不可辨识的模型结构（如标量ODE、部分/完全增广系统）；证明了功能可辨识性存在参数设定中没有的新现象（函数-参数纠缠、函数-函数纠缠、内在函数不可辨识性）；并在化学网络和Lotka-Volterra模型上刻画了其可辨识性条件。

关键设定与假设¶

设定：考虑一个一般的ODE模型 Ẋ = F(X; f, p)，其中 f 是未知函数集合，p 是未知参数向量。观测 Y = H(X) 是状态向量的一个子集。
核心假设：
1. 理想数据：假设有无穷密集、无噪声的观测数据，因此可以观测到 Y(t) 及其任意阶导数。这是“结构”可辨识性的标准假设。
2. 模型结构已知：F 和 H 的函数形式是已知的，只有 f 和 p 是未知的。
3. 函数光滑性：假设未知函数 f 足够光滑（例如，可微），以便进行微分代数操作。
4. 局部可逆性：在某些证明中（如 Proposition 4.1(ii)），需要假设未知函数 f 是局部可逆的（即没有平坦区域），以便在消除包含 f 的未观测变量时进行变量替换。
与已有文献的对比：相比经典参数可辨识性，本文的假设更“弱”（允许无限维未知量），但分析工具（微分代数）是相同的。相比混合建模实践，本文的假设更“强”（理想数据），旨在提供理论上的“不可能性”或“可能性”边界。

主要结果¶

结果1：识别出必然导致功能不可辨识的模型类（Section 3）

Proposition 3.1 (标量ODE)：模型 Ẋ = f(X) + g(X; p)，其中 |p| > 0。结论：f 和 p 都不可辨识。直觉：未知函数可以吸收参数的任何变化。
Proposition 3.2 (部分增广系统)：模型 Ẋ₁ = f(u) + g₁(X; p₁), Ẋᵢ = gᵢ(X; pᵢ) (i≥2)，且 g₁ 可分解为 r(v; a) + s(X; b)，其中 v ⊆ u 且 a 不出现在其他方程中。结论：f 不可辨识。直觉：与标量情况类似，但需要参数 a 只出现在包含 f 的方程中。
Proposition 3.3 (完全增广系统)：模型 Ẋᵢ = fᵢ(X) + gᵢ(X; pᵢ)，且每个方程都有 |pᵢ| > 0。结论：所有 fᵢ 和 pᵢ 都不可辨识。直觉：每个方程都是一个独立的“标量ODE”问题。
Proposition 3.4 (神经常微分方程)：模型 Ẋᵢ = fᵢ(X)。结论：当且仅当所有状态都可观测时，系统才可辨识。直觉：这是基线情况，没有机械论知识，因此只有完全观测才能唯一确定右侧函数。

结果2：展示了微分代数方法的应用（Section 4）

Proposition 4.1 (单参数互激活模型)：模型 Ẋ₁ = f(X₂) - dX₁, Ẋ₂ = X₁ - dX₂。结论：当只观测 X₂ 时，f 和 d 都可辨识。当只观测 X₁ 时，若 f 局部可逆且 d ≠ 0，则 f 和 d 也可辨识。技术难点：证明需要处理函数逆和微分方程的组合，并利用 Ẍ₁ 的可独立变化性来分离等式。
Proposition 4.2 (双参数互激活模型)：模型 Ẋ₁ = f(X₂) - cX₁, Ẋ₂ = X₁ - dX₂。结论：当只观测 X₂ 时，f, c, d 都不可辨识，只有组合量 c+d 和 f(x) - cdx 可辨识。当只观测 X₁ 时，若 f⁻¹ 非仿射，则全局可辨识；若 f⁻¹ 仿射，则局部可辨识（c 和 d 可交换）。技术难点：证明揭示了函数-参数纠缠的具体形式，并展示了函数性质（仿射性）如何影响可辨识性。

结果3：揭示了功能可辨识性的新现象（Section 5）

Proposition 5.1 (函数-函数纠缠)：模型 Ẋ₁ = f(X₂) + dX₁, Ẋ₂ = X₁ - g(X₂)。结论：当只观测 X₂ 时，f 和 g 都不可辨识，且它们之间存在纠缠关系。新现象：不可辨识性可以涉及多个函数之间的相互补偿。
Proposition 5.2 (内在函数不可辨识性)：模型 Ẋ₁ = f(X₂) - X₁, Ẋ₂ = (X₁ - 1)X₂。结论：当只观测 X₁ 时，即使没有其他未知量，f 也是不可辨识的（存在缩放歧义 f₂(X₂) = f₁(X₂/k)）。新现象：一个单独的未知函数也可能因为模型结构而不可辨识。
Proposition 5.3 (全局 vs 局部可辨识)：模型 Ẋ = f(X) + 1/f(X)。结论：f 是局部可辨识的（只有两个解：f 和 1/f），但不是全局可辨识的。新现象：函数可辨识性也有全局/局部之分，且等价类可以是非平凡的。

证明路线与技术技巧¶

整体路线（以 Proposition 4.1(i) 为例）： 1. 消除未观测变量：从 Ẋ₂ = X₁ - dX₂ 中解出 X₁ = Ẋ₂ + dX₂，并求导得到 Ẋ₁ = Ẋ̈₂ + dẊ₂。 2. 代入并得到输入-输出方程：将 X₁ 和 Ẋ₁ 代入 Ẋ₁ = f(X₂) - dX₁，得到 Ẋ̈₂ + 2dẊ₂ + d²X₂ - f(X₂) = 0。这个方程只包含观测变量 X₂ 及其导数。 3. 利用独立变化性：假设两组解 (f₁, d₁) 和 (f₂, d₂) 产生相同的 X₂ 轨迹。代入输入-输出方程并相减，得到： -2d₁Ẋ₂ - d₁²X₂ + f₁(X₂) = -2d₂Ẋ₂ - d₂²X₂ + f₂(X₂)。由于在理想数据下，Ẋ₂ 和 X₂ 可以独立变化，因此等式必须逐项成立。 4. 分离并求解： - 从 Ẋ₂ 的系数得到 -2d₁ = -2d₂，因此 d₁ = d₂。 - 代入后，从 X₂ 和 f(X₂) 的项得到 -d₁²X₂ + f₁(X₂) = -d₂²X₂ + f₂(X₂)，因此 f₁(X₂) = f₂(X₂)。 5. 结论：d 和 f 都是全局可辨识的。

关键跳跃点： - 从参数到函数的跳跃：在参数设定中，未知量是有限维的，等式分离后得到的是关于参数的代数方程。在函数设定中，未知量是无限维的，等式分离后得到的是关于函数值的方程。证明的关键在于利用“独立变化性”将函数等式转化为点态等式。 - 处理函数逆：在 Proposition 4.1(ii) 和 4.2(i) 中，需要消除包含在未知函数参数中的未观测变量。这需要假设 f 局部可逆，并引入 g = f⁻¹，将问题转化为关于 g 的方程。这引入了额外的复杂性，需要处理 g 的导数。

技术技巧点名： - 微分代数：核心工具，用于消除未观测变量，得到输入-输出方程。 - 独立变化性论证：利用理想数据下观测变量及其导数可独立变化的事实，将复杂的函数等式分解为更简单的点态等式。这是整个证明路线的基石。 - 反证法与分类讨论：在 Proposition 4.2(i) 中，通过假设 c₁ ≠ c₂ 并推导出矛盾（导致 f⁻¹ 必须是仿射的），从而证明 c₁ = c₂。这展示了如何通过函数性质（仿射性）来分类讨论可辨识性。 - 构造性证明：在 Section 3 的所有不可辨识性证明中，都采用了构造性方法：直接构造一个与原始解产生相同观测的替代解族，从而证明不可辨识性。

真实例子与应用¶

本文包含两个真实应用例子，均为模拟/理论分析，无真实数据。

化学反应网络模型（Section 6.1）：
- 模型：Ẋ₁ = f(X₂) - dX₁, Ẋ₂ = X₁ - f(X₂)。这是一个简单的双物种网络，未知函数 f 出现在两个方程中。
- 分析：作者用微分代数方法分析了当只观测 X₁ 或只观测 X₂ 时的可辨识性。
- 结果：
  - 只观测 X₂ 时，若 f 非仿射且 d ≠ 1，则 f 和 d 全局可辨识。
  - 只观测 X₁ 时，f 不可辨识（存在平移歧义），但 d 可辨识。
- 说明的问题：展示了当未知函数在多个方程中出现时，会引入额外的约束，可能恢复可辨识性（与 Proposition 3.2 的“单次出现”情况对比）。同时，也展示了可辨识性如何依赖于观测变量。
Lotka-Volterra 模型（Section 6.2）：
- 模型：两个变体。Model 1 是两个不同的未知函数 f 和 g；Model 2 是两个方程共享同一个未知函数 f（但乘以不同系数）。
- 分析：分析了当只观测一个物种或两个物种都可观测时的可辨识性。
- 结果：
  - Model 1（完全增广系统）：无论观测什么，f 和 g 都不可辨识（符合 Proposition 3.3）。
  - Model 2（共享函数）：只有当两个物种都可观测时，f, α, γ, δ 才全部可辨识。如果只观测一个物种，则不可辨识，且不可辨识性依赖于未观测状态的动态。
- 说明的问题：展示了混合建模中一个常见的陷阱——即使模型结构看起来有约束（共享函数），但如果观测不充分，仍然无法唯一恢复未知函数。强调了“充分观测”对于功能可辨识性的重要性。

🔎 结论是否比证明窄¶

Proposition 4.1(ii) 的结论是“f 和 d 都是结构可辨识的”，但证明中明确依赖于 f 是局部可逆且 d ≠ 0 的假设。结论的适用范围比证明所覆盖的要窄。作者在 Remark A.1 中讨论了局部可逆性，但并未在结论中明确强调这一前提。
Proposition 6.1 的结论是“当只观测 X₂ 时，f 和 d 是结构可辨识的，给定 d ≠ 1 且 f 非仿射”。证明中严格处理了 d=1 和 f 仿射的情况，结论与证明一致，没有泛化。
Proposition 6.4(iii) 的结论是“当 X₁ 和 X₂ 都可观测时，f, α, γ, δ 都结构可辨识”。证明中假设 γ ≠ 0，这是一个合理的假设（否则模型退化），但结论中未明确提及。这是一个窄于证明的陈述。

四、开放问题¶

扩展到更复杂的模型：本文的理论如何扩展到偏微分方程（PDE）和随机微分方程（SDE）？作者在讨论中明确提到这是“未来研究的重要方向”，并引用了 [32-35] 作为参数可辨识性在PDE/SDE上的初步工作。（扎根于 Section 7 讨论）
自动化工具的开发：能否为结构功能可辨识性开发出像 [36] 那样用于参数可辨识性的自动化软件工具？作者指出，将微分代数应用于未知函数比参数情况更复杂，自动化是一个关键挑战。（扎根于 Section 7 讨论）
更一般的函数类：本文主要处理了单变量函数 f: ℝ → ℝ。如何处理多变量函数、显式依赖于时间的函数，或依赖于未知参数的函数？（扎根于 Section 7 讨论）
与非参数统计识别性理论的连接：本文完全未提及非参数统计中关于函数识别性的经典理论（如非参数IV、非参数因果推断）。这两个平行领域之间是否存在深刻的联系或可相互借鉴的工具？（扎根于本文 intro 的缺失，是研究者可自行探索的 gap）

Maintained by 陈星宇 · Homepage · Source on GitHub