Structural functional identifiability and model discovery in differential equation models¶
作者: Torkel E Loman, Alexander P Browning, Ruth E Baker
主题: 其他
相关性: 6/10
链接: https://arxiv.org/abs/2606.30289
一、领域脉络与小综述¶
这个方向是什么¶
本文研究的核心问题是:在微分方程模型中,当未知成分是函数(而非有限维参数)时,能否从理想(无噪声、无限密集)的观测数据中唯一地恢复这些未知函数?这被称为结构功能可辨识性(structural functional identifiability)。它是经典的结构参数可辨识性(structural parameter identifiability)在函数空间中的直接推广。该问题为近年来兴起的“混合建模”(hybrid modelling)——将已知的机械论模型结构与机器学习(如神经网络、高斯过程)表示的未知函数相结合——提供了理论基础。其根本的统计/科学问题是:在什么条件下,数据能唯一地确定一个无限维的未知量?
发展脉络(history)¶
奠基工作:参数可辨识性(1970s-2000s)
- Bellman & Åström (1970) [1]:开创性地提出了结构参数可辨识性的概念,即从理想输入-输出数据中唯一确定模型参数的可能性。这是整个领域的基石。
- Chis, Banga & Balsa-Canto (2011) [3, 15]:对系统生物学模型的结构可辨识性方法进行了系统比较,指出了微分代数方法(如特征集、Gröbner基)在处理非线性动态模型时的优势与局限。本文引用其作为“结构可辨识性分析”的标准方法。
- Raue et al. (2009) [2] 与 Villaverde et al. (2022) [4]:将可辨识性分析从纯理论(结构)扩展到实践(实用),提出了基于剖面似然(profile likelihood)的实用可辨识性分析方法,并建立了完整的模型校准协议。本文引用它们来区分“结构”与“实用”可辨识性。
主要进展:从参数到函数,混合建模的兴起(2018-2024)
- Chen, Rubanova, Bettencourt & Duvenaud (2018) [19]:提出神经常微分方程(Neural ODE),将整个右侧函数用一个神经网络参数化。本文引用其作为“完全数据驱动”的基线模型,即没有任何机械论知识的情况。
- Rackauckas et al. (2020) [9]:提出通用微分方程(Universal Differential Equations, UDEs),将已知的机械论结构与未知函数(用神经网络表示)结合。本文引用其作为“混合建模”的典型代表,并指出其在实际应用中广泛用于演示混合建模工作流。
- Raissi, Perdikaris & Karniadakis (2019) [10]:提出物理信息神经网络(PINNs),将物理定律(PDE)作为正则化项融入神经网络训练。本文引用其作为“未知函数用灵活近似器表示”的又一例证。
- Alber et al. (2019) [6] 与 Noordijk et al. (2024) [7]:从更广阔的视角综述了机器学习与多尺度/机械论建模的结合,强调了这种混合方法在生物、物理和工程科学中的机遇与挑战。本文引用它们来定位“混合建模”这一大背景。
当前Frontier与本文位置:功能可辨识性的理论化(2025-2026)
- Loman & Baker (2025) [18]:本文作者的前期工作,首次引入了“功能可辨识性”这一概念,并将其应用于化学反应网络中的通用微分方程。本文在此基础上,将其发展为一个更一般、更系统的理论框架。
- 本文(Loman, Browning & Baker, 2026):将结构可辨识性从参数正式推广到函数。它首先识别出几类广泛存在的、必然导致功能不可辨识的模型结构(如标量ODE、部分/完全增广系统),然后展示了如何用微分代数方法(输入-输出多项式)来判断一般模型的功能可辨识性,并揭示了函数空间特有的新现象(如函数间纠缠、内在函数不可辨识性)。最后,在化学网络和Lotka-Volterra模型上进行了应用。
子线索聚类¶
- 参数可辨识性理论与方法:以 [1, 2, 3, 4, 5, 13, 14, 15, 16, 17] 为代表。核心是研究如何从理想或有限数据中唯一确定有限维参数。方法包括微分代数、剖面似然、贝叶斯方法等。这是本文的直接理论前身。
- 混合建模与科学机器学习:以 [6, 7, 8, 9, 10, 11, 12, 29, 30, 31] 为代表。核心是将机械论模型与数据驱动的函数近似器(如神经网络、高斯过程)结合,以发现未知的方程、函数或本构关系。这是本文的应用背景和动机来源。
- 扩展到更复杂模型的可辨识性:以 [32, 33, 34, 35, 36] 为代表。将可辨识性分析从ODE扩展到PDE、SDE等更复杂的模型。本文在讨论部分指出这是未来的重要方向。
这个方向在追问的核心问题¶
- 唯一性:给定一个模型结构和理想观测,未知函数是否被唯一确定?这与参数可辨识性中的“全局可辨识”对应。
- 纠缠:未知函数与未知参数之间、或多个未知函数之间,是否存在代数依赖关系,使得它们可以相互补偿而不改变观测?这是功能可辨识性中最核心的新现象。
- 内在不可辨识性:即使没有其他未知量,一个单独的未知函数是否也可能因为模型结构(如缩放、平移对称性)而不可辨识?
- 观测的影响:可辨识性如何依赖于哪些变量被观测?改变观测集能否解决不可辨识性问题?
当前主流方法与已知瓶颈:主流方法是微分代数,通过反复微分和代换来消除未观测变量,得到只含观测变量的输入-输出方程。瓶颈在于:对于大规模或高度非线性的模型,微分消元(differential elimination)的计算成本极高,且自动化工具尚不成熟([36] 是重要进展,但主要针对参数情况)。
⚠️ 作者的 framing¶
作者将缺口 frame 成:“从参数推断到函数推断的转变不仅仅是维度的变化,而是引入了全新的、参数设定中没有的歧义形式。” 因此,本文是“显然的下一步”——为混合建模这一实践提供理论基础,回答“何时机械论假设真正约束了未知动态的恢复,何时没有”。
被淡化或回避的竞争路线: - 实用可辨识性:作者明确将本文限定在“结构”层面,回避了有限、有噪数据下的实用可辨识性问题。这被定位为“结构分析之后的下一个步骤”。 - 模型结构未知的情况:作者在讨论中明确提到,当模型结构本身(如引入新状态变量)也在变化时,本文的理论不适用,这是一个“开放挑战”。
什么明显该被引/该存在、却没出现在intro里? - 非参数统计中的识别性理论:例如,非参数回归、非参数工具变量、非参数因果推断中的识别性条件。这些领域也研究从数据中恢复无限维对象(如条件期望函数、结构函数)的唯一性,与本文问题有深刻的概念联系。作者完全未提及这一平行文献。(这是值得研究者去查的问题:非参数统计中关于“函数识别性”的经典结果,与本文的微分代数方法有何异同?)
张力¶
未见明显对立引用。所有被引工作基本在各自的子问题上形成共识,没有发现彼此矛盾或在略不同条件下得相反结论的情况。
二、最核心、最简单的例子 / 数学问题¶
第一步:把符号、模型、可观测数据交代清楚¶
-
符号:
X(t) ∈ ℝⁿ:系统的状态向量,随时间t演化。Y(t):观测到的输出向量,是X(t)的函数。本文假设Y由X的部分或全部分量组成。F:已知的、描述系统动态的函数结构。H:已知的观测函数。p ∈ ℝᵐ:未知的标量参数向量。f = (f₁, ..., fₖ):未知函数集合。每个fⱼ : Uⱼ → ℝ,其中Uⱼ ⊆ ℝⁿ是状态空间的一个子集。(f₁, p₁)与(f₂, p₂):两组不同的未知量选择。Ẋ(t) = dX/dt:状态向量对时间的导数。
-
模型:考虑一个一般的常微分方程(ODE)模型:
其中Ẋ(t) = F(X; f, p) Y(t) = H(X(t))F和H是已知的,p是未知参数,f是未知函数。数据生成机制是:给定一组真实的未知量(f*, p*),系统从某个初始条件X(0)开始演化,产生轨迹X(t),进而得到观测Y(t)。 -
可观测数据:研究者能观测到的是
Y(t)及其各阶导数(在结构可辨识性的理想设定下,假设有无穷密集、无噪声的观测)。想要但观测不到的是:- 未知函数
f本身。 - 未知参数
p本身。 - 可能还有部分未观测到的状态变量(即
X中不在Y里的分量)。
- 未知函数
第二步:讲最小内核¶
本文的核心思路可以用一个最简单的特例来理解:一个标量ODE,其中包含一个未知函数和一个未知参数,且两者以加法形式出现。
最简特例:考虑模型
Ẋ = f(X) + dX
X(t) ∈ ℝ 是完全可观测的状态变量(即 Y(t) = X(t))。
- f: ℝ → ℝ 是未知函数。
- d ∈ ℝ 是未知参数。
问题:能否从 X(t) 的完美观测中唯一地恢复 f 和 d?
核心思路与证明:
假设有两组不同的未知量 (f₁, d₁) 和 (f₂, d₂) 产生了完全相同的 X(t) 轨迹。那么,对于所有 t,有:
Ẋ = f₁(X) + d₁X = f₂(X) + d₂X
f₂(X) = f₁(X) + (d₁ - d₂)X
X(t) 轨迹上取到的所有值都成立。
结论:对于任意选择的 d₂,我们都可以通过定义 f₂(X) = f₁(X) + (d₁ - d₂)X 来构造一个 f₂,使得 (f₂, d₂) 产生与 (f₁, d₁) 完全相同的观测轨迹。由于 d₂ 可以任意选择(例如,取 d₂ = d₁ + 1),因此存在无穷多对 (f, d) 与观测数据一致。
因此,f 和 d 都是结构不可辨识的。
这个最小内核揭示了什么?
- 问题的本质是加法纠缠:未知函数 f 可以吸收未知参数 d 的任何变化,只要在 f 中加上一个线性项 (d₁ - d₂)X 即可。
- 观测数据只能约束组合量 f(X) + dX,而无法将 f 和 d 的贡献分开。
- 这正是本文 Proposition 3.1 的核心内容,也是全文所有更复杂不可辨识性结果的原型。论文的一般情形(如部分增广系统、完全增广系统)都是这个“加法纠缠”思想在不同模型结构下的推广。
三、这篇论文做了什么¶
三句话¶
- 研究了什么问题:将经典的结构参数可辨识性概念推广到函数空间,提出了结构功能可辨识性(structural functional identifiability)的理论框架,用于判断在ODE模型中,未知函数能否从理想观测数据中唯一恢复。
- 核心工具/方法:主要使用微分代数(differential algebra)方法,通过构造输入-输出多项式(input-output polynomials)来消除未观测变量,从而分析未知函数和参数的可辨识性。
- 主要结论:识别出几类必然导致功能不可辨识的模型结构(如标量ODE、部分/完全增广系统);证明了功能可辨识性存在参数设定中没有的新现象(函数-参数纠缠、函数-函数纠缠、内在函数不可辨识性);并在化学网络和Lotka-Volterra模型上刻画了其可辨识性条件。
关键设定与假设¶
- 设定:考虑一个一般的ODE模型
Ẋ = F(X; f, p),其中f是未知函数集合,p是未知参数向量。观测Y = H(X)是状态向量的一个子集。 - 核心假设:
- 理想数据:假设有无穷密集、无噪声的观测数据,因此可以观测到
Y(t)及其任意阶导数。这是“结构”可辨识性的标准假设。 - 模型结构已知:
F和H的函数形式是已知的,只有f和p是未知的。 - 函数光滑性:假设未知函数
f足够光滑(例如,可微),以便进行微分代数操作。 - 局部可逆性:在某些证明中(如 Proposition 4.1(ii)),需要假设未知函数
f是局部可逆的(即没有平坦区域),以便在消除包含f的未观测变量时进行变量替换。
- 理想数据:假设有无穷密集、无噪声的观测数据,因此可以观测到
- 与已有文献的对比:相比经典参数可辨识性,本文的假设更“弱”(允许无限维未知量),但分析工具(微分代数)是相同的。相比混合建模实践,本文的假设更“强”(理想数据),旨在提供理论上的“不可能性”或“可能性”边界。
主要结果¶
结果1:识别出必然导致功能不可辨识的模型类(Section 3)
- Proposition 3.1 (标量ODE):模型
Ẋ = f(X) + g(X; p),其中|p| > 0。结论:f和p都不可辨识。直觉:未知函数可以吸收参数的任何变化。 - Proposition 3.2 (部分增广系统):模型
Ẋ₁ = f(u) + g₁(X; p₁),Ẋᵢ = gᵢ(X; pᵢ)(i≥2),且g₁可分解为r(v; a) + s(X; b),其中v ⊆ u且a不出现在其他方程中。结论:f不可辨识。直觉:与标量情况类似,但需要参数a只出现在包含f的方程中。 - Proposition 3.3 (完全增广系统):模型
Ẋᵢ = fᵢ(X) + gᵢ(X; pᵢ),且每个方程都有|pᵢ| > 0。结论:所有fᵢ和pᵢ都不可辨识。直觉:每个方程都是一个独立的“标量ODE”问题。 - Proposition 3.4 (神经常微分方程):模型
Ẋᵢ = fᵢ(X)。结论:当且仅当所有状态都可观测时,系统才可辨识。直觉:这是基线情况,没有机械论知识,因此只有完全观测才能唯一确定右侧函数。
结果2:展示了微分代数方法的应用(Section 4)
- Proposition 4.1 (单参数互激活模型):模型
Ẋ₁ = f(X₂) - dX₁,Ẋ₂ = X₁ - dX₂。结论:当只观测X₂时,f和d都可辨识。当只观测X₁时,若f局部可逆且d ≠ 0,则f和d也可辨识。技术难点:证明需要处理函数逆和微分方程的组合,并利用Ẍ₁的可独立变化性来分离等式。 - Proposition 4.2 (双参数互激活模型):模型
Ẋ₁ = f(X₂) - cX₁,Ẋ₂ = X₁ - dX₂。结论:当只观测X₂时,f,c,d都不可辨识,只有组合量c+d和f(x) - cdx可辨识。当只观测X₁时,若f⁻¹非仿射,则全局可辨识;若f⁻¹仿射,则局部可辨识(c和d可交换)。技术难点:证明揭示了函数-参数纠缠的具体形式,并展示了函数性质(仿射性)如何影响可辨识性。
结果3:揭示了功能可辨识性的新现象(Section 5)
- Proposition 5.1 (函数-函数纠缠):模型
Ẋ₁ = f(X₂) + dX₁,Ẋ₂ = X₁ - g(X₂)。结论:当只观测X₂时,f和g都不可辨识,且它们之间存在纠缠关系。新现象:不可辨识性可以涉及多个函数之间的相互补偿。 - Proposition 5.2 (内在函数不可辨识性):模型
Ẋ₁ = f(X₂) - X₁,Ẋ₂ = (X₁ - 1)X₂。结论:当只观测X₁时,即使没有其他未知量,f也是不可辨识的(存在缩放歧义f₂(X₂) = f₁(X₂/k))。新现象:一个单独的未知函数也可能因为模型结构而不可辨识。 - Proposition 5.3 (全局 vs 局部可辨识):模型
Ẋ = f(X) + 1/f(X)。结论:f是局部可辨识的(只有两个解:f和1/f),但不是全局可辨识的。新现象:函数可辨识性也有全局/局部之分,且等价类可以是非平凡的。
证明路线与技术技巧¶
整体路线(以 Proposition 4.1(i) 为例):
1. 消除未观测变量:从 Ẋ₂ = X₁ - dX₂ 中解出 X₁ = Ẋ₂ + dX₂,并求导得到 Ẋ₁ = Ẋ̈₂ + dẊ₂。
2. 代入并得到输入-输出方程:将 X₁ 和 Ẋ₁ 代入 Ẋ₁ = f(X₂) - dX₁,得到 Ẋ̈₂ + 2dẊ₂ + d²X₂ - f(X₂) = 0。这个方程只包含观测变量 X₂ 及其导数。
3. 利用独立变化性:假设两组解 (f₁, d₁) 和 (f₂, d₂) 产生相同的 X₂ 轨迹。代入输入-输出方程并相减,得到:
-2d₁Ẋ₂ - d₁²X₂ + f₁(X₂) = -2d₂Ẋ₂ - d₂²X₂ + f₂(X₂)。
由于在理想数据下,Ẋ₂ 和 X₂ 可以独立变化,因此等式必须逐项成立。
4. 分离并求解:
- 从 Ẋ₂ 的系数得到 -2d₁ = -2d₂,因此 d₁ = d₂。
- 代入后,从 X₂ 和 f(X₂) 的项得到 -d₁²X₂ + f₁(X₂) = -d₂²X₂ + f₂(X₂),因此 f₁(X₂) = f₂(X₂)。
5. 结论:d 和 f 都是全局可辨识的。
关键跳跃点:
- 从参数到函数的跳跃:在参数设定中,未知量是有限维的,等式分离后得到的是关于参数的代数方程。在函数设定中,未知量是无限维的,等式分离后得到的是关于函数值的方程。证明的关键在于利用“独立变化性”将函数等式转化为点态等式。
- 处理函数逆:在 Proposition 4.1(ii) 和 4.2(i) 中,需要消除包含在未知函数参数中的未观测变量。这需要假设 f 局部可逆,并引入 g = f⁻¹,将问题转化为关于 g 的方程。这引入了额外的复杂性,需要处理 g 的导数。
技术技巧点名:
- 微分代数:核心工具,用于消除未观测变量,得到输入-输出方程。
- 独立变化性论证:利用理想数据下观测变量及其导数可独立变化的事实,将复杂的函数等式分解为更简单的点态等式。这是整个证明路线的基石。
- 反证法与分类讨论:在 Proposition 4.2(i) 中,通过假设 c₁ ≠ c₂ 并推导出矛盾(导致 f⁻¹ 必须是仿射的),从而证明 c₁ = c₂。这展示了如何通过函数性质(仿射性)来分类讨论可辨识性。
- 构造性证明:在 Section 3 的所有不可辨识性证明中,都采用了构造性方法:直接构造一个与原始解产生相同观测的替代解族,从而证明不可辨识性。
真实例子与应用¶
本文包含两个真实应用例子,均为模拟/理论分析,无真实数据。
-
化学反应网络模型(Section 6.1):
- 模型:
Ẋ₁ = f(X₂) - dX₁,Ẋ₂ = X₁ - f(X₂)。这是一个简单的双物种网络,未知函数f出现在两个方程中。 - 分析:作者用微分代数方法分析了当只观测
X₁或只观测X₂时的可辨识性。 - 结果:
- 只观测
X₂时,若f非仿射且d ≠ 1,则f和d全局可辨识。 - 只观测
X₁时,f不可辨识(存在平移歧义),但d可辨识。
- 只观测
- 说明的问题:展示了当未知函数在多个方程中出现时,会引入额外的约束,可能恢复可辨识性(与 Proposition 3.2 的“单次出现”情况对比)。同时,也展示了可辨识性如何依赖于观测变量。
- 模型:
-
Lotka-Volterra 模型(Section 6.2):
- 模型:两个变体。Model 1 是两个不同的未知函数
f和g;Model 2 是两个方程共享同一个未知函数f(但乘以不同系数)。 - 分析:分析了当只观测一个物种或两个物种都可观测时的可辨识性。
- 结果:
- Model 1(完全增广系统):无论观测什么,
f和g都不可辨识(符合 Proposition 3.3)。 - Model 2(共享函数):只有当两个物种都可观测时,
f,α,γ,δ才全部可辨识。如果只观测一个物种,则不可辨识,且不可辨识性依赖于未观测状态的动态。
- Model 1(完全增广系统):无论观测什么,
- 说明的问题:展示了混合建模中一个常见的陷阱——即使模型结构看起来有约束(共享函数),但如果观测不充分,仍然无法唯一恢复未知函数。强调了“充分观测”对于功能可辨识性的重要性。
- 模型:两个变体。Model 1 是两个不同的未知函数
🔎 结论是否比证明窄¶
- Proposition 4.1(ii) 的结论是“
f和d都是结构可辨识的”,但证明中明确依赖于f是局部可逆且d ≠ 0的假设。结论的适用范围比证明所覆盖的要窄。作者在 Remark A.1 中讨论了局部可逆性,但并未在结论中明确强调这一前提。 - Proposition 6.1 的结论是“当只观测
X₂时,f和d是结构可辨识的,给定d ≠ 1且f非仿射”。证明中严格处理了d=1和f仿射的情况,结论与证明一致,没有泛化。 - Proposition 6.4(iii) 的结论是“当
X₁和X₂都可观测时,f,α,γ,δ都结构可辨识”。证明中假设γ ≠ 0,这是一个合理的假设(否则模型退化),但结论中未明确提及。这是一个窄于证明的陈述。
四、开放问题¶
- 扩展到更复杂的模型:本文的理论如何扩展到偏微分方程(PDE)和随机微分方程(SDE)?作者在讨论中明确提到这是“未来研究的重要方向”,并引用了 [32-35] 作为参数可辨识性在PDE/SDE上的初步工作。(扎根于 Section 7 讨论)
- 自动化工具的开发:能否为结构功能可辨识性开发出像 [36] 那样用于参数可辨识性的自动化软件工具?作者指出,将微分代数应用于未知函数比参数情况更复杂,自动化是一个关键挑战。(扎根于 Section 7 讨论)
- 更一般的函数类:本文主要处理了单变量函数
f: ℝ → ℝ。如何处理多变量函数、显式依赖于时间的函数,或依赖于未知参数的函数?(扎根于 Section 7 讨论) - 与非参数统计识别性理论的连接:本文完全未提及非参数统计中关于函数识别性的经典理论(如非参数IV、非参数因果推断)。这两个平行领域之间是否存在深刻的联系或可相互借鉴的工具?(扎根于本文 intro 的缺失,是研究者可自行探索的 gap)
Maintained by 陈星宇 · Homepage · Source on GitHub