Effect Size Rules of Thumb for One‐Dimensional Functional Data With an Application to Gait Analysis¶

作者: Todd Pataky, Alessia Pini, Ezio Preatoni, Lina Schelin
来源: Statistics in Medicine
主题: 其他
相关性: 1/10
机构绿灯: Kyoto University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1002/sim.70633

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：如何为函数型数据（functional data，尤其是一维连续轨迹数据）构建具有跨研究可比性的效应量解释准则。在经典零维（0D，即标量/单变量）两样本比较中，Cohen's \(d\) 及其对应的 Sawilowsky 准则（如 \(d=0.2\) 为小效应，\(d=0.8\) 为大效应）被广泛用作效应量大小的"通用语"。然而，当数据从标量升级为连续函数（如步态分析中的关节角度随时间变化曲线）时，由于多重比较（或多重检验点）与数据平滑性带来的内在相关性，相同的 \(d\) 值在函数型数据中出现的概率远高于标量数据。这意味着，若直接套用标量准则，会导致对函数型效应量的系统性"低估"。该方向目前处于准则重构与概率校准阶段：学界已普遍意识到不能直接套用 0D 准则，但尚未形成公认的、具有概率一致性（probabilistic consistency）的 1D 替代准则。

发展脉络： - 奠基工作（标量效应量准则）：Cohen (1988) 提出了基于标准化均值差的效应量 \(d\) 及其经验解释准则（小/中/大）；Sawilowsky (2009) 扩展了该准则（新增极小/极大/极极大）。这些准则完全基于 0D 正态分布设定，缺乏高维/函数型数据的概率基础。 - 主要进展（函数型多重比较与概率校准的萌芽）： - Nichols & Hayasaka (2003) 等工作揭示了多重比较下 FWER 控制的难度，为"函数型数据中相同效应量更易出现"提供了多重检验视角的直觉。 - Pataky et al. (2016) 首次明确量化了这一现象：在 1D 数据中，由于随机场的平滑性，达到特定 \(d\) 值的概率高于 0D 独立标量。这构成了本文最直接的动机——作者在 intro 中原话定位："A key problem is that a given effect size occurs with greater probability for functional data than for the simple scalar (0D) case of Cohen/Sawilowsky." - 当前 frontier 与本文位置：当前 frontier 正从"发现 0D 准则不适用"转向"构建 1D 下的概率等价准则"。本文填补的口子是：不仅提供了一组与 Cohen/Sawilowsky 在概率上等价的 1D 经验准则，更提供了一个可将任意实验设计（配对/独立、不同样本量、不同平滑度）映射回基准 0D 情景的概率校准框架。

子线索聚类： 1. 标量效应量准则线：Cohen (1988) → Sawilowsky (2009)。定义了 \(d\) 的计算与经验阈值，但严格限定在 0D 两样本独立正态设定。 2. 函数型随机场推断线：Nichols & Hayasaka (2003) → Pataky et al. (2016)。聚焦于 1D 随机场的拓扑推断（如超越阈值簇的 FWER 控制），揭示了平滑性对推断概率的放大效应，但未触及效应量的"大小解释"准则。 3. 功效分析与样本量规划线：Inglis et al. (2022) 等。尝试将 0D 功效分析推广至 1D，但仍依赖未校准的 0D 效应量准则，导致功效估计偏差。

这个方向在追问的核心问题： 1. 概率一致性：如何保证"1D 下的中等效应"与"0D 下的中等效应"在出现概率上等价，从而维持跨维度与跨研究的可比性？ 2. 实验设计适配：当实际实验偏离基准设定（如配对设计、残差平滑度极高）时，如何动态校准效应量阈值，而非死守一组固定常数？ 3. 准则的适用边界：通用经验准则（Rules of Thumb）究竟只该用于先验功效分析（缺乏方差与平滑度信息时），还是也可用于事后解释？

⚠️ 作者的 framing： - 作者的说法：作者将缺口 frame 为"Cohen/Sawilowsky 准则在 1D 下概率不一致，导致效应量被低估"，从而让自己的贡献（概率一致的 1D 准则 + 适配框架）成为"显然的下一步"。 - 被淡化或回避的竞争路线：作者回避了基于 Bayes Factor 或后验分布的效应量解释路线（如 Kruschke 等，在心理学与医学中极流行），也未讨论非参数效应量（如基于秩的 Cliff's \(\delta\)）在函数型数据下的概率行为。整篇 intro 完全锁定在基于标准化均值差 \(d\) 的参数框架内。 - 明显该被引却缺席的：高维多重检验的 FDR 控制文献（如 Benjamini & Hochberg, 1995; Storey, 2003）以及函数型数据半参数推断（如 Faraway 1997, Ramsay & Silverman 2005 的函数型线性模型）。这些文献对"高维/函数型设定下统计量概率行为异于低维"有深刻刻画，intro 中缺席，值得研究者去查：是它们与效应量解释无关，还是作者刻意缩小了战场？

张力：未见明显对立引用。但存在一个隐含张力：Pataky et al. (2016) 强调"平滑性使 1D 检验更易发现显著簇"，而本文的校准框架显示，当平滑度极高且样本量较大时（如真实步态数据），校准后的效应量反而被解释为"极大"——这意味着平滑性对"效应量大小解释"的影响方向，与对"显著性检验"的影响方向并不完全一致，值得在数学上进一步厘清。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代

\(d\)（效应量参数 / estimand）：标准化均值差，定义为 \(d = \frac{\mu_1 - \mu_2}{\sigma}\)，其中 \(\mu_1, \mu_2\) 为两组均值函数，\(\sigma\) 为合并标准差。在 0D 标量情形下，\(d\) 是一个实数；在 1D 函数情形下，\(d(t)\) 是时间 \(t\) 的连续函数，本文关注其最大值 \(d_{\max} = \max_t d(t)\)。
\(n_1, n_2\)（样本量指标）：两组的样本量。基准设定下取 \(n_1 = n_2 = n\)。
\(\sigma\)（标准差参数）：0D 下为标量；1D 下为函数 \(\sigma(t)\)，本文基准设定假设 \(\sigma(t) = \sigma\)（常数方差函数）。
\(Y_i^{(1)}(t), Y_i^{(2)}(t)\)（随机变量 / 样本）：第 1 组第 \(i\) 个个体和第 2 组第 \(j\) 个个体在时间 \(t\) 上的观测轨迹。
\(d_{\max}^*\)（随机变量）：从样本中计算出的最大效应量估计，\(d_{\max}^* = \max_t \frac{\bar{Y}_1(t) - \bar{Y}_2(t)}{S(t)}\)，其中 \(\bar{Y}, S\) 为样本均值与标准差函数。
\(q\)（平滑度指标 / 维数参数）：1D 随机场的平滑度参数，通常与残差的傅里叶基数量或导数阶数挂钩，控制了场的有效独立测试点数。
可观测数据：研究者实际观测到的是 \(n_1 + n_2\) 条连续轨迹 \(Y_i(t)\)，每条轨迹在离散时间点 \(t_1, \dots, t_m\) 上有测量值（\(m\) 通常很大，构成高维向量）。
不可观测 / 需假设识别的：真实的均值差函数 \(\mu_1(t) - \mu_2(t)\) 与真实方差函数 \(\sigma(t)\) 是潜在参数；场的平滑度 \(q\) 需通过残差的基函数拟合或自相关结构来估计/假设。

第二步：最小内核

剥掉所有一般性设定（配对设计、非恒定方差、任意平滑度），本文支撑整个概率校准框架的最小内核是一个基准两样本独立比较问题：

最简特例（基准 0D vs. 基准 1D）： - 0D 基准：两组独立正态标量 \(Y_i^{(1)}, Y_j^{(2)} \sim \mathcal{N}(\mu_k, \sigma^2)\)，\(n_1=n_2=n\)。此时 \(d\) 为标量。Cohen 准则规定：\(d=0.2\) 为小效应，\(d=0.8\) 为大效应。其概率含义隐含为：在零假设 \(d=0\) 下，观察到 \(d^* \ge 0.2\)（或 0.8）的概率极低（具体由非中心 \(t\) 分布决定）。 - 1D 基准：两组独立正态随机场 \(Y_i^{(1)}(t), Y_j^{(2)}(t)\)，恒定方差 \(\sigma^2\)，平滑度 \(q\)。此时要证的命题退化成：在零假设 \(d(t)=0\) 下，1D 随机场的最大统计量 \(d_{\max}^*\) 超过某个阈值 \(c\) 的概率，高于 0D 标量统计量 \(d^*\) 超过同一阈值 \(c\) 的概率。 - 为什么成立：因为 1D 场在时间轴上提供了大量"机会"让局部波动产生极大值。数学上，\(d_{\max}^*\) 的分布由随机场的超越概率决定，其右尾比单变量 \(t\) 分布的右尾更厚。因此，若 0D 下 \(P(d^* \ge 0.8)\) 极小（大效应罕见），则在 1D 下 \(P(d_{\max}^* \ge 0.8)\) 会变大（大效应不再罕见）。 - 本文怎么破：寻找一组新的 1D 阈值 \(c_{1D}\)（如 \(c_{1D,\text{medium}}\)），使得 \(P_{1D}(d_{\max}^* \ge c_{1D,\text{medium}}) = P_{0D}(d^* \ge 0.8)\)。这就是"概率一致性"的最小内核——通过匹配超越概率的右尾，将 0D 的经验阈值映射为 1D 的等效阈值。一般情形下的适配框架（配对设计、不同 \(n\)、不同 \(q\)）只是在这个匹配方程中，把 0D 和 1D 的分布参数（非中心参数、场的平滑度）按实际实验设定进行替换。

三、这篇论文做了什么¶

三句话： ① 研究了函数型数据（1D）效应量解释准则与标量数据（0D）经典 Cohen/Sawilowsky 准则之间的概率不一致问题； ② 核心工具是基于随机场超越概率与非中心 \(t\) 分布的概率一致性映射框架； ③ 主要结论是：直接套用 0D 准则会系统性低估 1D 效应量；本文给出了与 0D 概率等价的 1D 经验准则，并提供了可将任意实验设定校准回 0D 基准的框架，真实步态数据验证显示校准前后解释从"极小/中等"剧变为"极大"。

关键设定与假设： - 基准 0D 设定：两样本独立，等样本量 \(n\)，等方差 \(\sigma^2\)，正态分布。效应量 \(d\) 为常数。 - 基准 1D 设定：两样本独立，等样本量 \(n\)，恒定方差函数 \(\sigma^2(t) = \sigma^2\)，正态随机场。效应量 \(d(t)\) 为连续函数，关注 \(d_{\max}\)。 - 平滑度假设：1D 残差场被假设为具有特定傅里叶基数量 \(q\) 的平滑场，这决定了场的有效独立测试点数，直接影响 \(d_{\max}^*\) 的分布尾重。 - 概率一致性定义：若 1D 阈值 \(c_{1D}\) 满足 \(P_{1D, \text{null}, n, q}(d_{\max}^* \ge c_{1D}) = P_{0D, \text{null}, n}(d^* \ge c_{0D})\)，则称 \(c_{1D}\) 与 \(c_{0D}\) 概率一致。 - 放宽与强化：相比 Cohen/Sawilowsky 仅凭经验划定阈值，本文强化了概率定义；相比 Pataky et al. (2016) 仅描述现象，本文强化了量化映射。但本文假设了正态性与恒定方差，这在真实步态数据中未必成立（作者在真实数据部分承认了这一点并作了近似处理）。

主要结果： 1. 1D 经验准则：在基准设定（\(n=12, q=10\)，匹配 Cohen 原书的典型小样本情景）下，通过概率一致性映射，计算出 1D 的等效阈值。例如，0D 的"中等"阈值 \(d=0.5\)，在 1D 下对应的等效阈值可能高达 \(d_{\max}=0.8\) 左右（具体数值依赖 \(n\) 与 \(q\) 的查表）。这意味着，在 1D 数据中，你必须观察到更大的 \(d_{\max}\)，才能宣称它与 0D 下 \(d=0.5\) 一样"罕见"。 2. 适配框架：对于任意实验设定（配对设计、不等样本量、非基准平滑度 \(q\)），框架的操作步骤为： - (a) 根据实际设定，计算 1D 下 \(d_{\max}^*\) 的零分布超越概率； - (b) 反向求解：在 0D 基准设定下，哪个 \(d_{0D}\) 值会产生相同的超越概率？ - (c) 将求得的 \(d_{0D}\) 代入 Cohen/Sawilowsky 准则进行解释。这实质上是将 1D 的观察统计量"投影"回 0D 的概率空间中解读。 3. 真实数据结论：在全髋关节置换步态数据（配对设计，\(n=52\)，极高平滑度）中，术后步态改变的 \(d_{\max}\) 若按未校准的 Cohen 准则解释为"中等"或按未校准 1D 准则解释为"极小"，但按本文适配框架校准后，解释为"极大"——因为高平滑度与大样本量使得 1D 场的超越概率极度放大，必须用极高的 \(d_{\max}\) 才能匹配 0D 的罕见度。

证明路线与技术技巧： - 整体路线： 1. 定义 0D 与 1D 下效应量统计量的零分布（0D 为非中心 \(t\) 分布；1D 为平滑正态随机场的最大值分布）。 2. 对给定的 0D 阈值 \(c_{0D}\)（如 0.2, 0.5, 0.8），计算其零假设下的超越概率 \(p_{0D}\)。 3. 在 1D 零分布中，寻找阈值 \(c_{1D}\) 使得 \(P(d_{\max}^* \ge c_{1D}) = p_{0D}\)，构成一对一映射。 4. 对于非基准实验设定，重复步骤 1-3，但将 1D 的参数（样本量、平滑度、配对相关）替换为实际值，0D 保持基准，从而得到"实际 1D → 基准 0D"的映射。 - 关键跳跃点：1D 随机场最大值分布的精确计算是整个框架的卡点。高维随机场的超越概率没有闭式解，通常依赖极值理论或数值模拟。 - 技术技巧点名： - 随机场超越概率的数值计算：利用 1D 平滑正态场的傅里叶基表示，通过数值积分或蒙特卡洛模拟计算 \(P(d_{\max}^* \ge c)\)。本文使用了基于残差基函数拟合的参数化方法来估计平滑度 \(q\)。 - 非中心 \(t\) 分布的尾概率匹配：0D 侧的计算依赖标准的非中心 \(t\) 分布 CDF，用于锚定基准概率。 - 配对设计的方差折减：在适配框架中，配对设计通过将方差替换为 \(\sigma^2(1-\rho)\)（\(\rho\) 为配对相关系数）来折减，从而改变 \(d_{\max}^*\) 的分布尺度。

真实例子与应用： - 数据 / 场景：开放全髋关节置换（Total Hip Arthroplasty, THA）步态数据集。包含术前与术后患者的膝关节角度轨迹（1D 函数），配对设计，\(n=52\)。 - 怎么用上去： 1. 计算术前 vs. 术后的 \(d_{\max}(t)\) 曲线，提取最大效应量。 2. 估计残差场的平滑度 \(q\)（通过傅里叶基拟合）。 3. 分别用三种准则解释该 \(d_{\max}\)：(a) 原始 Cohen/Sawilowsky 0D 准则；(b) 本文提出的基准 1D 准则（\(n=12, q=10\)）；(c) 本文适配框架（配对设计，实际 \(n=52\), 实际 \(q\)）。 - 得到什么结果：(a) 解释为"中等"（因为 \(d_{\max}\) 略大于 0.5）；解释为"极小"（因为基准 1D 阈值更高，实际 \(d_{\max}\) 未达到）；(c) 解释为"极大"（因为实际 \(n\) 大且平滑度高，使得 1D 超越概率极大，等效的 0D 阈值被推至极高）。 - 想说明什么：验证理论的核心警告——同一效应量在不同实验设定下的概率意义截然不同，死守固定常数准则会导致荒谬的解释；同时展示适配框架如何恢复概率一致性。

🔎 结论是否比证明窄：本文的核心映射框架在正态、恒定方差、特定平滑度参数化下严格计算（通过数值积分/模拟）。但在真实数据应用中，作者承认步态数据残差未必严格正态且方差未必恒定，此时框架的"概率一致性"是近似 claim，而非严格证明。文中未提供非正态或异方差下映射误差的界或收敛率分析。此外，"建议通用准则仅用于先验功效分析"是一条实践建议，缺乏理论证明支撑（如：在缺乏方差与平滑度信息时，使用基准 1D 准则进行功效分析的误差下界是什么？未给出）。

四、开放问题（点到为止，扎根具体语句）¶

非正态与异方差下的概率一致性映射误差：本文框架在正态与恒定方差下严格成立，真实数据应用中作者近似使用了该框架（原文承认残差非正态/异方差）。要证/估什么：在非正态或异方差 1D 场下，使用正态基准映射的超越概率偏差的收敛率或有限样本界。扎根点：真实数据应用段对近似处理的承认，以及设定假设中"正态、恒定方差"的限定。
平滑度参数 \(q\) 的估计误差对映射阈值的影响：框架极度依赖 \(q\) 的准确估计，作者用傅里叶基拟合估计 \(q\)，但未给出 \(q\) 估计误差如何传播至最终阈值 \(c_{1D}\) 的敏感性分析。要估什么：\(\hat{q} - q\) 的偏差如何放大为 \(c_{1D}(\hat{q}) - c_{1D}(q)\) 的偏差。扎根点：适配框架步骤中 \(q\) 作为输入参数的显式依赖。
半参数/非参数效应量的概率校准：本文完全锁定在参数化标准化均值差 \(d\) 上，回避了基于秩的效应量（如 Cliff's \(\delta\)）在 1D 下的概率行为。要证什么：1D 随机场下秩效应量最大值的零分布超越概率，及其与 0D 秩效应量阈值的映射关系。扎根点：intro 中对 Cohen/Sawilowsky 的单一聚焦，以及对 Bayes/非参数路线的完全缺席（需去查同子领域近期 5 篇 intro 确认这是真 gap 还是作者刻意缩小战场）。

Maintained by 陈星宇 · Homepage · Source on GitHub

Effect Size Rules of Thumb for One‐Dimensional Functional Data With an Application to Gait Analysis¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论