A new non-parametric Kendall’s tau for matrix-valued elliptical observations¶

作者: Yong He, Yalin Wang, Long Yu, Wang Zhou, Wen-Xin Zhou
来源: Bernoulli
主题: 高维统计 / 随机矩阵
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么：这个子方向要解决的根本统计问题是：当观测数据呈现矩阵值（或更高阶张量值）结构，且潜在分布具有重尾或异常值特征时，如何在不依赖矩条件（如有限四阶矩）的前提下，稳健地估计数据的散布结构，并据此进行双向降维（如提取行、列因子载荷空间）与因子数估计。当前该方向的成熟度处于“方法刚提出、理论初步建立、高维渐近与极小极大下界尚待填补”的阶段。

发展脉络（history）： 1. 奠基工作（向量 Kendall's tau 与稳健降维）：经典向量 Kendall's tau（Kendall, 1938; Han & Liu, 2018）被证明在椭圆分布下，其特征空间与总体散布矩阵一致，且无需有限矩条件即可用于主成分分析与因子模型降维。作者在 intro 中明确引用 Han & Liu (2018) 的判断："vector Kendall's tau can recover the eigenspace of scatter matrix without moment constraints"，这构成了本文将思路从向量推广到矩阵的直接起点。 2. 主要进展（矩阵因子模型与 PCA）：矩阵因子模型作为双向降维工具近年兴起。Chen & Fan (2021) 与 Yu et al. (2022) 建立了矩阵因子模型的渐近理论，但作者指出这些工作"rely heavily on the sample covariance matrix, which requires finite fourth moments"，在重尾数据下失效。 3. 当前 frontier（矩阵散布矩阵的稳健估计）：矩阵椭圆分布下的稳健估计刚起步。He et al. (2022) 提出了矩阵空间中的 Tyler's M-estimator，作者引用并指出其"requires iterative algorithm and lacks explicit Bahadur representation"，这为本文寻找具有显式表达的非参数统计量留下了口子。 4. 本文的位置：本文填补了"矩阵值观测 + 无矩条件 + 显式非参数估计 + Bahadur 展开"这一空缺，将向量 Kendall's tau 的思想改造为行/列矩阵 Kendall's tau，并直接嵌入矩阵因子模型的载荷恢复与因子数估计中。

子线索聚类： - 子线索 1：非参数秩相关与稳健特征分析。这一簇在做：用 Kendall's tau / Spearman's rho 等秩统计量替代样本协方差，在椭圆分布下证明其特征空间与散布矩阵的等价性，绕开矩条件。代表：Han & Liu (2018)。 - 子线索 2：矩阵因子模型的渐近理论。这一簇在做：对矩阵观测 \(X_t\) 建立双向因子结构 \(X_t = \Lambda F_t \Gamma^\top + E_t\)，用样本协方差矩阵的特征分解恢复 \(\Lambda\) 与 \(\Gamma\)，推导收敛速率。代表：Chen & Fan (2021), Yu et al. (2022)。 - 子线索 3：矩阵椭圆分布的 M-estimator。这一簇在做：在矩阵椭圆分布下定义 Tyler's / Maronna's M-estimator，通过迭代算法求散布矩阵的稳健估计。代表：He et al. (2022)。

这个方向在追问的核心问题： 1. 如何在矩阵值观测中定义一个非参数统计量，使其特征空间与行/列散布矩阵严格对齐，且特征值保持降序？ 2. 在因子模型中，若 idiosyncratic errors 无有限矩，载荷空间与因子数的估计能否仍达到与有矩情形可比的收敛速率？ 3. 稳健估计量是否具备 Bahadur 表示，从而允许进一步的推断（如假设检验、置信区间构造）？当前主流方法（样本协方差 PCA）的瓶颈在于：重尾下四阶矩爆炸导致特征值/特征向量估计不一致；Tyler's M-estimator 的瓶颈在于：无显式表达与 Bahadur 展开，难以做统计推断。

⚠️ 作者的 framing：作者把缺口 frame 成："矩阵因子模型现有方法依赖样本协方差与四阶矩，而重尾数据下矩不存在；虽有 Tyler's M-estimator，但无 Bahadur 表示。因此，构造一个非参数、有显式表达、有 Bahadur 表示的矩阵 Kendall's tau 是显然的下一步。"竞争路线被淡化：作者未讨论半参数效率界（即无矩条件下，散布矩阵估计的极小极大速率是多少？本文速率是否达到最优？），也未对比Huber 损失 / 截断均值等 catoni-type 稳健估计在矩阵设定下的表现。明显该被引却未出现在 intro 里的：高维稳健 M-estimator 的 Bahadur 表示文献（如 Catoni (2012), Minsker (2018) 在向量情形的 Bahadur 展开），以及矩阵因子模型的极小极大下界文献——这两条是研究者值得去查的缺口。

张力：未见明显对立引用。各路线（协方差 PCA、Tyler's M-estimator、Kendall's tau）在不同假设下给出不同结论，但无直接矛盾；张力更多体现在"矩条件要求"与"推断可行性"的取舍上。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(X_t\)：可观测的随机矩阵，\(t=1,\dots,T\) 为时间/样本索引，维度为 \(p \times q\)。
\(\Lambda\)：行载荷矩阵，\(p \times k\) 维，\(k\) 为行因子数，要估的对象。
\(\Gamma\)：列载荷矩阵，\(q \times r\) 维，\(r\) 为列因子数，要估的对象。
\(F_t\)：因子得分矩阵，\(k \times r\) 维，潜在量，不可直接观测。
\(E_t\)：特异性误差矩阵，\(p \times q\) 维，潜在量，不可观测，本文对其不施加任何矩条件。
\(\Sigma_r\)：行散布矩阵，\(p \times p\) 维，椭圆分布的行侧参数。
\(\Sigma_c\)：列散布矩阵，\(q \times q\) 维，椭圆分布的列侧参数。
\(K_r\)：行矩阵 Kendall's tau，\(p \times p\) 维，本文定义的非参数统计量，由 \(X_t\) 的样本算出，可观测。
\(K_c\)：列矩阵 Kendall's tau，\(q \times q\) 维，同上。
\(p, q, T\)：维数与样本量，本文允许 \(p, q \to \infty\) 且 \(T \to \infty\)。

模型：矩阵因子模型设定为 \(X_t = \Lambda F_t \Gamma^\top + E_t\)。进一步，假设 \(X_t\) 服从矩阵椭圆分布，即 \(X_t\) 可写成 \(\Sigma_r^{1/2} Z_t \Sigma_c^{1/2}\) 的线性变换，其中 \(Z_t\) 是 \(p \times q\) 的标准矩阵正态（或更一般的球形分布），\(\Sigma_r\) 与 \(\Sigma_c\) 控制行/列侧的散布。在此设定下，行/列散布矩阵与行/列载荷空间存在对齐关系：\(\Lambda\) 是 \(\Sigma_r\) 的前 \(k\) 个特征向量，\(\Gamma\) 是 \(\Sigma_c\) 的前 \(r\) 个特征向量。

可观测数据：研究者实际能观测到的是 \(T\) 个 \(p \times q\) 矩阵 \(\{X_1, \dots, X_T\}\)。想要估但观测不到的是 \(\Lambda, \Gamma, F_t\) 以及因子数 \((k, r)\)。传统方法需要观测 \(X_t\) 的四阶矩存在，本文彻底绕开这一要求。

第二步：最小内核——最简特例（\(p=q=1\) 退化为向量 Kendall's tau，\(k=r=1\) 单因子情形）

整篇论文的证明本质上是向量 Kendall's tau 特征对齐性质在矩阵双侧的推广。最小内核在于：在椭圆分布下，Kendall's tau 的总体版本与散布矩阵的特征空间严格一致，且特征值同序。

在最简特例（单行因子 \(k=1\)、单列因子 \(r=1\)，即 \(\Lambda\) 是 \(p\) 维向量、\(\Gamma\) 是 \(q\) 维向量）下，要证的核心命题退化为： 1. 总体对齐：行矩阵 Kendall's tau 的总体版本 \(K_r(\Sigma_r)\) 的最大特征向量，就是 \(\Sigma_r\) 的最大特征向量（即 \(\Lambda\) 的方向）。 2. 样本收敛：由样本算出的 \(\hat{K}_r\)，其最大特征向量 \(\hat{\lambda}_1\) 与总体最大特征向量 \(\lambda_1\) 的距离 \(\|\hat{\lambda}_1 - \lambda_1\|\) 在 \(p \to \infty, T \to \infty\) 下以速率 \(O_P(\sqrt{p/T})\) 收敛到 0，无需 \(E_t\) 的任何矩条件。 3. Bahadur 表示：\(\hat{\lambda}_1 - \lambda_1 = \frac{1}{T} \sum_{t=1}^T \psi(X_t) + \text{remainder}\)，其中 remainder 在无矩条件下仍可控。

为什么成立？因为 Kendall's tau 只依赖观测的符号/秩（即 \(X_{t,i} - X_{s,i}\) 的正负号），在椭圆分布下，正负号的联合分布完全由 \(\Sigma_r, \Sigma_c\) 决定，与生成 \(X_t\) 的径向分布（控制重尾程度的量）无关。因此，即使径向分布没有有限矩（如 Cauchy 分布），正负号的分布依然良态，Kendall's tau 的样本均值仍以 \(O_P(1/\sqrt{T})\) 集中于其总体版本。本文的"行/列矩阵 Kendall's tau"通过在矩阵的行间/列间分别计算符号协同频率，将这一性质双侧并行化。

三、这篇论文做了什么¶

三句话： ①研究了矩阵值椭圆分布观测下，无矩条件的稳健降维与因子模型估计问题。 ②核心工具是新定义的行/列矩阵 Kendall's tau 及其广义版本的特征分解。 ③主要结论是：载荷空间、因子得分、共同成分的估计均达到明确收敛速率，载荷估计有 Bahadur 表示，因子数可通过特征值比准则一致估计，全程无需 idiosyncratic errors 的矩条件。

关键设定与假设： - 矩阵椭圆分布：\(X_t = \xi_t \Sigma_r^{1/2} Z_t \Sigma_c^{1/2}\)，\(\xi_t\) 是非负随机变量（径向分布，可重尾无矩），\(Z_t\) 是 \(p \times q\) 矩阵，各行/列独立标准正态。统计含义：允许重尾，但行/列的相依结构仍由 \(\Sigma_r, \Sigma_c\) 参数化。 - 矩阵因子模型：\(X_t = \Lambda F_t \Gamma^\top + E_t\)，\(E_t\) 的行/列可相依，但无任何矩条件（甚至可以 \(E[E_t^4] = \infty\)）。 - 载荷与散布矩阵对齐：假设 \(\Lambda\) 是 \(\Sigma_r\) 的前 \(k\) 个特征向量，\(\Gamma\) 是 \(\Sigma_c\) 的前 \(r\) 个特征向量。这是将 Kendall's tau 的特征分解与因子模型载荷恢复连接的桥梁。 - 因子数有界：\(k, r\) 固定或 \(k/p, r/q \to 0\)。 - 与已有文献对比：相比 Chen & Fan (2021) 要求 \(E_t\) 有有限四阶矩，本文完全移除；相比 He et al. (2022) 的 Tyler's M-estimator，本文有显式公式与 Bahadur 表示。

主要结果： 1. 定理：特征空间对齐（Theorem 1 类似）：行矩阵 Kendall's tau 的总体版本 \(K_r(\Sigma_r)\) 的特征空间与 \(\Sigma_r\) 的特征空间完全一致，特征值降序相同。列侧同理。直觉：Kendall's tau 是 \(\Sigma_r\) 的单调函数变换，不改变特征结构。 2. 定理：载荷估计收敛速率：\(\|\hat{\Lambda} - \Lambda\| = O_P(\sqrt{p/T})\)，\(\|\hat{\Gamma} - \Gamma\| = O_P(\sqrt{q/T})\)。必要条件：\(p/T \to 0\) 且 \(q/T \to 0\)（样本量需大于维数）。技术难点：在无矩条件下，传统扰动分析（依赖四阶矩的 Davis-Kahan sin\(\theta\) 定理）失效，本文通过 Kendall's tau 的有界性（取值在 \([-1,1]\)）绕开。 3. 定理：Bahadur 表示：\(\hat{\Lambda} - \Lambda = \frac{1}{T} \sum_{t=1}^T \phi(X_t, \Lambda) + R_{p,T}\)，其中 \(R_{p,T} = O_P(p/T)\)。直觉：将非线性特征向量估计展开为线性求和加可控余项。技术难点：余项的高阶控制通常需要矩条件，本文利用 Kendall's tau 的秩性质（有界随机变量）截断了大偏差路径。

证明路线与技术技巧： - 整体路线： 1. 定义行/列矩阵 Kendall's tau \(\hat{K}_r, \hat{K}_c\)，证明其总体版本 \(K_r, K_c\) 与 \(\Sigma_r, \Sigma_c\) 特征对齐。 2. 证明 \(\hat{K}_r\) 到 \(K_r\) 的集中（\(\|\hat{K}_r - K_r\| = O_P(\sqrt{p/T})\)），利用 Kendall's tau 的 U-统计量结构。 3. 对 \(\hat{K}_r\) 做特征分解，用无矩版本的扰动界（基于 Wedin's theorem 的变体）将特征向量误差转化为特征值间隙与矩阵扰动误差的比。 4. 将特征向量误差展开为 Bahadur 表示，利用 Hoeffding 分解处理 U-统计量的核。 5. 对因子数估计，分析特征值比 \(\hat{\lambda}_{i+1}/\hat{\lambda}_i\) 在 \(i=k\) 与 \(i>k\) 处的跳变行为。 - 关键跳跃点： - 无矩条件下的扰动界：传统 Davis-Kahan/Wedin 定理的余项涉及 \(\|X_t\|\) 的四阶矩，本文通过 Kendall's tau 的核函数 \(\text{sign}(X_{t,i} - X_{s,i})\) 的有界性（绝对值恒为 1），使得 \(\|\hat{K}_r - K_r\|\) 的集中不等式只需二阶矩（甚至更低），这是绕开矩条件的关键跳跃。 - Bahadur 余项的控制：在无矩条件下，\(E_t\) 的重尾使得传统 Taylor 展开余项不可控。本文利用 Kendall's tau 的 U-统计量核的有界性，将余项归结为退化 U-统计量的集中，通过 Hoeffding 分解与 Bernstein 型不等式（对有界核）完成控制。 - 技术技巧点名： - Hoeffding 分解 / 退化 U-统计量：用于将 \(\hat{K}_r - K_r\) 拆解为线性项加退化项，线性项给出 Bahadur 表示的主部，退化项被证明为高阶余项。 - Wedin's sin\(\theta\) 定理（变体）：用于将特征向量误差 \(\|\hat{\Lambda} - \Lambda\|\) 绑定到矩阵扰动 \(\|\hat{K}_r - K_r\|\) 与特征值间隙的比上。 - Bernstein 不等式（有界核版）：用于控制 U-统计量的集中，因核函数有界，无需矩条件即可获得指数型集中。 - 特征值比准则：用于估计因子数 \(k, r\)，通过 \(\hat{\lambda}_{k+1}/\hat{\lambda}_k\) 与 \(\hat{\lambda}_{k}/\hat{\lambda}_{k-1}\) 的比值跳变识别因子数，类似 Bai & Ng (2002) 的思路但适配 Kendall's tau 的特征值尺度。

真实例子与应用： - 金融数据集：资产回报矩阵（行=资产，列=时间，或反之），该数据天然具有重尾特征（金融回报常无四阶矩）。本文方法用于提取资产因子与时间因子，结果显示在重尾下，Kendall's tau 方法提取的载荷比样本协方差 PCA 更稳定，异常值影响更小。 - 模拟实验：构造不同重尾程度（如 \(t\) 分布自由度 3, 5, 正态）的矩阵因子模型数据，对比本文方法与 Chen & Fan (2021) 的协方差 PCA。结果显示：当重尾加剧（自由度降低），协方差 PCA 的载荷估计误差急剧上升，而 Kendall's tau 方法误差保持平稳，验证了无矩条件下的鲁棒性。 - 高阶张量推广：简要展示了将行/列矩阵 Kendall's tau 推广到三阶张量的思路，通过逐模计算秩相关矩阵，但未给出完整理论。

🔎 结论是否比证明窄： - 论文在定理中严格证明了 \(p/T \to 0, q/T \to 0\) 下的收敛速率与 Bahadur 表示，但在 abstract 与 intro 中泛泛 claim "without any moment constraints on the idiosyncratic errors"——严格证明中实际仍需要径向分布 \(\xi_t\) 使得 Kendall's tau 的总体版本存在且非退化（即 \(\Sigma_r, \Sigma_c\) 正定），这一条件在正文中被假设，但在宣传语中被淡化。 - 因子数估计的一致性定理要求特征值间隙足够大（\(\lambda_k / \lambda_{k+1} \to \infty\)），这一条件在定理中明确，但在 intro 的"无需矩条件"宣传中被混同。

四、开放问题（点到为止，扎根具体语句）¶

极小极大下界缺失：本文给出了 \(O_P(\sqrt{p/T})\) 的收敛速率，但未讨论在无矩条件设定下，载荷估计的极小极大速率是否也是 \(\sqrt{p/T}\)。若下界更慢，则本文速率可能非最优；若下界匹配，则本文为极小极大最优。扎根点：Theorem 2 的速率陈述与 intro 中未提及任何 minimax / lower bound 文献。
Bahadur 表示的推断用途：本文给出了 Bahadur 表示，但未构造置信区间或假设检验。扎根点：Section 2.3 给出 Bahadur 表示后，未进一步讨论如何估计线性项 \(\phi(X_t, \Lambda)\) 的方差以做推断。
高阶张量的完整理论：intro 提及"can further be generalized to analyze high-order tensors"，但正文仅给模拟，未给收敛速率或 Bahadur 表示的定理。扎根点：Section 5 的简短讨论与补充材料中的模拟，缺乏定理陈述。
与半参数效率界的关系：在椭圆分布半参数模型下，散布矩阵的半参数效率界是什么？Kendall's tau 是否达到该界？扎根点：intro 完全未引用半参数效率文献（如 Bickel et al. 1993），也未讨论效率。

（要确认某条是否真 gap，建议读近期 5 篇矩阵因子模型与稳健 PCA 的 intro——若都指向"无矩推断"或"极小极大下界"，则为共识真 gap；若互相打架，则为机会。）

Maintained by 陈星宇 · Homepage · Source on GitHub

A new non-parametric Kendall’s tau for matrix-valued elliptical observations¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论