Additive density-on-scalar regression in Bayes Hilbert spaces with an application to gender economics¶

作者: Eva-Maria Maier, Almond Stöcker, Bernd Fitzenberger, Sonja Greven
来源: Annals of Applied Statistics
主题: 经济理论 / 应用
相关性: 7/10
链接: 期刊页 · arXiv

一、领域脉络与小综述¶

这个方向是什么 这个子方向要解决的根本统计问题是：当响应变量是概率密度函数（或分布）而协变量是标量/向量时，如何建立回归模型，使得在向量空间运算（加法、线性组合）下，结果仍然满足密度的非负性与积分归一性，同时保持对分布形状的灵活拟合与效应的直观解释。当前该方向处于方法框架成型期：Bayes Hilbert space 与变换方法已被提出用于克服密度非向量空间的约束，加性模型与 boosting 估计已被引入以应对高维协变量，但对混合密度（含点质量）的处理、子组成一致性下的效应解释、以及两步估计的统计理论（收敛速率、有效影响函数）仍留有大量缺口。

发展脉络 - 奠基工作：Petersen & Müller (2016) 提出将密度通过变换（如 log quantile density）映射到 \(L^2\) Hilbert 空间，从而在无约束空间中进行函数回归后再逆变换回密度，解决了非负与归一约束，但变换选择依赖先验且缺乏 odds-ratio 解释。 - 主要进展： - Talská et al. (2018) 将密度视为功能组成数据，引入 Bayes Hilbert space 与 clr 变换建立函数线性回归，利用 Bayes 空间几何捕捉尺度不变性与相对尺度，但仅限线性模型与连续密度区间。 - Han et al. (2020) 推广 Petersen & Müller 的变换法至加性密度回归，在变换后的 \(L^2\) 空间中拟合加性模型以避免维数灾难，但作者指出其"未考虑密度估计的不确定性"且对混合密度（含点质量）无处理框架。 - Stöcker et al. (2018/2021) 将 GAMLSS 推广至函数响应，用梯度 boosting 拟合位置-尺度-形状模型，为本文 boosting 估计与交互效应中心化提供算法基础。 - 当前 frontier：如何在保持 Bayes 空间几何（子组成一致性、odds-ratio 解释）的同时，处理混合密度（连续部分与离散点质量共存），并允许加性结构与自动模型选择——这正是本文切入的位置。 - 本文的位置：作者在 Bayes Hilbert space 中建立加性模型，利用 clr 变换与正交分解将混合密度的连续部分与点质量部分分离估计，并用梯度 boosting 实现高维协变量下的模型选择与拟合，声称首次在密度回归中同时实现子组成一致性、odds-ratio 解释与混合密度处理。

子线索聚类 1. 变换到 Hilbert 空间路线：Petersen & Müller (2016), Han et al. (2020)——通过特定变换（log quantile, log hazard）将密度映射到 \(L^2\)，在无约束空间做回归后逆变换。优点：灵活；缺点：变换选择影响结果，缺乏组成数据几何与 odds-ratio 解释。 2. Bayes Hilbert 空间 / 组成数据路线：Talská et al. (2018), van den Boogaart & Egozcue (2010)——将密度视为 Bayes 空间中的组成数据，用 clr 变换获得向量空间表示，保持尺度不变性与子组成一致性。优点：几何一致、odds-ratio 解释；缺点：此前仅限线性模型与连续密度。 3. 分布回归 / 条件分布估计路线：GAMLSS (Rigby & Stasinopoulos, 2005), Conditional Transformation Models (Hothorn et al., 2012), Deep Distribution Regression (Li et al., 2021)——参数化或半参数化建模条件分布参数，或用深度学习/核方法估计条件密度。作者批评其"需已知分布族"或"缺乏分布层面解释"或"协变量多时受限"。 4. Fréchet 回归 / 最优传输路线：Petersen & Müller (2019), Ghodrati & Panaretos (2021)——在度量空间中定义条件 Fréchet 均值做回归。作者指出其"未考虑估计不确定性"且不提供加性结构或 odds-ratio 解释。

这个方向在追问的核心问题 1. 如何在向量空间运算下保持密度的约束（非负、归一）与几何一致性（尺度不变、子组成一致）？——主流通过变换或 Bayes 空间解决，但 Bayes 空间此前未与加性模型结合。 2. 如何对混合密度（含点质量）进行函数回归？——此前方法（变换、Bayes 空间、Fréchet）均假设连续密度，混合密度在理论与计算上均留缺口。 3. 如何在高维标量协变量下灵活拟合密度回归并自动选择模型？——加性模型避免维数灾难，boosting 提供选择，但此前未在 Bayes 空间中实现。 4. 效应函数如何获得直观解释（如 odds-ratio）？——Bayes 空间的 clr 变换天然关联 odds-ratio，但此前文献未显式开发此性质。

⚠️ 作者的 framing（这是作者的说法） - 作者将缺口 frame 为：现有参数化方法（GAMLSS）需已知分布族且仅在参数层面解释；非参数/机器学习方法（Deep Distribution Regression）缺乏分布层面解释且协变量多时受限；变换法（Han et al.）与 Fréchet 回归未考虑估计不确定性且不处理混合密度；Bayes 空间线性模型（Talská et al.）仅限连续密度与线性效应。因此"显然的下一步"是在 Bayes Hilbert space 中建立加性模型、处理混合密度、用 boosting 估计并开发 odds-ratio 解释。 - 被淡化或回避的竞争路线：Conditional Transformation Models（Hothorn et al., 2012）可半参数化建模条件分布且不需已知分布族，作者仅一句带过其"缺乏分布层面解释"；最优传输回归（Ghodrati & Panaretos, 2021）可处理分布响应且有理论收敛速率，作者未讨论其与 Bayes 空间路线的对比。 - 明显该被引却未出现的：半参数效率理论文献（如 Bickel et al. 1993 或 van der Vaart 1998 的部分）——本文两步估计（先估密度再回归）的统计理论（收敛速率、有效影响函数）未建立，引用中缺乏效率理论支撑；此外，混合密度/点质量在组成数据分析中的处理（如 zero-inflated compositional data）也未引用。

张力未见明显对立引用。各路线（变换、Bayes 空间、Fréchet、参数化）在不同设定下互补，未在同一问题下得出相反结论。但存在隐性张力：Han et al. (2020) 用变换法处理加性密度回归并给出收敛速率，本文用 Bayes 空间 clr 变换处理同一问题但未给出速率——两者在理论保证上有差异，作者未正面比较。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型、可观测数据交代清楚

\(\mathcal{X}\)：标量协变量向量，\(p\) 维，\(x \in \mathcal{X}\)。
\(Y\)：个体观测的原始响应变量（如女性收入份额），取值在 \([0,1]\)。
\(f_Y(\cdot \mid x)\)：给定 \(x\) 时 \(Y\) 的条件密度/概率函数——这是目标 estimand（要回归的对象）。
\(f_{Y,c}\)：\(f_Y\) 的连续部分密度（在 \((0,1)\) 上的密度）。
\(p_0, p_1\)：\(f_Y\) 在 \(Y=0\) 和 \(Y=1\) 处的点质量（概率），\(p_0 + p_1 + \int_0^1 f_{Y,c}(y) dy = 1\)。
\(\mathcal{B}^2(\mathcal{I}, \mu)\)：Bayes Hilbert 空间——由等价类密度组成，\(\mu\) 为参考测度，内积 \(\langle f, g \rangle_\mu = \int_\mathcal{I} \log(f/\mu) \log(g/\mu) d\mu\)，加法与数乘按 Bayes 乘法与幂运算定义。
\(\text{clr}_\mu(f)\)：中心化 log-ratio 变换，\(\text{clr}_\mu(f)(y) = \log(f(y)/\mu(y)) - \int_\mathcal{I} \log(f/\mu) d\mu\)，将 \(f \in \mathcal{B}^2\) 映射到 \(L^2_0(\mathcal{I}, \mu)\)（均值为零的 \(L^2\) 空间）。
\(\text{clr}_\mu^{-1}\)：逆 clr 变换，将 \(L^2_0\) 映射回 \(\mathcal{B}^2\)。
\(h_j(x)\)：第 \(j\) 个协变量的效应函数，\(h_j: \mathcal{X}_j \to L^2_0(\mathcal{I}, \mu)\)，在 clr 空间中取值。
\(n\)：样本量，\(i=1,\dots,n\)。
可观测数据：对每个个体 \(i\)，观测到协变量 \(x_i \in \mathcal{X}\) 与原始响应 \(Y_i \in [0,1]\)（连续值或 0/1 离散值）。条件密度 \(f_{Y}(\cdot \mid x_i)\) 本身不可观测，需从样本估计（对连续部分用核密度估计，对点质量用频率估计），得到估计密度 \(\hat{f}_i\) 后作为"观测响应"进入回归。
不可观测 / 需假设识别：真实的条件密度 \(f_Y(\cdot \mid x)\) 与效应函数 \(h_j\) 均为潜在对象，需通过模型假设与估计步骤识别。

第二步：最小内核——混合密度的正交分解与 odds-ratio 解释

最简特例：取单个协变量 \(x\)（二值，如东/西德），参考测度 \(\mu\) 为均匀测度，混合密度 \(f_Y(y \mid x)\) 在 \([0,1]\) 上有连续部分 \(f_{Y,c}\) 与点质量 \(p_0, p_1\)。

正交分解：在 Bayes 空间 \(\mathcal{B}^2([0,1], \mu)\) 中，混合密度可分解为：
连续部分子空间 \(\mathcal{B}^2_c\)（仅在 \((0,1)\) 上有密度，在 0/1 处为零）；
点质量子空间 \(\mathcal{B}^2_d\)（仅在 0/1 处有质量，连续部分为零）。
作者证明 \(\mathcal{B}^2_c\) 与 \(\mathcal{B}^2_d\) 在 \(\mathcal{B}^2\) 的内积下正交（因为参考测度 \(\mu\) 在 0/1 处无质量，内积积分仅覆盖连续部分，点质量部分贡献为零）。
因此，clr 变换后的模型可正交分解为连续部分效应与点质量效应，分别估计再合并，无需联合优化。
odds-ratio 解释：在 clr 空间中，效应函数 \(h(x)(y) = \text{clr}_\mu(f_{Y}(\cdot \mid x))(y)\) 的差分：
\[h(x_1)(y) - h(x_0)(y) = \log\frac{f_Y(y \mid x_1)/\mu(y)}{f_Y(y \mid x_0)/\mu(y)} - \text{常数}\]
即条件 odds-ratio 的 log（相对于参考测度 \(\mu\)）减去中心化常数。这意味着效应函数的差直接解释为：在点 \(y\) 处，协变量从 \(x_0\) 变到 \(x_1\) 时，密度相对于参考测度的 odds 变化了多少——这是子组成一致性的直接推论。
最小内核的数学命题：在 \(\mathcal{B}^2([0,1], \mu)\) 中，若 \(\mu\) 在 0/1 处无点质量，则 \(\mathcal{B}^2_c \perp \mathcal{B}^2_d\)，且 clr 变换保持此正交性，从而混合密度的加性回归可分解为连续部分与点质量部分的独立回归。证明核心：内积 \(\langle f, g \rangle_\mu = \int_{(0,1)} \log(f/\mu) \log(g/\mu) d\mu\)，当 \(f \in \mathcal{B}^2_c\)（在 0/1 处为零）与 \(g \in \mathcal{B}^2_d\)（在 \((0,1)\) 处为零）时，积分中 \(\log(f/\mu)\) 在 \((0,1)\) 上有限而在 0/1 处无定义（但 \(g\) 在 \((0,1)\) 处为零，故乘积在 \((0,1)\) 上为零），且 \(\mu\) 在 0/1 处无质量故积分不包含 0/1 点——因此内积为零。正交性成立。

为什么这个内核支撑整篇论文：正交分解使得混合密度回归可拆解为两个子问题（连续密度回归 + 点质量回归），各自在熟悉的 Hilbert 空间中处理，避开了混合密度在 Bayes 空间中直接运算的困难；odds-ratio 解释使得效应函数不再是无量纲的 \(L^2\) 函数，而是有直接统计意义的量。论文的一般设定（多协变量、加性结构、boosting 估计）只是在这个内核上"加壳"——多协变量通过加性模型叠加效应，boosting 通过迭代拟合各效应并选择，但每一步的数学基础仍是 clr 空间中的正交分解与 odds-ratio 解释。

三、这篇论文做了什么¶

三句话 ①研究了密度响应-标量协变量的加性回归问题，特别处理含点质量的混合密度；②核心工具是 Bayes Hilbert 空间的 clr 变换、正交分解与梯度 boosting；③主要结论是：在 Bayes 空间中建立加性模型可保持子组成一致性、效应有 odds-ratio 解释、混合密度可通过正交分解简化估计，应用于德国 SOEP 数据揭示东西德性别收入分布差异与儿童惩罚的持续但缩小趋势。

关键设定与假设

在第二节最小记号基础上补全：

模型设定：
\[\text{clr}_\mu(f_Y(\cdot \mid x)) = h_0 + \sum_{j=1}^p h_j(x_j)\]
其中 \(h_0 \in L^2_0(\mathcal{I}, \mu)\) 为截距函数，\(h_j: \mathcal{X}_j \to L^2_0(\mathcal{I}, \mu)\) 为第 \(j\) 个协变量的效应函数。逆 clr 变换回 Bayes 空间后：
\[f_Y(\cdot \mid x) = \text{clr}_\mu^{-1}\left(h_0 + \sum_{j=1}^p h_j(x_j)\right) \oplus \mu\]
其中 \(\oplus\) 为 Bayes 加法（乘法运算）。
假设：
H1（Bayes 空间结构）：密度 \(f_Y\) 属于 \(\mathcal{B}^2(\mathcal{I}, \mu)\)，即 \(\int_\mathcal{I} (\log(f/\mu))^2 d\mu < \infty\)——保证 clr 变换存在且映射到 \(L^2_0\)。
H2（参考测度 \(\mu\)）：\(\mu\) 为无点质量的连续参考测度（如均匀测度）——保证点质量子空间与连续子空间正交，且 clr 变换对点质量有定义（\(\log(p/\mu(0))\) 中 \(\mu(0)=0\) 需特殊处理，作者通过极限定义 \(\log(p/\mu(0))\) 为 \(\log p\) 减去中心化常数）。
H3（子组成一致性）：模型在子区间 \(\mathcal{J} \subset \mathcal{I}\) 上的限制保持 Bayes 空间结构与 odds-ratio 解释——这是 Bayes 空间的内在性质，作者在定理中显式证明。
H4（加性结构）：效应函数 \(h_j\) 仅依赖 \(x_j\)，无交互——交互效应在扩展模型中允许，但主模型假设加性。相比 Han et al. (2020) 的加性模型，本文在 Bayes 空间而非 \(L^2\) 空间中定义加性。
H5（两步估计）：第一步从个体数据 \(Y_i\) 估计条件密度 \(\hat{f}_i\)（连续部分用核密度估计，点质量用频率），第二步将 \(\text{clr}_\mu(\hat{f}_i)\) 作为响应进入 boosting 回归——未考虑第一步估计不确定性，作者在讨论中承认此局限。

主要结果

定理1（子组成一致性）：在 Bayes Hilbert 空间 \(\mathcal{B}^2(\mathcal{I}, \mu)\) 中，对子区间 \(\mathcal{J} \subset \mathcal{I}\) 的限制运算（将密度限制到 \(\mathcal{J}\) 并重新归一）保持 Bayes 空间结构，且 clr 变换的限制与原 clr 变换的限制一致。直觉：Bayes 空间的乘法/幂运算在子区间上自然保持（因为密度在子区间上的相对结构不变），clr 变换的中心化在子区间上重新计算但 odds-ratio 结构不变。必要条件：\(\mu\) 在 \(\mathcal{J}\) 上有正密度。技术难点：证明限制运算与 clr 变换的交换性，需验证 \(\text{clr}_\mu|_\mathcal{J} = \text{clr}_{\mu|_\mathcal{J}} \circ |_\mathcal{J}\)。
定理2（正交分解）：若 \(\mu\) 无点质量，则 \(\mathcal{B}^2(\mathcal{I}, \mu) = \mathcal{B}^2_c \oplus \mathcal{B}^2_d\)（正交直和），且 clr 变换保持此分解：\(\text{clr}_\mu(\mathcal{B}^2_c) \subset L^2_0(\mathcal{I}_c, \mu)\) 与 \(\text{clr}_\mu(\mathcal{B}^2_d) \subset L^2_0(\{0,1\}, \mu)\) 正交。直觉：点质量与连续部分在 Bayes 内积下无交互（因为内积积分仅覆盖连续部分）。必要条件：\(\mu\) 在 0/1 处无质量。解决的技术难点：使得混合密度的回归可拆解为连续部分回归（函数响应 boosting）与点质量回归（标量响应 boosting，因 \(p_0, p_1\) 为标量），避开了混合密度直接建模的困难。
推论/方法结论（odds-ratio 解释）：效应函数 \(h_j(x_j)(y)\) 的差分 \(h_j(x_{j1})(y) - h_j(x_{j0})(y)\) 等于 \(\log\frac{f_Y(y \mid x_{j1})/f_Y(y \mid x_{j0})}{\text{中心化常数}}\)，即条件 odds-ratio 的 log（相对于参考测度或基线协变量值）。直觉：clr 变换的定义 \(\log(f/\mu)\) 减中心化常数，差分后中心化常数消去（若参考相同），剩下 \(\log(f_{x1}/f_{x0})\) 的差。统计意义：效应不再是无量纲函数，而是有直接概率比解释的量。

证明路线与技术技巧

整体路线：
定义 Bayes Hilbert 空间 \(\mathcal{B}^2(\mathcal{I}, \mu)\) 与 clr 变换，证明其等距同构于 \(L^2_0(\mathcal{I}, \mu)\)（已知结果，引用 van den Boogaart & Egozcue）。
证明子组成一致性：限制运算与 clr 变换的交换性，通过直接计算 \(\text{clr}_\mu|_\mathcal{J}\) 与 \(\text{clr}_{\mu|_\mathcal{J}}\) 的表达式验证。
证明正交分解：计算 \(\mathcal{B}^2_c\) 与 \(\mathcal{B}^2_d\) 的内积，利用 \(\mu\) 无点质量使得积分仅覆盖连续部分，点质量部分贡献为零。
建立加性模型：在 clr 空间中定义 \(h_0 + \sum h_j(x_j)\)，逆变换回 Bayes 空间。
估计：两步法——第一步估 \(\hat{f}_i\)（核密度+频率），第二步对 \(\text{clr}_\mu(\hat{f}_i)\) 用梯度 boosting 拟合加性模型（各 \(h_j\) 用基函数展开，boosting 迭代选择效应与基函数）。
关键跳跃点：
正交分解的内积计算：需处理 \(\log(p/\mu(0))\) 在 \(\mu(0)=0\) 时的定义——作者通过极限约定 \(\log(p/\mu(0))\) 在 clr 变换中为中心化后的 \(\log p\) 减常数，使得点质量的 clr 表示为有限向量。
混合密度的 clr 变换定义：混合密度 \(f = p_0 \delta_0 + p_1 \delta_1 + f_c\) 在 0/1 处的 \(\log(f/\mu)\) 无定义（\(\mu(0)=0\)），作者通过将 clr 变换扩展为：在连续部分用标准 \(\log(f_c/\mu)\)，在点质量部分用 \(\log p_j\) 减中心化常数，使得整体 clr 表示为 \(L^2_0\) 中的函数+离散向量。
技术技巧点名：
Bayes Hilbert 空间几何（内积、clr 变换、等距同构）：用于建立模型框架与 odds-ratio 解释。
正交分解（子空间正交性）：用于拆解混合密度回归为连续与离散子问题。
梯度 boosting（component-wise boosting with base-learners）：用于拟合加性模型与自动模型选择，引用 Brockhaus et al. (2015/2020) 与 FDboost 框架。
基函数展开（B-splines for functional effects）：用于将效应函数 \(h_j\) 参数化为基函数系数，使 boosting 可迭代更新。
交互效应中心化（orthogonalization of interaction effects against main effects）：用于保证加性模型的各效应可加且不混淆，引用 Stöcker et al. (2021) 附录 A。

真实例子与应用

数据：德国 SOEP（German Socio-Economic Panel Study）数据，1984-2016 年，包含约 7000-10000 对已婚夫妇每年的收入数据。响应变量为女性收入份额 \(Y \in [0,1]\)（混合密度：连续部分在 \((0,1)\)，点质量在 0 和 1）。
协变量：地区（东/西德）、时间（年）、是否有未成年子女、交互效应（地区×时间、地区×子女）。
方法应用：
第一步：对每个年份-地区子群体，估计女性收入份额的混合密度 \(\hat{f}_i\)（连续部分用核密度估计，点质量 \(p_0, p_1\) 用频率估计）。
第二步：对 \(\text{clr}_\mu(\hat{f}_i)\) 用梯度 boosting 拟合加性模型（截距 + 地区效应 + 时间效应 + 子女效应 + 交互效应），正交分解后连续部分与点质量部分分别拟合。
模型选择：boosting 迭代次数由交叉验证选择，效应类型（平滑/线性/常数）由 base-learner 选择。
结果：
截距函数：显示女性收入份额分布集中在 0.2-0.4（男性主导），点质量 \(p_0\)（女性零收入）约 15-20%，\(p_1\)（女性全收入）约 1-2%。
地区效应（东 vs 西）：东德效应在连续部分为正（0.3-0.5 区间 odds 增加），即分布更对称；点质量 \(p_0\) 在东德更低（女性零收入概率减少）。
子女效应：有未成年子女的夫妇，女性收入份额 odds 在 0.1-0.3 区间增加（可能反映兼职），在 0.4-0.6 区间减少（儿童惩罚），点质量 \(p_0\) 增加（更多女性退出就业）。
交互效应（地区×时间）：东西德差异随时间缩小但持续存在；地区×子女：东德的儿童惩罚小于西德。
例子想说明什么：展示方法在真实混合密度数据上的可行性，揭示东西德性别收入分布差异的动态与儿童惩罚的异质性——验证方法实用性与展示相对参数化/线性方法的优势（如发现分布形状的非线性变化与点质量的协变量依赖）。

🔎 结论是否比证明窄 - 两步估计的理论性质：作者在讨论中承认"未考虑第一步密度估计的不确定性"，但正文中的估计步骤与结果陈述均基于"将 \(\hat{f}_i\) 视为观测响应"的假设——这是一个未证明的近似，实际收敛速率与分布理论需考虑第一步估计误差的传播（类似 Han et al. 2020 的收敛速率分析），作者未提供。 - boosting 估计的收敛性：论文未给出 boosting 估计在 Bayes 空间中的收敛速率或渐近分布——这是严格证明缺失但方法陈述中隐含假设其有效的部分。 - odds-ratio 解释的严格性：作者声称效应差分有 odds-ratio 解释，但此解释在子组成一致性下成立（定理1证明），在非子组成限制下（如全区间 \(\mathcal{I}\)）需参考测度 \(\mu\) 的选择——\(\mu\) 的选择影响 odds-ratio 的基准，作者未讨论此依赖性。

四、开放问题（点到为止，扎根具体语句）¶

两步估计的统计理论：作者在讨论中承认"estimation uncertainty is not accounted for in the analysis"（引用 Petersen & Müller 2019 与 Han et al. 2020 的同一局限）。要证什么：在第一步密度估计误差为 \(\|\hat{f}_i - f_i\|_{\mathcal{B}^2} = O_p(n_i^{-\alpha})\)（\(n_i\) 为子群体样本量）下，第二步 boosting 估计的收敛速率与渐近分布如何？需发展类似 Han et al. (2020) 的收敛速率分析但针对 Bayes 空间与 boosting 估计。
参考测度 \(\mu\) 的选择对效应解释的影响：odds-ratio 解释依赖 \(\mu\)（如均匀测度 vs 其他测度），作者未讨论 \(\mu\) 选择如何影响效应函数的数值与解释。要估什么：不同 \(\mu\) 下效应函数的偏差与变异性，是否存在最优 \(\mu\)（如使效应最接近条件 odds-ratio 的 \(\mu\)）。
boosting 估计在 Bayes 空间中的收敛速率：论文未提供 boosting 估计的理论保证，仅引用 FDboost 框架的数值稳定性。要证什么：在加性模型设定下，梯度 boosting 对 clr 空间中效应函数的估计误差 \(\|\hat{h}_j - h_j\|_{L^2_0}\) 的收敛速率（依赖 boosting 迭代次数、基函数复杂度、样本量 \(n\)）。
与变换法（Han et al. 2020）的理论比较：作者未比较 Bayes 空间 clr 变换与 Petersen & Müller 变换（如 log quantile density）在估计效率与解释上的差异。要算什么：两种变换下加性密度回归的 minimax 速率或半参数效率界——需确认是否真有差异，去读 Han et al. (2020) 及其引用的近期 5 篇 intro。

Maintained by 陈星宇 · Homepage · Source on GitHub

Additive density-on-scalar regression in Bayes Hilbert spaces with an application to gender economics¶

一、领域脉络与小综述¶

二、最核心、最简单的例子 / 数学问题¶

三、这篇论文做了什么¶

四、开放问题（点到为止，扎根具体语句）¶

评论