Visible or Covert? The Causal Effect of Inspector Visibility on Fare Evasion Detection: A Causal Machine Learning and Policy Learning Approach¶

作者: Hannes Wallimann, Cédric Brütsch, Martin Huber
主题: 因果推断
相关性: 8/10
链接: https://arxiv.org/abs/2606.24181

一、领域脉络与小综述¶

这个方向是什么¶

这个子方向的核心问题是：如何通过数据驱动的方法，评估并优化公共交通稽查策略（特别是稽查员的着装可见性）对查获逃票效率的因果效应。它融合了三个层面：① 识别稽查策略（便衣 vs. 制服）对查获率的因果效应（而非仅相关性）；② 考察该效应在不同情境（线路特征、乘客构成等）下的异质性；③ 基于异质性分析，学习一个最优的稽查策略分配规则（即何时派便衣、何时派制服），以最大化整体查获效率。该方向目前处于从描述性/相关性分析向因果推断与策略优化过渡的阶段——已有大量关于逃票者特征和稽查强度的研究，但关于稽查员着装这一具体策略维度的因果证据极少，且尚未有研究将因果机器学习与最优策略学习系统性地应用于此问题。

发展脉络（history）¶

奠基工作：逃票行为的描述性与相关性分析。早期研究主要基于调查或观测数据，识别逃票者的社会人口学特征（如年轻、男性、低收入、移民）和情境因素（如短途、高峰时段、拥挤车辆）。代表性工作包括：Bucciol et al. (2013) 在意大利雷焦艾米利亚的公交乘客访谈中发现年轻、男性、失业者和非欧洲移民更可能逃票；Barabino et al. (2015) 对意大利一家公交公司的2,200份车上访谈进行逻辑回归，确认了类似模式；Cools et al. (2018) 在比利时佛兰德地区的调查中发现年龄和性别是稳健的预测因子，且票价感知和检查概率感知直接影响逃票率。这些工作为后续研究提供了协变量选择的理论依据，但均未涉及稽查策略本身的因果效应。
稽查策略的优化：从博弈论到强化学习。另一条线索关注如何优化稽查的时间、地点和强度，而非着装。Yin et al. (2012) 提出TRUSTS系统，将稽查排班建模为领导者-追随者Stackelberg博弈，计算随机化巡逻策略以最大化威慑效果。Delfau et al. (2018) 应用强化学习优化巴黎地区公交网络的稽查员路线规划。Barabino et al. (2014) 和 Barabino & Salis (2019) 开发经济框架，确定最优稽查率（约3.4%-4.0%）。这些工作关注的是稽查活动的“量”和“位置”，而非“方式”（着装可见性），且不涉及因果识别。
稽查可见性的初步证据。直接比较便衣与制服稽查效果的实证研究极少。Keuchel & Swertz (2020) 分析了德国明斯特市公交运营商的一个自然实验（2016年12月稽查员从制服转为便衣），发现便衣稽查增加了无票乘客的查获，同时减少了“忘记/未验证车票”的情况。Egu & Bonnel (2020) 基于里昂数据警告：可见的稽查可能因乘客的规避行为而系统性低估真实逃票率。这两项工作提供了相关性或准实验证据，但均未在“选择可观测”假设下进行严格的因果识别，也未考察异质性。
本文的位置：本文是首次将因果机器学习（causal forest）与最优策略学习（policy tree）系统性地应用于稽查员着装可见性这一具体策略维度。它填补了从“描述逃票者特征”和“优化稽查强度/位置”到“评估并优化稽查方式本身”之间的空白。作者明确声称：“neither causal machine learning nor optimal policy learning has, to the best of our knowledge, been applied to the study of fare inspection strategies.”

子线索聚类¶

线索一：逃票行为的决定因素（Determinants of Fare Evasion）。这一簇研究通过调查或观测数据，识别与逃票概率相关的个体和情境特征。方法以逻辑回归、描述性统计为主。代表：Bucciol et al. (2013), Barabino et al. (2015, 2022, 2023), Cools et al. (2018), Cantillo et al. (2022)。本文的用途：为选择协变量X提供理论依据（人口、年龄结构、外国人比例、失业率等）。
线索二：稽查策略的优化（Inspection Strategy Optimization）。这一簇研究关注如何安排稽查的时间、地点、强度，以最大化威慑或查获效果。方法包括博弈论（Stackelberg）、强化学习、经济模型。代表：Yin et al. (2012), Delfau et al. (2018), Barabino et al. (2014, 2019)。本文的用途：作为对比——这些工作不涉及着装可见性，也不使用因果推断。
线索三：稽查可见性的因果/准实验证据。这一簇直接比较便衣与制服稽查的效果，但证据极少且方法较弱。代表：Keuchel & Swertz (2020)（自然实验，Poisson回归），Egu & Bonnel (2020)（讨论性/警告性）。本文的位置：首次在此线索中引入因果机器学习与策略学习。

这个方向在追问的核心问题¶

稽查员着装（便衣 vs. 制服）对查获逃票效率的因果效应是什么？ 是制服因威慑而降低查获率（因为乘客规避），还是便衣因隐蔽性而提高查获率？
该效应是否在不同情境（线路特征、乘客构成、时间）下存在系统性异质性？ 即是否存在某些情境下制服反而更有效？
如何基于数据制定一个最优的稽查策略分配规则？ 即给定情境特征，应派便衣还是制服，以最大化整体查获效率？
稽查可见性的威慑效应与检测效率之间如何权衡？ 制服可能因可见性而威慑逃票（降低逃票率），但同时也降低查获率（因为乘客规避）。本文仅关注后者。

当前主流方法与已知瓶颈：主流方法仍以描述性统计、逻辑回归、博弈论模型为主。瓶颈在于：① 缺乏对稽查策略本身的因果识别（选择偏差严重——制服稽查可能更多部署在高逃票率线路上）；② 缺乏对异质性的系统考察；③ 缺乏从“估计效应”到“制定策略”的桥梁。

⚠️ 作者的 framing¶

作者将缺口 frame 成：“虽然已有研究关注稽查强度/位置，但几乎没有因果证据比较便衣与制服稽查的效果，更没有将因果机器学习与最优策略学习应用于此。” 这使得本文成为“显然的下一步”——在已有描述性证据和博弈论优化的基础上，引入更严谨的因果推断方法。

被淡化或回避的竞争路线： - 威慑效应：作者在讨论部分承认“uniformed inspections may deter fare evasion through increased visibility”，但全文的因果估计仅针对检测效率（查获数/小时），而非逃票率本身。这意味着本文的结论（便衣更有效）可能不适用于以威慑为目标的场景。作者将此列为未来工作。 - 稽查员偏差：作者在脚注24中提及外国人比例可能反映稽查员偏差（Mujcic & Frijters, 2021 发现澳大利亚公交司机对少数族裔乘客更不友好），但未在主要分析中处理此问题，也未将其作为异质性分析的核心维度。

什么明显该被引/该存在、却没出现在 intro 里？ - 关于“警察着装/可见性”的犯罪学文献：这是一个更广泛的领域，研究警察制服 vs. 便衣对犯罪检测和威慑的影响。例如，Koper (1995) 关于警察巡逻可见性的经典研究。本文完全未引用此文献，可能因为作者专注于公共交通领域。但这对理解“可见性”的一般理论框架是有价值的。 - 关于“选择可观测”假设的敏感性分析：本文的识别完全依赖此假设，但未进行任何正式的敏感性分析（如E-value、Rosenbaum bounds）。在应用因果推断的交通研究中，这正变得越来越常见。

张力¶

未见明显对立引用。所有被引工作基本一致地认为：便衣稽查可能提高查获率（因为乘客难以规避），而制服稽查可能因威慑而降低逃票率但同时也降低查获率。Keuchel & Swertz (2020) 的发现与本文方向一致。

二、最核心、最简单的例子 / 数学问题¶

第一步：把符号、模型、可观测数据交代清楚¶

符号：
\( D \)：二元处理变量。\( D = 1 \) 表示制服稽查（uniformed / Präsenzkontrolle），\( D = 0 \) 表示便衣稽查（plainclothes / Normalkontrolle）。这是研究者要评估因果效应的“处理”。
\( Y \)：结果变量，稽查效率（inspection efficiency），定义为“每稽查小时查获的逃票事件数”（detected fare evaders per inspection hour）。这是一个连续变量，值越大越好。
\( X \)：一组情境特征（contextual characteristics），即协变量向量。包括线路层面的社会人口学特征（人口、外国人比例、青年抚养比、社会救助率、失业率）、公共交通特征（GA持有率、半价卡持有率、PT可达性）、以及先前的稽查活动（上月同一时段稽查小时数、上月总稽查小时数）。这些是研究者观测到的、可能同时影响处理分配和结果的变量。
\( Y(1), Y(0) \)：潜在结果（potential outcomes）。\( Y(1) \) 是同一线路-时段在制服稽查下的稽查效率；\( Y(0) \) 是同一线路-时段在便衣稽查下的稽查效率。对于任何一个观测，我们只能看到其中一个（\( Y = D \cdot Y(1) + (1-D) \cdot Y(0) \)），另一个是反事实。
\( \tau = \mathbb{E}[Y(1) - Y(0)] \)：平均处理效应（ATE），即制服相对于便衣的平均因果效应。
\( \tau(x) = \mathbb{E}[Y(1) - Y(0) \mid X = x] \)：条件平均处理效应（CATE），即在给定情境特征 \( x \) 下的因果效应。
\( \pi(x) \in \{0, 1\} \)：策略函数（policy function），将情境特征 \( x \) 映射到推荐的处理（0=便衣，1=制服）。
模型：
数据生成机制：假设存在一个超总体，从中独立同分布地抽取 \( (Y(1), Y(0), D, X) \)。观测数据为 \( (Y_i, D_i, X_i)_{i=1}^n \)，其中 \( n = 21,727 \)。
识别假设（核心模型）：
1. 条件独立性（Assumption 1, 即 unconfoundedness / selection on observables）：\( Y(1), Y(0) \perp D \mid X \)。即，在控制了 \( X \) 后，处理分配 \( D \) 与潜在结果独立。这意味着没有未观测的混杂因素。
2. 共同支撑（Assumption 2, 即 overlap / positivity）：\( 0 < P(D=1 \mid X=x) < 1 \) 对所有 \( x \) 成立。即，在任何情境特征下，两种稽查策略都有被采用的正概率。
估计目标：在以上假设下，\( \tau \) 和 \( \tau(x) \) 可由观测数据识别：\( \tau(x) = \mathbb{E}[Y \mid X=x, D=1] - \mathbb{E}[Y \mid X=x, D=0] \)。
可观测数据：
研究者实际能观测到的是什么：对于每一次稽查事件（观测），研究者知道：
- 处理 \( D \)（制服或便衣）
- 结果 \( Y \)（查获数 / 稽查小时数）
- 协变量 \( X \)（从线路、时段、停靠站所在市镇的多源数据匹配得到）
哪些是潜在/不可观测的：反事实结果 \( Y(1) \) 或 \( Y(0) \) 中未被观测到的那一个。例如，对于一个实际接受了便衣稽查的观测，我们无法知道如果同一线路-时段改为制服稽查，其效率会是多少。识别全靠假设：在给定 \( X \) 下，便衣稽查组的平均结果可以作为制服稽查组反事实结果的代理。

第二步：讲最小内核¶

本文的最小内核是一个二元处理、连续结果、高维协变量的因果效应估计与策略学习问题。最简特例是忽略所有协变量，直接比较均值——但这显然有偏差，因为制服稽查可能被部署在高逃票率线路上（选择偏差）。因此，核心困难在于如何从观测数据中无偏地估计 \( \tau \) 和 \( \tau(x) \)。

最简特例（d=1，即只有一个二元协变量）：假设我们只有一个协变量 \( X \)，表示线路是否位于“高外国人比例区域”（\( X=1 \) 表示是，\( X=0 \) 表示否）。我们想估计制服稽查（\( D=1 \)）相对于便衣稽查（\( D=0 \)）的平均因果效应 \( \tau \)。

问题：如果制服稽查更常被派往高外国人比例区域（\( P(D=1 \mid X=1) > P(D=1 \mid X=0) \)），且该区域本身逃票率更高（即 \( \mathbb{E}[Y(0) \mid X=1] > \mathbb{E}[Y(0) \mid X=0] \)），那么直接比较制服组和便衣组的平均结果会高估制服的效果（或低估便衣的效果），因为制服组包含了更多“难查”的线路。
解决方案（在条件独立性假设下）：
分层估计：分别在高外国人比例层（\( X=1 \)）和低外国人比例层（\( X=0 \)）内估计处理效应：
\[\hat{\tau}(X=1) = \bar{Y}_{D=1, X=1} - \bar{Y}_{D=0, X=1}\]

\[\hat{\tau}(X=0) = \bar{Y}_{D=1, X=0} - \bar{Y}_{D=0, X=0}\]
其中 \( \bar{Y}_{D=d, X=x} \) 是相应子组中 \( Y \) 的样本均值。
加权平均得到ATE：\( \hat{\tau} = \hat{\tau}(X=1) \cdot P(X=1) + \hat{\tau}(X=0) \cdot P(X=0) \)。这等价于对协变量分布进行标准化，消除了因处理分配不均衡带来的偏差。
本文的推广：当 \( X \) 是高维的（多个连续和分类变量）时，简单的分层不可行（维数灾难）。Causal forest 通过自适应地、数据驱动地对 \( X \) 空间进行递归划分（树结构），在每个叶子节点内估计局部处理效应，然后加权平均得到ATE和CATE。其核心思想与上述分层估计完全相同，只是分层方式由算法自动学习。

核心数学困难：在高维 \( X \) 下，如何保证CATE估计 \( \hat{\tau}(x) \) 的一致性和渐近正态性？Causal forest 通过“honesty”（用不同子样本划分树和估计效应）和“subsampling”等技术解决了过拟合和推断问题。本文直接应用了这些已有方法，未提出新的理论。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：利用瑞士最大区域公交运营商PostAuto的21,727条稽查记录，估计稽查员着装（便衣 vs. 制服）对查获逃票效率（每稽查小时查获数）的因果效应，并考察该效应在不同情境特征下的异质性。
核心工具/方法：采用因果森林（causal forest, Athey et al., 2019）估计平均处理效应（ATE）和条件平均处理效应（CATE），并用最佳线性预测器（BLP）和排序组平均处理效应（GATES）检验异质性；进一步应用最优策略学习（policy tree, Athey & Wager, 2021）学习一个可解释的稽查策略分配规则。
主要结论：便衣稽查平均每小时多查获0.173起逃票事件（相对效率提升约26%），该效应在几乎所有情境下均为负（即便衣更优），异质性分析未发现系统性变化。策略树推荐83.3%的情境使用便衣，仅在外国人比例低于中位数且人口规模高于中位数的线路建议使用制服。

关键设定与假设¶

处理变量：\( D=1 \) 制服稽查（Präsenzkontrolle），\( D=0 \) 便衣稽查（Normalkontrolle）。注意：分析条件于稽查活动发生，不推广到无稽查的情境。
结果变量：\( Y \) = 查获逃票事件数 / 总稽查小时数（包括车上和车下时间）。这是一个效率指标，而非威慑指标。
协变量 \( X \)：包含线路层面的社会人口学特征（人口、外国人比例、青年抚养比、社会救助率、失业率）、公共交通特征（GA持有率、半价卡持有率、PT可达性）、以及先前的稽查活动（上月同一时段稽查小时数、上月总稽查小时数）。这些变量来自多源数据匹配（见图1）。
识别假设：
Assumption 1 (条件独立性)：作者论证其合理性基于：① 稽查员和规划者的决策部分受先前稽查结果影响（已控制）；② 协调稽查（coordinated inspections）多在PT可达性高的地点进行，且稽查员之后常不换装（已控制PT可达性）。这是全文最关键的假设，但不可检验。
Assumption 2 (共同支撑)：样本中制服稽查仅占7.1%，倾向得分分布显示大部分制服稽查的倾向得分接近0（见图A.1），表明共同支撑可能有限。作者使用“overlap”目标样本来缓解此问题，即对倾向得分接近0.5的观测赋予更高权重。
相比已有文献的强化/放宽：相比Keuchel & Swertz (2020) 的自然实验（仅一个城市、一次政策变化），本文使用了更大规模、更多样化的数据（802条线路），并采用了更严谨的因果推断框架（选择可观测 + 因果森林）。相比Delfau et al. (2018) 的强化学习（优化路线，不涉及因果），本文首次将因果效应估计与策略学习结合。

主要结果¶

平均处理效应（ATE）：因果森林估计的ATE为 -0.173 起/小时（SE=0.028, p<0.001），即制服稽查比便衣稽查每小时少查获0.173起逃票事件。相对于样本均值0.67起/小时，这相当于相对降低约26%。结果在使用“treated”目标样本时稳健（-0.173, SE=0.031）。
异质性分析：
变量重要性：人口规模（75分位数）、GA持有率（25分位数和中位数）、外国人比例（最大值）是预测CATE的最重要变量。
最佳线性预测器（BLP）：所有预选协变量（人口均值、GA持有率均值、外国人比例均值、先前稽查活动）的系数均不显著（p>0.1），表明未发现效应随这些特征系统性变化。
排序组平均处理效应（GATES）：将观测按估计CATE分为5组，所有组的GATE均为负（即便衣更优）。最负组（G1）为-0.263，最不负面组（G5）为-0.060（不显著）。G5与G1的差异显著（p=0.008），表明效应大小有变化，但方向一致为负。
最优策略学习：策略树（最多4个叶子）的结果（图4）：
第一层分裂：外国人比例 > 21.9%？→ 是 → 便衣（N=10,856）
第二层分裂（外国人比例 ≤ 21.9%）：人口 > 6,676？→ 是 → 制服（N=3,618）；否 → 便衣（N=7,253）
结论：83.3%的观测推荐便衣，仅在线路外国人比例低于中位数且人口高于中位数时推荐制服。

证明路线与技术技巧¶

本文为应用型论文，无理论证明。方法部分直接引用已有文献（causal forest, policy tree），未提出新理论或新算法。因此，以下分析其方法应用的技术路线：

第一步：数据构建与协变量选择。将原始稽查记录按“线路-月份-时段-稽查类型”聚合，并通过多源数据匹配（图1）构建线路层面的协变量。协变量选择基于逃票决定因素文献（表1）。
第二步：因果森林估计ATE和CATE。使用grf包，设置目标样本为“overlap”（以缓解处理不平衡）。因果森林通过递归划分协变量空间，在每个叶子节点内估计局部处理效应，然后加权平均。关键参数：honesty（防止过拟合）、subsampling（用于推断）。
第三步：异质性检验。使用GenericML包实现BLP和GATES。BLP将CATE投影到预选协变量上，检验线性关系；GATES将观测按CATE排序分组，检验组间差异。
第四步：最优策略学习。使用policytree包。首先从因果森林获取双重稳健得分（doubly robust scores），然后训练一个浅层决策树（最多4个叶子），以最大化期望结果。树的分裂变量限于预选的、易于操作的二元协变量（基于中位数划分）。

技术技巧点名： - 因果森林：用于非参数CATE估计，通过递归划分和honesty实现一致性和渐近正态性。 - 双重稳健得分：用于策略学习，提供对个体处理效应的近似无偏信号，对第一阶段的模型误设具有鲁棒性。 - Overlap权重：用于处理极端倾向得分，减少对共同支撑不足区域的敏感性。 - BLP和GATES：来自Chernozhukov et al. (2025) 的通用机器学习推断框架，用于检验异质性的存在性和形式。

真实例子与应用¶

数据：PostAuto（瑞士最大区域公交运营商）2025年的21,727条稽查记录，覆盖802条线路。数据包含稽查开始/结束时间、线路、停靠站、稽查类型、查获人数。通过多源数据匹配（图1）补充了线路层面的社会人口学、公共交通特征和先前稽查活动。
方法应用：将稽查类型（制服/便衣）作为处理，稽查效率（查获数/小时）作为结果，上述协变量作为 \( X \)，应用因果森林和策略树。
结果：如上所述。
这个例子想说明什么：
验证理论：便衣稽查因隐蔽性而更有效检测逃票者，制服稽查因可见性而允许乘客规避。结果支持此理论。
展示相对baseline的优势：相比简单的均值比较（便衣0.69 vs. 制服0.46起/小时），因果森林在控制了选择偏差后仍得到显著负效应，表明均值差异并非完全由混杂驱动。
展示策略学习的实用性：策略树提供了一个简单、可解释的规则（仅基于两个变量），可用于指导实际稽查部署。

🔎 结论是否比证明窄¶

主要结论（便衣更有效）的稳健性：作者仅报告了“overlap”和“treated”两种目标样本下的ATE，均显著为负。但未进行任何正式的敏感性分析（如E-value、Rosenbaum bounds）来量化ATE对未观测混杂的敏感程度。结论的强度依赖于“选择可观测”假设，而该假设不可检验。
异质性结论的保守性：作者声称“little evidence of systematic variation across contextual characteristics”（BLP不显著）。但GATES显示G5与G1差异显著（p=0.008），表明效应大小确实有变化。作者将此解释为“方向一致，大小有变”，是合理的，但读者应注意：BLP不显著不等于无异质性——它仅检验了线性投影，非线性异质性可能存在。
策略树的推广性：策略树基于PostAuto数据（区域公交），作者在讨论中承认需要推广到城市公交或铁路运营商。结论可能不适用于其他运营环境（如地铁、有轨电车），因为乘客行为、稽查员操作方式可能不同。

四、开放问题¶

未观测混杂的敏感性分析：本文的因果识别完全依赖“选择可观测”假设。一个直接的开放问题是：ATE对未观测混杂的敏感程度如何？ 例如，若存在一个未观测的混杂因素 \( U \) 同时影响稽查策略选择和稽查效率，需要多强的关联才能推翻本文的结论？可扎根于本文的“Assumption 1 (Conditional Independence of Treatment)”和“cannot be directly tested”这一句。方法上可应用E-value或Rosenbaum bounds。
威慑效应的识别与估计：本文仅估计了稽查策略对检测效率（查获数/小时）的因果效应，而非对逃票率本身的效应。制服稽查可能通过可见性威慑逃票（降低逃票率），从而在更少的人逃票的情况下查获更少的人——这反而是成功的表现。一个开放问题是：如何识别并估计稽查策略对逃票率的因果效应？ 这需要观测到“实际逃票人数”而非仅“查获人数”，可能需要结合自动售票数据（AFC）或调查数据。可扎根于本文讨论部分：“future research might assess the deterrent effect of uniformed versus plainclothes inspections.”
稽查员偏差的异质性分析：作者在脚注24中提及外国人比例可能反映稽查员偏差（Mujcic & Frijters, 2021），但未在主要分析中处理。一个开放问题是：稽查员着装与乘客特征（如种族/国籍）的交互作用如何影响查获效率？ 例如，便衣稽查是否因减少了乘客对“被针对”的感知而更公平？或者，制服稽查是否在某些群体中因威慑而更有效？这需要更细粒度的乘客层面数据（如被查获者的国籍/种族），或设计一个田野实验。
策略树的泛化与动态优化：本文的策略树仅基于两个二元变量（外国人比例、人口），且是静态的（不随时间调整）。一个开放问题是：如何学习一个更复杂、动态的稽查策略，例如考虑时间变化（季节、节假日）、稽查员疲劳、以及乘客对策略变化的适应性反应？ 这可能需要将策略学习与强化学习或在线学习结合，以应对非平稳环境。可扎根于本文的“policy tree”方法和“future research should apply our approach to other operators”这一句。

Maintained by 陈星宇 · Homepage · Source on GitHub