Association of naturalistic e-cigarette use and smoking cessation in US adults¶

作者: Junhan Cho, Dae-Hee Han, Alyssa F Harlow, Hongying D Dai, Adam M Leventhal
来源: American Journal of Epidemiology
主题: 流行病学
相关性: 4/10
机构绿灯: University of Southern California（US News 前 50，免分进入精读）
链接: https://doi.org/10.1093/aje/kwaf270

一、领域脉络与小综述¶

这个方向是什么¶

本方向研究时变暴露（time-varying exposure）对二值健康结局的因果效应，核心是：在重复测量面板数据中，如何利用个体内暴露状态随时间的变化（如每月电子烟使用从“无”切换到“每日”）来估计它对后续结局（如两周后是否吸烟）的影响。关键识别挑战包括时变混杂（time-varying confounding）：过去结局影响当前暴露、未来结局受当前暴露和过去暴露共同影响，形成复杂的反馈回路。当前该领域的成熟度表现为：已有完善的反事实因果框架（Robins 1986, Hernán 2000）及相应的估计方法（g-computation、逆概率加权、边际结构模型、结构嵌套模型），但在流行病学实际应用中，这些方法的使用仍不普遍，多数研究仍停留在基于观测数据的多水平模型与滞后变量回归，其因果解释性较弱。

发展脉络（基于公开知识 + Abstract指示，因原文未提供完整引言）¶

由于本文未提供完整的参考文献列表与引用句，以下脉络基于领域共识与摘要中隐含的方法定位：

奠基工作（Robins 1986, Hernán & Robins 2020）：提出了时变混杂背景下因果效应的识别框架和g-methods（g-computation, IPW, MSM）。这些方法要求在给定过去已观测到的协变量下，无未测量混杂（sequential exchangeability），并且暴露-结局时间顺序正确。
主要进展（Imai & Ratkovic 2015, Vansteelandt & Keiding 2020）：发展了双重稳健估计、协变量平衡倾向评分、以及纵向工具变量方法，部分放松了无未测量混杂假设。
当前Frontier：在纵向观察性研究中，利用负对照（negative controls）、近端因果推断（proximal causal inference） 以及敏感性分析（如E-value、bias formulas） 来评估未测量混杂的潜在影响。同时，机器学习的集成（如g-methods中的灵活建模）也成为一个活跃方向。
本文的位置：本文采用了多水平logistic回归 + 时间滞后的时变暴露，本质上是一种条件关联分析（conditional association），而非因果推断中推荐的g-methods。它属于流行病学中常见但常被批评的“lagged exposure”方法族。作者在Abstract中承认“Temporal imprecision and unaddressed confounding limit inferences”——这表明作者知晓局限，但未采用更严格的因果框架。

子线索聚类¶

线索1：标准纵向因果推断方法（g-methods） — 以Robins为代表，要求结构嵌套模型、逆概率加权等，需要明确指定序贯可忽略性假设。本文未使用。
线索2：多水平/混合效应模型用于动态暴露-结局关联 — 本文所属类别，通常使用随机截距/斜率，允许个体内相关性，但无法处理时变混杂（因为暴露可能受前一期结局影响，但模型未模拟这一反馈）。常见于公共卫生观察研究。
线索3：工具变量与自然实验在烟草研究中的应用 — 如利用电子烟政策冲击作为暴露的IV，能更干净地识别因果效应，但本文未采用。

这个方向在追问的核心问题¶

如何在非实验纵向数据中，区分电子烟使用对戒烟的“因果效应” vs. “由戒烟动机或健康意识驱动的混杂”？ 当前主流做法是控制一组基线协变量与时变协变量（如尼古丁依赖、抑郁症状），但未测量混杂（如戒烟意愿、单位政策变化）仍可能是主要偏差来源。
每日 vs. 非每日电子烟使用对戒烟和复吸的异质性效应：从机制看，每日使用可能提供更高的尼古丁替代，但增加依赖风险；非每日使用可能反映社交性或灾难性使用。本文结果（每日促进戒烟但增加复吸）看似矛盾，可能源于不同的混杂模式。
时间滞后窗口的选择：什么样的滞后长度（2周、1个月）是合理的？过短则混杂不能被充分控制（短期波动），过长则可能引入反向因果（戒烟后的人会减少电子烟使用）。本文选择2周滞后，但未进行滞后长度敏感性分析。
复吸分析中的选择偏倚：进入复吸分析的样本是“已戒烟至少1个月”的人，这些人的特征与初始戒断成功相关，存活分析中可能存在选择偏倚（如那些因电子烟而成功戒断的人可能更容易复吸，但未被建模）。

⚠️ 作者的framing（基于Abstract和meta信息）¶

作者的说法：本文是一项“自然主义、多水平纵向研究”，其贡献在于利用（半）月度频繁重复测量，在个体内层面检验电子烟暴露与戒烟/复吸的关联，弥补了此前研究时间分辨率低、无法区分每日/非每日使用的不足。他们承认“Temporal imprecision and unaddressed confounding limit inferences”，但并未声称因果识别。

被淡化或回避的竞争路线：作者完全没有提及g-methods（如IPW/MSM）或工具变量方法，也没有使用反事实框架来定义因果参数。他们选择滞后变量回归，可能是因为在流行病学中该方法更常见、更易被审稿人接受。但回避了一个关键问题：时变混杂（如过去吸烟状态影响当前电子烟使用）会使得滞后暴露的系数偏离因果效应。

明显该存在但未出现的元素（基于常识）：本文未报告E-value或任何形式的未测量混杂敏感性分析；未使用负对照（如电子烟使用对特定疾病如哮喘发作的影响）来进行验证；未讨论吸烟状态和电子烟使用之间的双向影响（如已戒烟者可能因无烟渴望而减少电子烟使用）。这些缺失元素正是研究者可以介入的缺口。

张力¶

未见明显对立引用，但本文的结果（每日电子烟促进戒烟但增加复吸）自我呈现张力——在戒断样本中每日使用增加复吸风险，而初始戒烟分析中每日使用却促进戒烟。这可能不是被引文献的矛盾，而是同一数据中不同机制（短期替代vs.长期依赖）的表现。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据交代¶

设我们有一个由 \( N \) 个基线吸烟者组成的面板，每个个体 \( i \) 被调查 \( T_i \) 次（本文为最多35波，22次双周+13次月度，但为简化我们假设固定波数 \( T \)）。时间点 \( t = 1, \ldots, T \) 代表调查波（每2周或每月一次）。

符号：

\( A_{i,t} \)：个体 \( i \) 在时间 \( t \) 过去7天内的电子烟使用状态。本文分为三类：0=无使用，1=非每日使用（1-6天），2=每日使用（7天）。我们可简化为二值 \( A_{i,t} \in \{0,1\} \)（任何使用 vs. 无使用）。
\( Y_{i,t} \)：个体 \( i \) 在时间 \( t \) 过去7天内的吸烟状态：0=不吸烟（0天），1=吸烟（1-7天）。这是我们要预测的结局。
\( C_{i,t} \)：时变的协变量向量，如尼古丁依赖程度、抑郁症状、社会人口学变量、过去吸烟量等。这些可能在每个时间点被测量。
\( X_i \)：基线（\( t=1 \)）时测量的不变协变量，如年龄、性别、教育等。
\( \alpha_i \)：个体随机截距，代表个体间不可观测的基线吸烟倾向。

模型（本文采用）：

本文使用多水平logistic回归，将滞后暴露作为预测变量：

\[\text{logit}\left[ P(Y_{i,t+1} = 1 \mid \alpha_i, A_{i,t}, C_{i,t}, X_i) \right] = \alpha_i + \beta A_{i,t} + \gamma^\top C_{i,t} + \delta^\top X_i,\]

其中 \( A_{i,t} \) 是暴露状态，滞后一个时间间隔（2周或1个月）。暴露变量是个体内时变的：模型估计的是，在控制基线差异和时变协变量后，个体在时间 \( t \) 的电子烟使用是否导致他在下一时期更可能戒烟。

可观测数据：

研究者实际能观测到的是重复测量序列 \( \{(Y_{i,t}, A_{i,t}, C_{i,t})\}_{t=1}^{T} \) 加上基线 \( X_i \)。不可观测的是：每个个体的潜在反事实结局 \( Y_{i,t+1}(a) \)，即如果暴露被设为 \( a \) 时会观察到的吸烟状态；以及所有未测量的混杂因素（比如戒烟门诊就诊、电子烟口味偏好、政策变化）。

识别假设（未明确写出的，但隐含在此模型中）：

条件无未测量混杂（sequential exchangeability）：给定截至时间 \( t \) 的观测历史（包括 \( A_{i,t} \)、\( Y_{i,t} \)、\( C_{i,t} \)、\( X_i \)），暴露 \( A_{i,t} \) 与潜在结局 \( Y_{i,t+1}(a) \) 独立。但在滞后回归中，\( C_{i,t} \) 可能不包含 \( Y_{i,t} \)（吸烟历史），而时变混杂恰恰需要控制过去结局。本文是否控制了 \( Y_{i,t} \)？Abstract未提及，通常的流行病学模型可能未将该变量作为时变协变量，导致混杂残留。
一致性（consistency）：观测到的暴露等同于潜在暴露时的实际干预。
无跨时间干扰：个体 \( i \) 的暴露不影响个体 \( j \) 的结局（SUTVA）。

第二步：最小内核¶

我们剥去多水平随机截距和多分类暴露，聚焦于最简单的设定：二值暴露、二值结局、两时间点（\( t=1,2 \)）。

设定： - 时间点1：测量基线吸烟者（所有人在时间点1都吸烟？但本文基线是吸烟者，但未要求他们在时间点1必须吸烟？Abstract说“adults who smoked at baseline”，即基线时吸烟的人。我们称基线时间0？为简化，令 \( t=1 \) 为第一次调查，\( Y_{i,1} = 1 \)（吸烟）。然后从 \( t=1 \) 到 \( t=2 \) 观察电子烟使用 \( A_{i,1} \)，并在时间点2观测吸烟状态 \( Y_{i,2} \)。 - 我们只关心 \( A_{i,1} \) 对 \( Y_{i,2} \) 的因果效应。控制基线协变量 \( X_i \) 和可能的一个时变协变量 \( C_{i,1} \)（如尼古丁依赖评分）。 - 模型退化为传统的logistic回归：

\[\text{logit}[P(Y_{i,2}=1 \mid A_{i,1}=a, X_i, C_{i,1})] = \beta_0 + \beta_1 a + \gamma^\top X_i + \delta C_{i,1}.\]

这个问题难在哪？
核心困难是：\( A_{i,1} \) 可能和未测量的混杂变量 \( U_i \)（如戒烟决心、健康状况）相关，而这些 \( U_i \) 也影响 \( Y_{i,2} \)。即便控制可观测协变量，β₁的估计仍可能偏误。当存在时变混杂时，即使控制 \( Y_{i,1} \)（但这里 \( Y_{i,1}=1 \) 所有人相同，所以无变异），过去暴露 \( A_{i,1} \) 受过去结局的影响吗？这里基线是吸烟者，但 \( A_{i,1} \) 可能受基线吸烟强度影响，而基线吸烟强度也可能影响未来戒烟成功，这属于基线混杂，可通过 \( X_i \) 控制一部分。更实际的困难是，在前面的面板中，暴露和结局反复测量，形成反馈循环（戒烟的人可能减少电子烟使用），此时滞后回归的系数含义模糊。最小内核已经展示：要对滞后系数给出因果解释，需要额外的识别假设（序贯可忽略性），而本文的模型对此未加讨论。

核心思路： 本文试图用个体内变异来消除时间不变混杂（通过随机截距），但时变混杂（如抑郁发作→增加电子烟使用→减少戒烟可能性）仍未被处理。所以最小内核告诉我们：本文报告的是条件关联，而非因果效应。

三、这篇论文做了什么¶

三句话¶

研究问题：利用美国全国代表性纵向面板（1255名基线吸烟者，2020-2022，35波双周/月度调查），检验电子烟使用状态（无/非每日/每日）作为时变暴露对2周后戒烟（7天点患病率）及已戒烟者复吸的个体内关联。
核心方法：采用多水平logistic回归，以过去7天电子烟使用为时间滞后预测变量，控制基线协变量和时变协变量，估计相对风险（调整RR）和风险比（调整HR）。
主要结论：每日吸电子烟与2周后戒烟概率显著相关（调整RR=2.27），非每日吸不显著；但已戒烟者中，每日吸（HR=1.31）和非每日吸（HR=2.82）均与复吸风险增加相关。

关键设定与假设¶

数据：Understanding America Study（UAS）的全国代表性样本，纳入1255名基线时“currently smoking combustible cigarettes至少每天？或偶尔？”的成人。调查频率：2020年5月起，前22波每2周一次，后13波每月一次。主要通过自我报告测量。

暴露变量：过去7天内使用电子烟的天数，分为：0=无使用，1-6天=非每日，7天=每日。 结局变量：过去7天内吸烟天数，分为：0=不吸烟（戒烟成功），1-7=吸烟（未戒烟或复吸）。注意他们采用“7天点患病率”，而非持续戒断。

协变量：时变协变量包括时间（调查波）、过去30天饮酒频率、大麻使用、抑郁症（PHQ-8）；基线协变量包括年龄、性别、种族、教育、收入、基线吸烟频率、尼古丁依赖（FTND）等。

模型：
- 主要分析（戒烟分析）：使用多水平logistic回归（个体为随机截距），以滞后一期（2周）的电子烟使用为预测因子，预测当前吸烟状态。他们报告了调整相对风险（通过logistic回归的OR转换来RR？注意RR=2.27表示戒烟的概率比，他们用了“adjusted-RR”，但logistic回归给出OR，文中未说明转换方式，可能是直接使用OR或通过marginal standardization。但Abstract使用了“adjusted-RR”，需谨慎）。 - 复吸分析：在已戒烟至少1个月的样本中，使用Cox比例风险模型？但Abstract写“adjusted-HR”，描述为多水平模型？实际上说“In 557 instances where participants had achieved at least 1 month of smoking abstinence... both daily ... were linked to increased relapse risk”。可能使用了离散时间生存分析或多水平logistic回归处理重复事件。但原文未详细说明。

假设（隐含的，且被作者承认的局限）： - 无未测量混杂：模型假设控制已测协变量后，电子烟状态与潜在吸烟结局独立。但作者承认“unaddressed confounding”限制推断，但未做敏感性分析。 - 时间顺序：暴露在前、结局在后（2周滞后），这满足时间先后，但不能排除反向因果（如已计划戒烟的人会开始用电子烟，导致暴露→结局的关联混杂戒烟的决心）。 - 测量误差：自我报告电子烟使用和吸烟天数可能存在回忆偏误，但本文未检验。

与已有文献相比，本文的主要优势是高频率重复测量（22次双周+13次月度），能够捕捉个体内电子烟使用模式的短期波动。但主要不足是仍采用滞后回归框架，未采用g-methods处理时变混杂。

主要结果（量化）¶

戒烟分析（在所有时间点中，当前吸烟者的下一波结果）：
每日电子烟 vs. 无：戒烟概率 30.4% vs. 16.3%，调整RR=2.27 (95% CI: 1.41, 3.69)
非每日 vs. 无：22.5% vs. 16.3%，调整RR=1.05 (0.85, 1.37)，不显著。
结果似乎表明每日使用与戒烟正相关，但注意这是条件关联，不一定是因果。
复吸分析（在已戒烟1个月以上的个体中，观测到复吸事件的时间）：
每日电子烟 vs. 无：调整HR=1.31 (1.09, 1.70)
非每日 vs. 无：调整HR=2.82 (2.07, 4.61)
注意非每日使用的HR比每日更高，且CI宽，可能由于样本量小或混杂程度不同。
敏感性分析：Abstract未提及，可能文中做了排除特定人群（如从不使用电子烟者）或额外调整。但由于无全文，无法判断。

证明路线与技术技巧（不适用，本文为应用研究）¶

本文没有数学证明，其技术核心在于多水平建模和滞后变量选择。技术技巧包括：使用随机截距来吸收个体间不可观测异质性，使用波次变量控制时间趋势，以及对时变协变量的选定（如大麻使用、饮酒）。缺乏因果推断现代工具如g-computation、IPW、或双重稳健估计。

真实例子与应用（已由论文本身构成）¶

使用的数据：UAS面板，加入门题为“过去7天是否吸过传统香烟”，筛选基线吸烟者。
如何应用本文方法：将暴露变量滞后一期，纳入多水平logistic模型，利用Stata或R的lme4拟合，计算OR并转换为RR。复吸分析使用离散时间生存模型。
得到的结果：如上。
这个例子想说明什么：验证了“电子烟可能帮助短期戒烟”这一流行病学争论，但同时提示电子烟使用在已戒烟者中可能延缓完全戒断。但作者严谨指出限制，避免因果宣称。

🔎 结论是否比证明窄¶

是的。 本文的核心结论“daily vaping associated with higher odds of achieving smoking abstinence”是基于条件关联的陈述，但作者在Abstract中使用的措辞“linked to”、“associated with”是恰当的。然而，在解释中，很多媒体可能会理解为因果效应。按照严格的因果推断标准，本文的结论仅限于“在控制可测协变量后，个体内每日电子烟使用与后续2周内戒烟可能性存在正相关”，不能外推为“鼓励吸烟者每日使用电子烟以帮助戒烟”。更重要的是，复吸分析中的估计更容易受选择偏倚：进入复吸分析的样本不是随机的，而是那些在至少一个月内成功戒烟的人。如果我们认为使用电子烟帮助戒烟的人与其他方式戒烟的人有系统差异，那么复吸风险估计可能无法推广到所有戒烟者。作者未讨论这一选择偏倚。

另外，非每日使用在戒烟分析中不显著，但在复吸分析中HR更高（2.82）。这一反转值得怀疑：可能是因为非每日组的药物尼古丁替代不足，导致戒断后更易复吸；也可能是非每日使用者本身动机较弱，复吸风险天然增加。这种差异需要的解释超出了本文范围。

四、开放问题（扎根具体语句）¶

如何调整未测量混杂以重新评估效应？作者在Abstract第一句就承认“unaddressed confounding limit inferences”。一个具体的开放问题是：能否利用负对照（如电子烟使用对不相关健康结局如意外受伤的影响）来检验是否存在混杂？或者使用E-value来量化需要多大未测量混杂才能推翻当前结论？可扎根于该句：“Temporal imprecision and unaddressed confounding limit inferences whether e-cigarette vaping provides real-world benefits or harms for combustible cigarette smoking cessation.”
滞后长度选择的敏感性：本文使用2周滞后（双周调查）和1个月滞后（月度调查），但未讨论如何选择。不同滞后长度可能得出不同结论，尤其是如果电子烟使用效应是即时或累积的。一个可能的方法是：使用交叉滞后结构方程模型或连续时间建模来估计最优滞后。扎根于：“(semi-)monthly transitions... as time-lagged, time-varying predictors”。
时变混杂（包括过去吸烟状态）的控制不足：模型未明确将前一期吸烟状态作为协变量，但时变混杂的核心是过去结局影响当前暴露。如果过去吸烟状态（如未戒烟）导致个体增加电子烟使用，那么滞后暴露系数可能反映的是“吸烟习惯的持续性”而非电子烟的作用。一个改进方案：将 \( Y_{i,t} \) 纳入 \( C_{i,t} \)，并采用g-computation。扎根于：文中只提到控制了“time-varying confounders”，但未列出具体是否包含 \( Y_{i,t} \)。
复吸分析中的选择偏倚：进入复吸分析的是“已戒烟至少1个月”的观测（557 instances），但这些人本身是由电子烟使用状态和其他因素选择的。一个可能的改进：使用逆概率加权或g-methods处理此选择，或者使用边际结构模型估计电子烟对复吸的自然直接效应。扎根于：“In 557 instances where participants had achieved at least 1 month of smoking abstinence, both daily and non-daily vaping were linked to increased relapse risk.”

对研究者的提醒：要确认这些gap是否真是gap，建议搜索近5年使用g-methods分析电子烟与戒烟关系的高质量流行病学论文，如果它们都使用类似滞后回归，那么这个方向是共识的弱方法；如果已有论文使用g-methods而本文未引用，则本文的缺口就更清晰。

Maintained by 陈星宇 · Homepage · Source on GitHub