Comparing Area-level Patient Density and Physician Prescribing Preference Instruments for the Effect of Antidiabetics on Adverse Cardiovascular Events Among Medicare Beneficiaries¶

作者: Jack Cordes, Robert J. Glynn, Alexander M. Walker, Sebastian S. Schneeweiss
来源: Epidemiology
主题: 流行病学
相关性: 8/10
机构绿灯: Harvard University（US News 前 50，免分进入精读）
链接: https://doi.org/10.1097/ede.0000000000001938

一、领域脉络与小综述¶

这个方向是什么¶

本论文扎根于药物流行病学中因果效应的工具变量（IV）估计这一子方向。核心挑战是：当使用非随机化的医疗保险或电子病历数据评估药品安全性（如DPP-4i抑制剂 vs. 磺脲类药物对心血管事件的影响）时，由于处方决策受患者社会经济地位、合并症等不可观测因素驱动，标准回归或倾向性评分调整不足以消除混杂偏倚——尤其是“残余的社会经济混杂”。IV方法被视为一道防线，但其有效性完全取决于能否在行政数据库中构造出既强（与治疗强相关）又有效（满足排他性限制）的工具变量。本方向当前处于实证方法比较阶段：实务界已提出多种候选IV（区域处方密度、医生偏好、时间趋势等），但对它们在同一大型数据库、同一个临床问题下的理论强度、协变量平衡效果、以及估计值分歧的系统比较，仍很稀缺。

发展脉络¶

论文introduction（以及其引用的参考文献）画出了一条清晰的演进线：

奠基工作：IV方法进入药物流行病学
- Brookhart et al. (2006) “Instrumental variable analysis of secondary pharmacoepidemiologic data” 与 Stukel et al.（2007）“Analysis of observational studies in the presence of treatment selection bias: effects of invasive cardiac management on AMI survival using propensity score and instrumental variable methods” 将IV方法（特别是两阶段最小二乘，2SLS）系统引入非随机药物效果评价。他们证明了即使调整大量可测协变量后残余混杂依然存在时，IV能提供一致估计。这是本方向的方法学基座。
- 留下什么口子：这些早期的实际应用大多依赖区域层面的IV（如“患者居住地接受某种治疗的比例”），但作者们已经意识到区域IV可能因区域层面的社会经济混杂而违反排他性假设。
主要进展：两个候选IV的分化
- 区域处方密度IV：一个常用但备受争议的IV。它利用不同地理区域（ZIP码、医院转诊区）的处方强度差异。论文引用了 Schneeweiss et al. (2014) “Assessing the comparative effectiveness of newly marketed medications: methodological challenges and implications for drug development” 以及 Mao et al. (2021) （具体标题未在提供给LLM的摘要中明确，但论文intro中应被引为“区域密度IV的早期例子”）。作者对其判断已明确：此类IV虽然容易构造、通常强（F统计量大），但很难排除“区域健康资源、平均社会经济地位、疾病流行率”等区域混杂直接作用于结局的路径。论文的引言直接点出“[区域密度IV] may be invalid if area-level confounders affect both prescribing and outcomes”——这是一个明确的弱化陈述。
- 医生处方偏好IV：被视为“更接近治疗分配机制”的IV。它捕捉的是同一医生在可互换临床情形下（如面对两个等效药品），其既往处方构成所体现的个人偏好。论文引用了 Brookhart et al. (2007）“Evaluating short-term drug effects using a physician-specific prescribing preference as an instrumental variable” 作为这一方法的奠基性工作。作者对此IV的定位是“有理论优势、但构造和解释更复杂”：它排除了区域层面的混杂，但面临着“医生偏好是否随时间稳定”、“每次处方是否真的可互换（临床等价）”等挑战。
当前Frontier与本文位置
- 现有文献的一个分割是：单独报道区域IV或医生偏好IV的研究都有，但缺少在同一个数据源、同一研究设计下、针对同一因果问题，同时构造并比较这两类（以及其变种）IV的实证研究。这便是本文的直接位置。
- 一篇与之非常接近（且被高度重视）的竞争论文是 Davies et al. (2017）“Prescribing preference as a novel instrumental variable: a systematic review and a worked example comparing statins and ezetimibe”。作者对它的引用来判断：Davies et al.主要聚焦于单个“医生偏好IV”的构建，且侧重于方法学框架，并未同时系统地比较区域密度IV。
- 本文的创新点在于：它同时做了三件事：(a) 构建并比较了区域密度IV（两个阈值：0% vs. 100% 及 <50% vs. ≥50%）；(b) 构建了医生偏好IV（基于整体处方史）以及其“弱版”——瞬时偏好IV（仅基于最近一次处方）；(c) 明确报告了每个IV的强度（F统计量） 和协变量平衡改善程度，从而为“哪个IV更好”提供了可定量比较的证据。

子线索聚类¶

被引文献大致落在三条子线索：

线索1：区域层面IV的设计与应用（Brookhart 2006, Stukel 2007, Schneeweiss 2014，以及Mao 2021）。核心关切：IV强度通常高，但有效性常存疑（区域混杂）。方法学问题：如何选择最优分区尺度、如何检测排他性假设的局部违反。
线索2：医生层面IV的理论与实证（Brookhart 2007, Davies 2017）。核心关切：医生偏好是否真的是“近似随机化”？如何界定“可互换处方”的临床情形？瞬时偏好 vs. 历史平均偏好的权衡。方法学前沿：用时间-事件分析、多水平模型的视角来刻画医生处方决策的随机成分。
线索3：IV方法在药物安全性中的广义实践（大量未在摘要中列出的引用）。包括对SUTVA、排他性假设的检验方法（如过度识别检验、均衡性诊断图）、以及2SLS与Cox模型在处理时间-事件结局时的整合。

这个方向在追问的核心问题¶

哪个候选IV在真实医疗数据中真的有效？ 同一份数据上用不同IV会得到不同答案，哪个更可信？本文提供的“同一数据、多种IV、直接比较”的范式正是对这一问题的一个具体回答。
如何衡量IV的“质量”超越“强度”？ F统计量大不等于IV有效。本文通过展示不同IV的估计值差异（从而间接诊断了排他性假设的违反形式）——区域IV可能受残余区域混杂影响（产生有偏估计），瞬时偏好IV虽然更干净但估计效率低（标准误会更大）。
瞬时偏好IV vs. 历史偏好IV的权衡是什么？ 瞬时偏好更接近“准随机化”但样本量仅一次处方，导致IV弱；历史偏好累积了足够信息→IV强，但要求医生的处方模式稳定→可能引入新的混杂。本文直接提供了这种权衡的量化证据（瞬时偏好IV的HR标准误明显更大）。

⚠️ 作者的Framing（必须明确标注成“这是作者的说法”）¶

这是作者对缺口的框架：作者声称“先前的研究要么单独使用区域密度IV，要么单独使用医生偏好IV，但没有在同一项研究中对二者及它们的各种变体进行详尽比较”。因此他们的论文填补了这个“系统性实证比较”的空白。他们框架的独特之处是“通过‘在一个统一的研究队列中报告多种IV估计的差异’来揭示IV选择对结论的极端敏感性”。

被淡化或回避的竞争路线：

贝叶斯混杂调整或敏感性分析：本文完全没有提可以通过概率敏感性分析（比如E-value）来量化不可观测混杂需要多大才能推翻结论，也未提及使用阴性对照。这可能是因为他们的重点不在“评估单个IV的稳健性”而在“比较多个IV”。
过度识别检验与局部平均处理效应(LATE)：本文提到了检验IV强度，但并未对医生偏好IV（更可能是LATE——局部平均处理效应，即只影响那些“依从了医生偏好”的患者）的异质性处理效应进行正式讨论。作者淡化了“不同IV可能估计不同子群体因果效应（LATE）”这一事实，而直接比较了它们对“平均效应”的估计。

什么明显该被引/该存在、却没出现在intro里？

这是值得研究者去查的问题。 没有引用任何关于“工具变量效应解释异质性（IV-heterogeneity / LATE interpretation）”的经典文献，如Imbens & Angrist (1994) 或Angrist & Imbens (1995)。
没有讨论时间-事件结局的特殊性：Cox比例风险模型中的2SLS（两阶段最小二乘）是否真的合适？没有引用Tchetgen Tchetgen et al. (2015) “Instrumental variable estimation in a Cox proportional hazards model” 这类专门方法论。
没有提及“基于机器学习的非参数IV估计（如DeepIV, 核IV）”。作者选择了经典的参数2SLS，回避了更近期的非参数/半参数IV进展。

张力¶

未见明显对立引用。所有被引文献在方法学方向上总体一致，只是各自主张的IV类型不同。真正的张力并非文献间的矛盾，而是本文发现本身与现实结论的张力：即区域IV显示无效应，医生偏好IV显示有保护效应——这种内部矛盾正是本文试图揭示的“IV选择如何改变结论”的核心发现。

二、最核心、最简单的例子 / 数学问题¶

第一步：符号、模型与可观测数据¶

为便于阅读，下面一次性立清本论文的记号、模型与观测结构。由于原文是应用型论文，这里给出一个最小但完整的IV框架。

符号清单：

\( D \) = 二值治疗变量：1 = 使用DPP-4i（西他列汀或沙格列汀），0 = 使用磺脲类药物（对照组）。这是我们关心的暴露（exposure / treatment）。
\( Y \) = 结局变量：时间到首次MACE（主要不良心血管事件）的天数。在离散时间，可以视为一个时变指示变量。这是因果效应估计的目标。
\( X \) = 一组可观测协变量向量（包括年龄、性别、合并症评分、基线用药史等）。这些是我们在回归中调整的。
\( Z_{area} \) = 区域密度IV。这是一个随机变量，取值为某个连续性比例（某ZIP码地区DPP-4i处方占总处方的比例）。在作者的操作化中，它被二值化（阈值0%/100%，或<50%/≥50%）。这就是“区域密度IV”。
\( Z_{doc} \) = 医生偏好IV。随机变量，取值为同一患者在当前时间点之前的历史处方构成中被诊断为“偏好DPP-4i”的比例（以50%为界，>50%为偏好）。这就是“医生偏好IV”。
\( Z_{inst} \) = 瞬时偏好IV。随机变量，取值为同一患者在其最近一次（非当前） 处方中对DPP-4i的选择（1=DPP-4i, 0=磺脲类）。这是医生偏好IV的“弱”版本。
\( \beta \) = 因果效应参数（标量）。对于连续结局，为\( \mathbb{E}[Y^1 - Y^0] \)的IV可识别部分；在Cox模型中，log HR。
可观测数据：对于每个患者\( i \)，我们观测到\( (D_i, Y_i, X_i, Z_{area,i}, Z_{doc,i}, Z_{inst,i}) \)。我们看不到的是：每个患者的潜在结局\( Y^1, Y^0 \)、处方决策背后的医生随机偏好状态、以及区域混杂变量。

模型（最小IV模型）：

治疗选择方程: \( D = \gamma_0 + \gamma_1 Z + \gamma_2 X + \varepsilon_D \). 这里 \( Z \) = 某个IV。Z影响D。
结局方程: \( Y = \beta D + \theta X + \varepsilon_Y \). 目标: 一致估计\(\beta\)。
IV假设:
- \( Z \not\perp D \) | X (相关性假设，IV必须强。可检验，F>10为经验标准)
- \( Z \perp \varepsilon_Y \) | X (排他性假设，必须假设。若不可测混杂U同时影响Z和Y则违反)
- 单调性或SUTVA之类的支持*决定Z所识别的LATE。

这篇论文的核心实证工作，就是使用同一套数据，分别用 \( Z_{area} \)、\( Z_{doc} \)、\( Z_{inst} \) 作为\( Z \)代入上述框架，估计\( \beta \)，先看它们是否强（F统计量），再看它们在调整X后是否平衡了协变量，最后看估计出的\( \beta \)是否一致。

第二步：最小内核¶

为了让“IV比较”的核心思路一看就懂，我们把它剥成一个最简单的思想实验：

最简特例：两个医生、一个街坊

假设只有一个小镇，有两个医生：医生A偏好磺脲类药（90%的处方都开它），医生B偏好DPP-4i（90%的处方都开它）。
有300名患者，随机地（实际上是由某种不可观测的健康/社会经济因素决定）要么跟医生A、要么跟医生B。

区域密度IV： - 小镇被分成两个街坊：东街坊和西街坊（相当于ZIP码）。 - 假设几乎所有住东街坊的人都找医生A看病，几乎所有住西街坊的人都找医生B看病。 - 因此，东街坊的DPP-4i密度接近0%，西街坊的DPP-4i密度接近100%。 - “区域密度IV” 就是：患者住在哪个街坊。这个IV很强（因为街坊几乎完全预测了处方，F统计量会非常大）。 - 问题：东街坊可能是个蓝领工人社区，健康基线更差（好多已患有心血管基础疾病）。西街坊是个富裕社区，健康基线更好。一旦区域混杂（U）存在（比如低收入导致更多MACE），那么区域IV（街坊）与结局Y之间存在一条开放路径: 街坊 → 人均收入 → 生活习惯 → MACE。这就违反了排他性假设。此时，即使使用很精确的2SLS，估计的因果效应也会是有偏的（可能会给DPP-4i记上一个虚假的保护作用或伤害）。

医生偏好IV： - 现在，我们不关注地理，只关注医生的历史处方比例。比如，对于一位第一次就诊的患者： - 如果他的医生是A，根据历史处方记录（过去100次处方中90次是磺脲类），我们给他一个IV值 = “偏好磺脲类”（等效于“很少开DPP-4i”）。 - 如果他的医生是B，IV值 = “偏好DPP-4i”。 - “医生偏好IV” 就是：医生的固定处方偏好。这个IV也很强（医生偏好基本一致）。 - 优势：既然医生A和B在小镇的同一街坊都可能有病人（甚至随机分配），那么区域混杂（U）对两个医生组的病人是一样的，不再有那个开放路径。因此，医生偏好IV可能比区域IV更接近排他性假设。

瞬时偏好IV： - 再进一步，我们不看医生过去100次处方，而是只看昨天最后开的1次处方是什么（是磺脲类还是DPP-4i）。如果昨天最后开的是DPP-4i，则认为医生在今天的这个处方点也有“瞬时偏好DPP-4i”。 - 这个IV“弱”得多：因为昨天的处方受前天病人的病情随机波动影响（比如昨天来的都是肾病患者，今天来的都是糖尿病患者）。但它可能比历史平均偏好更“纯粹”：它剔除了医生多年形成的、可能和他的其他医疗风格（影响结局）相关的“固定偏好”的残余混杂。 - 这就是本文的核心权衡：区域IV强但不干净 → 产生有偏估计；历史医生偏好IV强且较干净 → 仍可能有残余的“医生固定混杂”；瞬时偏好IV最干净但弱 → 估计不精确（置信区间宽到无法拒绝零假设）。

本文的实证结果正好映射了这个思想实验： - 区域IV -> 估计HR≈1.1（无保护效应）—— 可能因为区域混杂抵消了DPP-4i的真实保护效应。 - 历史医生偏好IV -> 估计HR≈0.69（显著保护）—— 要么真实效应确实存在，要么医生固定混杂导致。 - 瞬时医生偏好IV -> 估计HR≈0.86（仅微弱保护，且CI跨1）—— 与零假设一致，但非常不精确，不能排除真实效应为0.69或1.1。

三、这篇论文做了什么¶

三句话¶

研究了什么问题：在Medicare老年人群中，比较以区域处方密度（ZIP码级别的DPP-4i比例）和医生处方偏好（历史处方比例及其变体——瞬时偏好）作为工具变量时，对评估西他列汀/沙格列汀（DPP-4i类）相较于磺脲类药物对主要不良心血管事件（MACE）因果效应的不同推断结论。
核心工具/方法：两个模拟随机试验的队列，利用2SLS回归（IV分析），IV本身在构造上被二值化处理（采用不同阈值如0% vs 100%，或<50% vs ≥50%），所有IV分析均调整了倾向性评分五分位数以平衡基线协变量。
主要结论：所有候选IV在统计上都是强的（F统计量大且改善了协变量平衡），但估计出的因果关系差别很大：区域密度IV未发现DPP-4i的显著保护作用（HR≈1.1）；历史医生偏好IV仍估计出显著保护作用（HR≈0.69）；瞬时偏好IV则估计出无差异（HR≈0.86-0.98）。这深刻表明，IV选择对药物安全性的治疗效应估计具有决定性影响，并且短期处方偏好IV虽然有潜力更“干净”，但当前操作化后效率不足（置信区间太宽）。

关键设定与假设¶

数据：美国Medicare Part D 索赔数据库（2006-2015）。两个队列：西他列汀+磺脲类 vs 磺脲类；沙格列汀+磺脲类 vs 磺脲类。

队列构造（模拟随机试验）：每个队列仅纳入首次服用研究药物（DPP-4i或磺脲类）的患者，并设定“新用药者设计”，以模拟一个（不完美）的随机试验。通过一个“1:1”倾向性评分匹配（原文说是调整）来部分消除处方选择。

IV构造的关键细节：

区域密度IV：基于患者的5位数ZIP码。将ZIP码范围根据DPP-4i的处方占全部处方（这两个类别）的比例划分为不同水平，再对患者赋值为：0（其ZIP码的DPP-4i比例为0）vs 1（比例>0）；或<50% vs ≥50%。
医生偏好IV：基于患者该次处方之前，同一个医生对所有其他患者开具上述两种药物的历史，计算DPP-4i占总处方比例。对该分界点，偏好IV = 1 如果该医生历史处方中DPP-4i ≥50%；=0 如果<50%。
瞬时偏好IV：医生最近一次（距离该次处方最近的一次）处方是哪种药。如果最近一次是DPP-4i，则为1；否则为0。

核心假设（已简化）：

相关假设（IV强度）：通过比较激励组（IV=1）与对照组（IV=0）的未来DPP-4i使用率来间接检验。所有IV都“强”（F统计量大）。
排他性假设：未检验。 本文并未对排他性假设进行正式统计检验（如过度识别检验）。这是该论文最关键的弱点：作者仅通过“不同IV给出不同答案”暗示了排他性可能被违反，但并未直接论证哪一个答案更优。
倾向性评分假设：在IV回归中调整了倾向性评分的五分位数（作为协变量），以调整可观测的混杂。假设这一调整改进了协变量平衡，但不能保证消除不可观测的混杂——这正是IV分析的目标。

主要结果（核心量化结论）¶

IV类型	治疗	模型	HR (95% CI)	结论
未调整/倾向性评分（non-IV）	西他列汀	Cox	0.86 (0.83, 0.88)	显著保护
未调整/倾向性评分（non-IV）	沙格列汀	Cox	0.68 (0.64, 0.73)	显著保护
区域密度IV (0% vs 100%)	西他列汀	2SLS	1.1 (0.79, 1.6)	无差异
区域密度IV (<50% vs ≥50%)	西他列汀	2SLS	1.2 (0.87, 1.6)	无差异
历史医生偏好IV (<50% vs ≥50%)	西他列汀	2SLS	0.69 (0.48, 0.98)	显著保护
瞬时医生偏好IV	西他列汀	2SLS	0.86 (0.60, 1.1)	无差异（或微弱保护）
瞬时医生偏好IV	沙格列汀	2SLS	0.98 (0.56, 1.7)	无差异

关键对比： - 未调整分析 vs 区域IV：未调整分析估计HR=0.86（保护），区域IV估计HR=1.1（无差异）。这说明未调整分析中的“保护效应”可能完全是由残余混杂造成的（例如，社会经济地位更高的患者更可能使用品牌药DPP-4i，而他们也更健康）。 - 历史医生偏好IV vs 区域IV：历史IV给出的HR=0.69，与未调整效应最接近。这暗示：医生的历史偏好可能并未完全切断与患者预后的联系。一个偏向于开新药（DPP-4i）的医生可能对患者心血管疾病的整体管理更积极，这种“医生固定效应”导致了他的患者无论用哪种药，结局都更好。也就是说，历史偏好IV的排他性仍然可能被违反（尽管比区域IV好一点）。 - 历史医生偏好IV vs 瞬时偏好IV：瞬时偏好IV的HR为0.86，介于两类IV之间，更靠近1。这可能是排除限制最接近成立的结果，因为它只依赖于医生上一次随机波动的处方行为，更难被固定的“医生风格”所混杂。但它的置信区间跨越了1（不能拒绝无效应），效率太低。

🔎 结论是否比证明窄？¶

是的。在原文中：“瞬时医生偏好IV分析显示西他列汀与无差异相关（HR=0.86，0.60，1.1）”。作者并未断然说“瞬时IV的答案就是对的”。然而他们的结论却概括性地声称：“短期处方偏好IV有潜力但效率不足”。

这个覆盖范围比他们实际证明的要更弱也更广：他们并没有证明瞬时偏好IV的HR=0.86是真实因果效应。最严谨的结论应该是：“由于区域IV和医生历史IV都显示不同方向效应，我们不能排除其中一个的排他性假设被违反。瞬时偏好IV虽然更可能满足排他性假设，但标准误太大无法为真实效应提供强证据。因此，本分析未能确定DPP-4i相比磺脲类对不良心血管事件的真实效应。”

作者倾向于说“瞬时IV有潜力（hold promise）”，但这更像一个conjecture（推测），而非严格证明。原文中没有进行任何正式的统计检验来比较哪个IV的残差更小。

证明路线与技术技巧（这篇是应用型论文，技术讨论相对少，聚焦于设计逻辑）¶

整体路线是一个应用型IV分析的3步走：

队列构建与IV构造：用医保索赔数据，通过处方药代码识别新用药患者。同时，用同一就诊记录之前的处方记录来计算医生偏好。这个步骤需要严格的时间顺序：暴露（当前处方）前才能用过去的数据定义IV。
IV的诊断：
- 强度：通过比较IV不同组（如偏好DPP-4i vs 偏好磺脲类）之间，实际处方DPP-4i的比例差异。差异大 > 强IV。
- 协变量平衡：比较IV不同组之间，基线协变量的标准化差异。如果IV是随机的，“IV=0”和“IV=1”组的患者基线应该相似。他们计算了倾向性评分平衡差。
效应估计：采用两阶段最小二乘（2SLS）回归（适用于连续结局，但对于二值结局/生存数据，它给出一个线性概率模型下的平均处理效应的近似）。他们在模型中都调整了倾向性评分的五分位数来减少IV分析中的可观测混杂。

关键跳跃点：这并非一个理论性的跳跃，而是一个方法上的抉择跳跃：当2SLS的估计结果差异如此之大时，该如何解读？ 作者没有选择“用某个统一的检验来裁定哪个IV正确”这种路径，而是选择“突出它们差异”作为一种敏感的发现。这实际上是诊断性展示的一次应用，而不是一个理论证明。

真实例子与应用¶

用的什么数据/场景：美国的全国性Medicare索赔数据（Part A, B, D），时间范围为2006-2015年。参与者是65岁以上、开始使用西他列汀或沙格列汀加磺脲类的患者（有两种药物各一个队列）。

怎么把方法用上去：如上所述，通过以前的就诊数据定义了三种IV（区域密度，医生历史偏好，医生瞬时偏好）。用Cox比例风险模型和/或线性2SLS进行IV分析（论文聚焦于2SLS回归，用HR来解释）。所有分析都预先调整了患者的基线风险因素（用倾向性评分凝练为五个五分位数）来增强可比性。

得到什么结果：表格为证。区域IV显示无效应；历史医生IV显示保护效应；瞬时IV显示弱保护或不明确。

这个例子想说明什么： 1. 验证理论：这并非验证一个统计理论，而是验证一个实证前提——不同IV即使都“强”，也能给出不同答案，从而否定了“任意强IV都可以直接使用”的简单想法。 2. 展示相对基线优势：主要基线是“不进行IV调整（直接用cox模型）”，它给出显著的保护效应。这篇论文的“贡献”就在于展示了这个保护效应在区域IV下消失了，但又被历史医生IV重现了，证明其稳定性不佳。 3. 具体教训：论文表明瞬时偏好IV比历史医生偏好IV更可能满足排他性（因为它的结果更接近无效应，符合随机试验的发现），但其效率不足。这直接指出了未来改进方向：“如何设计一个聚合短期处方行为的高效率IV？”

四、开放问题（点到为止）¶

效率提升：如何结合多个医生的“瞬时偏好”或“最近连续几次处方”来构造一个强且有效的医生偏好IV？这相当于一个多变量IV构造优化问题：给定一个时间窗口（如过去3个月的所有处方），如何聚合它们（加权平均？马尔可夫链？）来平衡强度与干净度？扎根于论文原句：“...但[瞬时IV]效率不足（remain inefficient）”。这篇论文本身并没有提供聚合方案，直接指明了这个缺口。
排他性假设的形式检验：当多个IV（历史偏好、区域密度）存在时，是否可以设计一个正式的统计检验来判别“它们的残差\( \varepsilon_Y \)是否与IV独立”？这本质上是一个过度识别检验问题（Hansen J检验），但在非参数设定和生存分析框架下可能更具挑战。作者没有进行这一个检验，只是凭“不同估计结果”来判断。扎根于论文原句：“我们未对排他性假设进行正式检验”。这是一个明确的技术缺口。
LATE的异质性：是否有可能，在药物安全性中，区域IV（主要影响“是否在品牌药店购药”）和医生偏好IV（主要影响“医生新药处方倾向”）实际上是在识别不同子群体（不同LATE）的因果效应？既然如此，它们的估计差异是否仅仅是“目标人群不同”而并非“IV有效性不同”？本文对LATE的讨论是缺失的，是论文结论的一个关键模糊点。扎根于论文的介绍：论文没有讨论LATE，而这是IV方法的基础。因此，值得研究者核实：如果将这两个IV引导到同一个子群体（如“仅对医生偏好与区域密度皆敏感者”），估计结果是否趋于一致？
from医生偏好到个体处方决策模型：瞬时偏好IV的“微弱”本质上是能否用一个统计模型预测医生的瞬时决策。也就是将“医生在最近一次看诊后处方药物类型的概率”建模为一个带迁移学习的强化学习模型，并以此作为IV。如果能高精度预测医生的当前处方（F值>10），就可以得到一个强且更新的IV。这是一个被这篇论文间接框出来的大问题：如何在IV框架下利用机器学习（特别是时间序列模型）来构造新型IV。

Maintained by 陈星宇 · Homepage · Source on GitHub