[toce]27p 3-c 11-s 1基于观察的因果关系研究。
为什么重要?
随机对照实验是确定因果关系的金标准,但有时这类实验无法进行。许多公司正在收集大量数据。虽然信任度较低,但观察性因果关系研究仍然可以用来评估因果关系。如果无法进行在线控制实验,了解可能的实验和常见的陷阱是有用的。
如果用户把手机从iPhone换成三星,对产品参与度有什么影响?强行退出会有多少用户回来?如果将优惠券作为商业模式的一部分引入,会对营收产生什么影响?对于所有这些问题,分析的目标都是找到因果关系。这需要将干预人群的结果与非干预人群的结果进行比较。“因果推论的原理”(瓦里安,2065,438+06)是:
这也表明,比较实际影响(对治疗人群的影响)和反事实影响(对未治疗人群的影响)是确定因果关系的关键。
对照实验是评价因果关系的金标准,因为在样本随机分布的情况下,第一项是观察到的处理和对照的差异,第二项是期望值为零。
然而,有时不可能进行适当控制的实验。这些情况包括:
在上述案例中,最好的方法通常是使用多种证据水平较低的方法来评估效果,即使用多种方法来回答问题,包括小范围的用户体验研究、调查和观察研究。其他技术介绍请参考10章。
在这一章中,我们的重点是估计观察研究的因果效应,我们称之为观察因果研究。有些书,比如Shadish。(2001)术语“观察性(因果性)研究”是指没有干预对象的研究,“准实验设计”是指将样本分配到不同的干预组但分配不是随机的研究。有关更多信息,请参见瓦里安(2016)和安格里斯特和皮施克(2009,2014)。请注意,我们将观察性因果研究与更一般的观察性或回顾性数据分析区分开来。两者都是基于历史日志数据,观察因果关系研究的目标是试图尽可能接近因果关系的结果。正如第10章所讨论的,回顾性数据分析有不同的目标,包括总结分布,发现某些行为模式的普遍性,分析可能的指标和找到可以在受控实验中检验的假设。
观察因果关系研究面临以下挑战:
中断序列(ITS)是一种准实验设计,其中系统中的变量是可以控制的,但干预方案不能随机进行适当的控制和干预。而是同样的人被用来控制和治疗,久而久之,就会改变人的体验。
具体来说,它将在一段时间内多次测量干预以创建模型,该模型可以在干预后为感兴趣的指标提供反事实估计。干预后进行多次测量,治疗效果定义为指标实际值与模型预测值的平均差值(Charles和Melvin 2004,130)。简单ITS的一个扩展是引入干预,然后反转。你可以选择重复这个过程几次。例如,使用各种治疗干预,评估了警方直升机监视对入室盗窃的影响。在过去的几个月里,实施和撤销了几项监视措施。每次实施直升机监视,入室盗窃的数量就会减少。每次监视被取消,入室盗窃的数量就会增加(Charles和Melvin 2004)。在在线环境中,一个类似的例子是了解在线广告对搜索相关网站访问的影响。请注意,可能需要复杂的建模来推断干预的影响,可以使用贝叶斯结构时间序列分析(Charles和Melvin 2004)。
观察因果研究中的一个常见问题是,当存在某种混合影响时,需要排除这种干扰的影响。ITS最常见的混淆是基于时间的影响,因为实验要在不同的时间点进行比较。季节性是一个明显的例子,但其他潜在的系统变化也会造成混乱。来回改多次有助于降低这种可能性。使用ITS时的另一个问题是用户体验:用户会注意到他们的体验是来回翻转的吗?如果是这样,这种缺乏一致性可能会在某种程度上惹恼或挫败用户,这可能是由不一致性而不是变化引起的。
交错实验设计是一种常用于评价排序算法变化的设计(如在搜索引擎或网站中搜索)(Chapelle et al .,2012;拉德林斯基和克拉斯韦尔,2013)。假设在一个交织实验中有两个排序算法X和Y。算法x将按此顺序显示结果,算法y将显示结果。例如,交错实验会分散混合的结果,并删除重复的结果。
评估算法的一种方法是比较两种算法结果的点击率。虽然这是一个强有力的实验设计,但它的适用性是有限的,因为结果必须是同质的。如果第一个结果通常会占用更多的空间或者影响页面的其他区域,那么结果会更复杂。
回归不连续设计(RDD)是一种方法,只要有一个明确的阈值来确定干预人群就可以使用。基于这个阈值,我们可以通过识别刚好低于阈值的群体作为对照,并将其与刚好高于阈值的群体进行比较,来减少选择偏差。
例如,当赢得奖学金时,很容易识别出接近的赢家(蓟韦特和坎贝尔1960)。如果奖学金的门槛是80分,那么就认为刚刚超过80分的治疗组和刚刚低于80分的对照组差不多。但是当参与者可能影响强加于他的干预时,这个假设就会被违背;比如“待遇”是否适合及格,但学生可以说服老师“手下留情及格”(McCrary 2008)。(学生干预学生评分)
使用RDD的一个例子是评估饮酒对死亡的影响:21岁以上的美国人可以合法饮酒,所以我们可以按生日查看死亡,如图11.2。“死亡率的风险会在21岁生日的时候突然爆发...与基线水平相比,当日死亡人数将增加100~150例。21岁的暴涨,似乎不是通常的生日会效应。如果这个峰值只反映生日聚会,那么其他年龄相近的生日应该也有类似的变化(20,22岁),但这并没有发生(安格里斯特和皮施克,2014)。
就像上面的例子一样,一个关键的问题是混杂因素。在RDD,阈值不连续性可能被共享同一阈值的其他因素所污染。比如一项关于酒精影响的研究,选择了21的法定年龄作为门槛,这个事实也可能被污染,因为这也是合法赌博的法定年龄。(21岁是饮酒赌博的法定年龄,无法区分)
当有算法生成分数并且基于分数的阈值发生一些事情时,RDD是最常用的。请注意,当这种情况在软件中发生时,尽管一种选择是使用RDD,但这种情况很容易使其适合于随机对照实验或两者的某种混合(Owen和Varian 2018)。
工具变量(IV)是一种试图近似随机分布的技术。具体来说,目标是确定一种工具,使我们能够近似随机分布(在自然实验中自然发生)(Angrist和Pischke 2014,Pearl 2009)。
比如,为了分析退伍军人和非退伍军人的收入差异,越战征兵抽签类似于随机分配个人入伍;特许学校的座位是通过抽签分配的,所以对于某些学习可能是个不错的选择。在这两个例子中,抽签并不能保证出勤率,但对出勤率影响很大。然后通常用两阶段最小二乘回归模型来估计效果。
有时,“比随机更好”的自然实验可能会发生。医学上允许同卵双胞胎作为自然实验进行双胞胎研究(Harden et al .,2008;麦格2014).在研究社交网络或对等网络时,进行控制实验可能具有挑战性,因为成员之间的交流可能会使效果不受治疗人群的限制。然而,通知队列和消息传递顺序是自然实验的类型,可以用来理解干预的影响。
这里的另一种方法是构建一个可比较的“控制和干预”人群,通常根据共同的干扰因素对用户进行细分,类似于分层抽样。这样做的目的是确保对照人群和治疗人群之间的比较不会因人群结构的变化而引起。例如,如果我们正在研究从Windows转向iOS的用户影响力的外生变化,我们需要确保我们没有测量人口的人口统计学差异。
我们可以通过采用倾向得分匹配(PSM)进一步采用这种方法,它不匹配协变量上的单位,而是匹配一个数字:构造的倾向得分(Rosenbaum和Rubin 1983,Imbens和Rubin 2015)。这种方法已经被用于在线空间,例如,评估在线广告活动的影响(Chan et al .,2010)。PSM的主要问题是只考虑观察到的协变量,因此不可测量的因素可能会导致隐藏的偏差。朱迪亚·珀尔(352,2009)写道:“罗森鲍姆和鲁宾……...在警告从业者倾向评分只有在“考虑了足够多的潜在因素”的情况下才有效时,我说得很清楚。然而,他们没有意识到的是,仅仅警告人们他们无法认识到的危险是不够的。”King和Nielsen (2018)声称PSM“结果往往与预期目标相反,从而加剧不平衡、低效率、模型依赖和偏见。”
对于所有这些方法,关键问题是混杂因素。
以上很多方法都是着眼于如何找到与治疗组尽可能相似的对照组。有鉴于此,衡量干预效果的一种方法是差值(DD或DID)。假设有* * *相同的趋势,差异归因于干预。特别是,这些群体“在不治疗的情况下可能是不同的,但它们将平行发展”(Angrist和Pischke 2014)。
基于地理位置的实验通常使用这种技术。你想知道电视广告的作用。在一个DMA里放一个电视广告,和另一个DMA比较。如图所示,在时间T1改变治疗组。在T1之前和之后在T2测量治疗和对照。假设对照组中两个时期的注意指标(如OEC)之间的差异是为了捕捉外部因素(如季节性、经济实力、通货膨胀),从而呈现出与实际情况相反的事实。疗效估计为相关指标的差值减去同期该指标的对照差值。
请注意,即使在没有干预的情况下外部发生了变化,也可以应用这种方法。例如,当新泽西州的最低工资发生变化时,想要研究其对快餐店就业水平的影响的研究人员将其与宾夕法尼亚州东部的情况进行比较,该州与新泽西州有许多相似之处(Card和Krueger 1994)。
虽然有时观察因果关系研究是最佳选择,但我们应该注意一些陷阱(更详细的列表,请参见新人等人(2015))。如前所述,观察因果关系研究的主要陷阱,无论采用什么方法,都是一个意想不到的混合因素,它会影响测量的效果和因果关系对利益变化的影响。由于这些混杂的因素,观察因果关系的研究需要很大的努力才能产生可靠的结果。此外,对观察因果律研究的反驳也很多(请参阅本栏“对观察因果律研究的反驳”和本章后面的17章)。
一种常见的混淆是未被识别的原因。例如,在人类中,手掌的大小与预期寿命密切相关:平均而言,手掌越小,预期寿命越长。但手掌较小,寿命较长的常见原因是性别:女性手掌较小,寿命较长(美国约6年)。
再比如,很多产品,包括微软Office 365,遇到bug多的用户流失率通常更低!但从直觉来看,绝对不是bug导致用户更喜欢产品。这种相关性是由以下常见原因造成的:经常使用该产品的用户会看到更多的错误,流失率更低。对于功能拥有者来说,新功能的用户流失率低并不少见,但这并不一定意味着新功能就能留住用户。也许使用新功能的往往是重度用户。这些用户很累,很失落。原因是什么?在这些情况下,要评估新功能是否真的能减少客户流失,就需要进行对照实验(新用户和老用户分开分析)。
另一个需要注意的陷阱是虚假或欺骗性的联想。欺骗性相关可能是由强异常值引起的。例如,如图11.5所示,营销公司可以宣称他们的能量饮料与运动成绩高度相关,并暗示因果关系:你的运动表在喝了我们的能量产品后会得到改善(Orlin 2016)。
几乎总是可以发现错误的相关性(Vigen 2018)。当我们测试许多假设时,当我们没有直觉来拒绝因果关系的说法时,就像我们在上面的例子中所做的那样,我们可能会相信它。例如,如果有人告诉你,他发现了一个与被毒蜘蛛杀死有很强相关性的因素(r = 0.86),那么你可能会倾向于对这个信息采取行动。但这个因素是全国拼字比赛测试中单词的长度,如图所示,那么你肯定不会为了降低死亡率而试图缩短单词长度,这是不合理的。
在现实世界中,即使采取了谨慎的措施,也不能保证观察性因果研究不包含其他可能影响结果的因素。试图得出反事实进行比较从而建立因果关系的准实验方法需要做出许多假设,其中任何一个假设都可能是错误的,有些假设是隐含的。错误的假设可能导致实验内部效度的缺失,同时不恰当的假设及其局限性也会影响研究的外部效度。如1章所述,建立直觉有助于提高假设的质量,但直觉不能排除所有可能的问题。因此,建立因果关系的科学金标准仍然是对照实验。
要从观察到的数据中推导出因果关系,我们需要几个无法检验且容易违背的假设。尽管许多随机对照实验后来证实了许多观察性因果关系研究(Concato,Shah和Horwitz 2000),但其他实验被反驳。Ioannidis (2005)评估了高引用率研究的结果;他的研究包括六项观察性因果研究,其中五项不能重复。斯坦利·杨和艾伦·吉田(2019)使用了被认为更可靠的观察因果研究(即非对照)和随机临床试验来比较已发表的医学结果,这些结果具有统计学意义。12篇论文中的52项结果,没有一项可以在随机对照试验中重复。在52例中的5例中,它在与因果关系研究相反的方向上具有统计学意义。他们的结论是:“任何来自观察研究的陈述都极有可能是错误的。”
在线领域的一个例子是如何衡量在线广告的效果,换句话说,在线广告是否导致品牌活动的增加,甚至是用户参与度的增加。通常需要观察因果研究来衡量效果,因为干预(广告)和效果(用户注册或参与)通常位于不同的位置,因此处于不同的控制范围。Lewis,Rao和Reiley(2011)将观察因果研究估计的网络广告效果与“黄金标准”控制实验进行了比较,发现观察因果研究大大高估了效果。具体来说,他们进行了三个实验。
首先,向用户展示广告。研究问题是:有多少用户使用过广告中显示的品牌相关的关键词进行搜索?通过对5000万用户的观察性因果研究,包括三个带控制变量的回归分析,估计改善幅度为871%至1198%。这一估计比对照实验测得的5.4%的增加高几个数量级。令人困惑的因素是用户访问雅虎!的常见原因。积极访问雅虎!一些用户更有可能看到显示广告和执行雅虎!搜索。广告的曝光度与搜索行为高度正相关,但展示广告对搜索的因果影响很小。(不太懂原文意思,附原文)
接下来,网站向用户展示视频。问题是这些视频是否会导致活动增加。通过亚马逊Mechanical Turk招募用户,其中一半人接触30秒的推广Yahoo.com服务的视频广告(即“治疗”),另一半人接触政治视频广告(“控制”),目的是测量用户对雅虎的访问活动是否有所增加。研究人员进行了两项分析:
最后,在雅虎!在网站上向用户展示了一系列广告。目的是评估观看广告的用户是否更有可能在观看广告的当天在竞争对手的网站上注册。观察因果研究比较了当天观看广告的用户和他们一周前的行为,而控制实验访问了雅虎!对比了看过和没看过广告的用户。根据观察因果研究的结论,与前一周相比,看过广告的用户更有可能在看到广告的当天在竞争对手的网站上注册。然而,从控制实验中,实验者观察到是否看广告对被试的行为没有影响。结果类似于我们之前讨论的客户流失的错误:活跃用户更可能更活跃。在这里,活动是一个令人困惑的因素。
这只是一个故事。最近的一项对比研究也发现,观察因果研究的准确性不如在线对照实验(Gordon et al.2018)。我们提供了更多关于https://bit.ly/experimentGuideRefutedObservationalStudies,的故事,展示了常见的未知原因、时间敏感的混杂因素、导致缺乏外部有效性的人口差异以及其他例子。使用观察因果研究时要小心。