微软、亚马逊、脸书如何靠A/B测试创收上亿美金

时间:2022-03-01 | 标签: | 作者:Q8 | 来源:MarTechApe网络

小提示：您能找到这篇{微软、亚马逊、脸书如何靠A/B测试创收上亿美金}绝对不是偶然，我们能帮您找到潜在客户，解决您的困扰。如果您对本页介绍的微软、亚马逊、脸书如何靠A/B测试创收上亿美金内容感兴趣，有相关需求意向欢迎拨打我们的服务热线，或留言咨询，我们将第一时间联系您！

强调“成功”的定义

每个商业团队都必须为实验定义一个合适的评估体系（这个评估通常不是一个度量，而是多个指标），以与它的战略目标保持一致。这听起来可能很简单，但要确定哪些短期指标能最佳预测长期结果是困难的，许多公司都在这上犯了错误。制定一个全面的评估标准(OEC)——需要深思熟虑和广泛的内部讨论。它需要了解战略目标的高级管理人员和了解指标和权衡的数据分析师之间的密切合作。而且这不是一次性的，我们建议OEC每年调整一次。

从Bi星奥公关ng的经验可以看出，实现全面评估（OEC）并不简单。它的主要长期目标是增加搜索引擎查询的市场份额和广告收入。有趣的是，降低搜索结果的相关性会导致用户提出更多的查询(从而增加查询份额)并点击更多的广告(从而增加收入)。显然，这样的收益只是短暂的，因为人们最终会转向其他搜索引擎。那么，哪些短期指标能够预测关于查询份额和收入的长期增长呢? 在讨论OEC时，Bing的高管和数据分析师共同决定，他们希望最小化用户对每个任务或会话的查询数量，同时最大化用户执行的任务或会话数量。

同样重要的是分解OEC的内容并追踪它们，因为它们通常提供了一个想法之所以成功的原因。例如，如果点击次数是OEC不可或缺的一部分，那么衡量页面里的哪个部分被点击就非常有必要。查看不同的衡量标准是至关重要的，因为它有助于团队发现一个实验是否对另一个领域产生了影响。对相关搜索查询结果进行更改的团队可能没有意识到它改变了查询的分布(通过增加相关查询的搜索)，这可能会对收入产生积极或消极的影响。例如搜索“哈利波特”,将显示查询关于哈利波特的书,《哈利波特》电影，,这些电影的投射,等等。

随着时间的推移，构建和调整OEC以及理解因果缘由变得更加容易。通过运行实验、调试结果并解释它们，公司不仅将获得哪些衡量标准对某些类型的测试最有效的宝贵经验，而且还将开发新的衡量标准。多年来，Bing已经创建了6000多个实验人员可以使用和追踪的指标，这些指标根据测试涉及的领域(网络搜索、图像搜索、视频搜索、广告变化等等)被分组到各种报告模板中。

不要忽视低质量数据

如果人们不相信实验的结果，那么评估标准有多好都无关紧要。获得数据很容易，获得人们可以信任的数据很难。你需要分配时间和资源来验证实验系统，建立自动检查和保障。一种方法是运行严格的A/A测试——即针对其本身进行测试，以确保95%的时间系统正确地识别不存在统计上的显著差异。这种简单的测试方法已经帮助微软识别了数百个无效的实验和公式的不当应用(比如使用一个假设所有测量值都是独立的公式，而实际上这些公式不是独立的)。

我们已经意识到最好的数据科学家都是持怀疑态度的，他们遵循特维曼定律（Twyman‘s law）:任何看起来有趣或与众不同的数据通常都是错误的。令人惊讶的结果应该被复制——以确保它们的有效性和平息人们的怀疑。例如，2013年，Bing对出现在其搜索结果页面上的各种文本的颜色进行了一系列实验，包括标题、链接和标题。尽管颜色变化是非常微小的,但结果却出人意料:在标题中看到略深的蓝色和绿色以及标题中看到略浅的黑色的用户成功搜索的几率更高，找到自己想要的内容的的时间也更短。

由于颜色的差异几乎是不可见的，所以结果被很多的来自不同学科背景的专家质疑。多年来，微软和许多其他公司一样，一直依靠专业的设计师——而不是实际用户的行为——来定义公司风格和颜色，所以这个实验在3200万用户的更大样本下又重新进行。结果是相似的，分析显示，在向所有用户推出后，这种颜色的细微变化每年将使得微软增加1,000多万美元的收入。

高质量的数据是实现高可信度结果的前提，为实现这一设想，研究人员需要排除数据里的异常值，识别集合错误等等。在网络世界里，这个问题尤其重要。首先是因为网络机器人（internet bots），Bing有超过50%的请求来自机器人，这些数据可能会扭曲结果或增加“干扰”，从而使检测统计的显著性变得更加困难。另一个原因是因为异常数据点（outlier data points）的普遍存在，例如亚马逊发现，某些用户的大量图书订单可能会影响干扰A/B测试，会将他们自动识别为是图书馆账户。

当某些部分的影响比其他部分大得多或小得多时(统计学家称这种现象为“异质处理效应”)。管理者也应该注意，在某些情况下，单个好的或坏的部分可以使平均值倾斜到足以使整体结果无效的程度。在微软的一次实验中，有一部分IE 7用户由于JavaScript错误而无法点击Bing的搜索结果，结果原本是积极的，却因为这个系统bug变成了消极的。一个实验平台应该检测到这种不寻常的部分；如果没有的话，实验人员可能会错把一个好主意当作坏主意而不予考虑。

如果公司在新实验中重复使用上次实验的控制组，结果也可能产生偏差。这种做法导致了“牵连效应”（carryover effects），即人们在实验中的经历改变了他们未来的行为。为了避免这种现象，公司应该在实验之间“洗牌”用户，重新挑选控制对照组。

微软实验平台执行的另一个常见检查是验证实际实验中控制组和实验组的用户比例是否与实验设计相符。当这些差异出现时，就会出现“样本比例不匹配”，这通常会导致结果无效。例如，控制处理组50.2/49.8的比率与预期的50/50比率相差甚远，因此它偶然发生的概率小于50万分之一。这种不匹配经常发生(通常是每周发生一次)，所以团队需要努力理解原因并解决它们。

避免假设因果关系

由于对大数据的大肆宣传，一些高管错误地认为因果关系并不重要。在他们的头脑中，他们所需要做的就是建立相关关系，然后推断出因果关系。这种想法大错特错!

下面的两个例子说明了原因，并强调了缺少控制组实验的缺点。第一个例子是微软的两个团队分别对Office的两个高级功能进行了观察性研究。每个人都得出他们正在评估的新功能减少了用户损耗的结论。然而事实上，几乎所有的高级特性都会显示出这种相关性，因为尝试高级特性的人往往是重度用户，而重度用户往往具有较高的用户粘性，本来就不易损耗。所以，虽然一种新的高级特征可能与更低的拥护损耗有关，但它并不一定是造成损耗降低原因。收到错误提醒的Office用户也有较低的损耗，因为他们也是重度用户。但是这是否意味着向用户显示更多的错误信息会减少消耗呢?结果是否定的。

第二个例子与雅虎所做的一项研究有关，该研究评估了在雅虎网站上显示某个品牌的展示广告是否会增加该品牌名称或相关关键词的搜索量。该研究的观察部分假设这些广告使搜索次数增加了871%，达到了1,198%。但当雅虎进行控制实验时，这个增幅仅为5.4%。如果没有控制实验，公司可能最终会认为广告对搜索量有巨大的影响，而不会意识到搜索的增加是由于在观察期间其他变量的变化。

显然，观察性研究不能确定因果关系。这在医学界是众所周知的，这就是为什么投影仪营销方案公司联美国FDA要求制药公司进行随机临床试验来证明他们的药物是安全和有效的。

测试中包含太多的变量也可能使得了解因果关系变得困难。这种测试很难理清结果并解释因果关系。理想情况下，实验应该足够简单，这样因果关系就很容易理解。

复杂设计的另一个缺点是实验更容易受到错误的攻击。如果一个新特性有10%的几率触发一个严重的问题，从而需要中止测试，那么包含七个新特性的更改将使得产生致命错误的几率超过50%。

如果你知道两件事的因果联系，但你不知道原因，那该怎么办呢？你应该试着去理解这个因果机制吗？回答是肯定的。

1500到1800年间，大约有200万海员死于坏血病。今天我们知道坏血病是由饮食中缺乏维生素C引起的，水手们产生这种情况是因为他们在长途航行中没有足够的水果供应。1747年，皇家海军的外科医生Dr. James Lind决定做一项实验，测试六种可能的对抗坏血病的治疗方法。在一次航行中，他给一些水手橘子和柠檬，给另一些水手醋。实验表明柑橘类水果可以预防坏血病，尽管没有人知道原因。Dr. James Lind错误地认为水果的酸度是治疗方法，所以他创造一种不易腐烂的治疗方法，那就是把柑橘汁加热成浓缩物，但这种方法极大的破坏了水果中维生素C。所以直到50年后,当没有被加热的柠檬汁添加到船员的日常口粮后，,皇家海军终于消除了坏血病在船员中的肆虐据推测，如果Dr. James Lind用加热和不加热的柠檬汁进行对照实验，坏血病的治愈可能会来得更早并挽救许多人的生命。

这也就是说，你不必总是通过了解“为什么”和“如何做”来获取“是什么”的知识。当涉及到用户的行为时，这一点尤其如此，因为他们的动机很难确定。在Bing，很多最大的突破是在没有基本理论的情况下取得的。例如，尽管Bing能够通过字体颜色的细微变化来改善用户体验，但目前还没有关于颜色的成熟理论来帮助它理解其中的原因。在这里，证据和现象取代了理论的地位。

总结

网络世界通常被认为是动荡和充满危险的，但A/B实验可以帮助我们驾驭它。当答案不明显，人们出现矛盾的观点，或者对一个想法的价值不确定时，A/B测试便是明灯，可以为我们指明正确的方向。

几年前，Bing就是否加大广告规模使得广告主可以在广告中加入特定登陆页面的链接进行了讨论，例如，贷款公司可能会提供“比较利率”和“关于公司”之类的链接，而不是只提供一个到主页的链接。关于这个想法的一个缺点是，这样的广告显然会占据更多的屏幕空间，这将增加用户的不满度。因为参与讨论的人想法不一，所以Bing团队尝试增加广告的大小，但保持分配给广告的整体屏幕空间不变以此显示更少的广告。这样的结果展示，规模更大但数量更少的广告为Bing带来了巨大的改善，使其在不损害用户体验的情况下，营收每年增长逾5,000万美元。

上一篇：撰写更具吸引力的社交媒体文案，这五种方法要
下一篇：做谷歌竞价推广，我们为什么不建议你使用自动