微软、亚马逊、脸书如何靠A/B测试创收上亿美金

时间:2022-03-01 | 标签: | 作者:Q8 | 来源:MarTechApe网络

小提示：您能找到这篇{微软、亚马逊、脸书如何靠A/B测试创收上亿美金}绝对不是偶然，我们能帮您找到潜在客户，解决您的困扰。如果您对本页介绍的微软、亚马逊、脸书如何靠A/B测试创收上亿美金内容感兴趣，有相关需求意向欢迎拨打我们的服务热线，或留言咨询，我们将第一时间联系您！

2012年，微软的一位Bing的工程师想改变广告标题在Bing的搜索结果中的展现方式。实现这个想法只需要几行代码，但是它被淹没在成百上千的新提议中，没有受到重视。直到6个月后，一名工程师重拾了这个“遗珠”，在Bing上测试了一个实验——A/B Test。通过A/B Test，一部分的用户可以看到改变后的广告展示方式，而另一部分用户看到的界面保持原样不变，以此测试效果。惊人的是，几小时内新的广告展示方式就产生了极高的广告收入，高到监测系统误认为这是一个程序内的bug。这个小小的改变，成功将Bing的收益提高了12%，即每年1亿美金。可谓是Bing史上最厉害的赚钱点子了。

Bing的这个例子告诉我们，一一测试所有的新点子，绝对是一件大工程。但是人们也开始意识到，如果同时进行多个版本简单的测试，性价比极高。

时至今日，Microsoft，Amazon，Booking.com，Facebook，和Google，这样的大体量互联网公司每年进行的实验高达上万个，测试几百万用户的行为。而初创公司，和对互联网依赖程度较低的公司，像Walmart，租车公司，航空公司，也会定期进行小规模测试。因为决策者们普遍发现，“测试一切”的方法能为公司带来极大回报。对Bing来说，A/B测试每月成功地帮助公司敲定了和数十个收益相关的改动，这些改动每年将Bing每次搜索的收益增加了10％-25％。

除此以外，A/B测试也对提升用户满意度做出了巨大贡献。每月数以百计的改动，不仅提高了Bing的获利能力，还将Bing在美国搜索引擎的市场占有率，从初创时的8%提高至23%。

在这个网络对所有行业都至关重要的时代，严格的在线测试应该成为企业标准操作程序中的一环。除了网站，A/B测试还能方便快捷地评估商业模型，企业决策，产品，服务，营销活动等不同方面。有了A/B测试，企业决策的过程变得更科学，告别了依赖直觉，拍脑袋做决定的时代。但是遗憾的是，很多企业并不知道如何科学合理地进行测试，或者测试的次数远远不够。

今天我们来看看，如何合理地设计、执行测试，解读测试结果，解决可能的问题。利用文中的例子，举一反三，你就可以从容应对更复杂的A/B测试。

A/B测试的价值

A/B测试中，实验设计人员会设计两个版本的实验。

A：控制版，通常是已有系统，假设为成功版。

B：实验版，经过改动的版本，借以挑战现存的成功版。

随机分配不同版本给用户体验，并比较两个版本的关键性指标（单变量测试：比较A/B/C，和A/B/C/D版本。多变量测试：同时评估多个变量的不同版本）。不同版本的变量，可以是新功能的增加，用户界面的更改（例如新的排版），后端的改动（例如改进亚马逊书籍推荐的算法）或不同商业模型的测试（例如提供免费送货）。对于决策者关心的，企业运营中的各个环节（比如：销售量，重复使用率，点击率或用户在页面停留的时间），都可以通过线上A/B测试来对其进行优化。

任何拥有上千日活(Daily Active User)的公司都能实行A/B测试。通过A/B测试，公司能获取大量用户样本、自动收集网站和APP上大量用户交互数据、以及同时运行多个版本测试，从而快速精准，低成本地评估许多实验，达到系统的快速迭代，企业发展的迅速转向。在今天，许多科技公司意识到了A/B测试的优点，这些公司有一个单独的团队负责构建、管理和改进测试架构的工作，为产品组提供服务。合理利用A/B测试，会为公司提供极大的竞争优势。

1. 小改变可能有大影响

一个常见的商业误区是：只有大投入才会产生大影响。但在互联网世界并非如此，成功更多源于很多正确的小改变。虽然商业世界更推崇大的、颠覆性的想法，实际上，大多数成功都是通过累积成百上千的小改进来实现的。

再来看一个Microsoft微软的例子，2008年，一名英国的微软员工提出了一个看似很小的建议：当用户点击MSN主页上的Hotmail链接时，自动为Hotmail打开一个新窗口，而不是在同一个页面上跳转至Hotmail。通过在90万英国用户中进行了测试，微软发现了一个激动人心的结果：通过MSN主页打开Hotmail的用户量增加了8.9%。然而，大家对这个改变众说纷纭，因为当时几乎不会有网站会在新的标签页上打开链接，所以微软只在英国采取了这个小小的改变。

2010年6月，Microsoft微软对270万美国用户进行了同样的实验，获得了类似的结果，因此微软开始在全球推行这项改变。除此以外，微软还探寻了此项改变是否能同样作用于其他功能上。在一项针对美国1200万用户的测试中，微软发现，通过在新的标签页上展现用户在MSN的搜索结果，用户点击量增加了5%。新标签中打开链接是一个极易实现的改变，只需几行代码，使这成为了微软提高用户参与度的最佳方法之一。除了Microsoft微软，Facebook脸书、Twitter推特等在内的许多网站至今都在使用这项技术。

微软的例子并非独一无二。亚马逊在测试中发现，将信用卡优惠活动从网站主页移到购物车页面，每年可增加数千万美元的利润。

这些公司的经验说明，小投资可以产生大回报。然而，大投资可能只很产生很少，甚至0回报。比如微软曾花费超过2500万美元，将Bing必应与社交媒体一体化——在搜索结果页面的第三窗格内展示Facebook和Twitter的相关内容，但此举在用户参与度和收入方面产生的影响微乎其微。

2. 实验可以引导投资决策

线上测试可以帮助决策者了解对于潜在改进的理想投资数额。举个例子，微软曾面临一个问题：如何缩短Bing显示搜索结果所需时间。当然，结果显示肯定是越快越好。但是公司该如何量化提高搜索速度所带来的价值呢？团队应该用3个人、10个人还是50个人来提升性能呢？为了解决这些问题，微软进行了一系列的A/B测试：通过为搜索速度添加人为延迟，研究了加载速度的细微差异所产生的影响。数据表明，每100毫秒加载速度差异对公司收益的影响为0.6%。与此同时，Bing必应的年收益已经超过30亿美元，那么每100毫秒的提速就能增加1800万美元的年收入——足以维持一个规模可观的团队运作。

A/B测试结果也帮助了必应Bing权衡重要商业决策，尤其是那些可能提高搜索结果相关性，但会减慢软件响应速度的功能。为了避免多个小改动累积导致的显著性能下降，Bing会在团队改良搜索引擎和其他组件性能后，再上线会降低响应速度毫秒或以上的新功能。

大浪淘沙始见金

早在100年以前，百货公司老板John Wanamaker就有一句营销名言：“我在广告上的投入有一半都是浪费，但我不知道是哪一半。”这句话同样适用于A/B测试，因为绝大部分试图超越已有版本的新实验都会以失败告终，即使是专家也经常错误地估计实验结果。在Google和Bing，只有10%~20%的测试会有积极成果。在Microsoft，1/3的测试有积极影响，1/3的有负面影响，还有1/3没有产生影响。这就像青蛙王子的故事，想要发现江西省开门大吉价格好点子，公司需要亲吻很多青蛙（进行大量的实验）才能找到王子。

1. A/B测试极易被错误使用

正式进行A/B测试之前，团队应该确保测试版本既不会降低性能，也不会产生意料之外的结果。在必应Bing，除了一些低风险的bug修复和硬件类操作系统升级，其余80%的改动会首先以控制变量的实验方式进行。

大部分的科学测试的基础框架都需要以下几项：记录工具（记录例如用户点击、鼠标悬停和事件时间等数据)、数据流和专业的数据科学家。随着A/B测试的发展和普及，网络上出现了一些针对A/B测试的第三方工具和服务。但如果企业有大规模测试的需求，第三方工具和服务很难胜任。稳定的基础框架能降低每次的实验成本，并提高实验结果可靠性。相反，如果基础框架缺失，企业测试的成本会居高不下，从而导致决策者不愿进一步投入，或进行更多试验。

微软的A/B测试基础架构就是一个优秀范例：Microsoft的分析实验团队有80多人，每天可以实行数以百计的产品在线对照试验（包括Bing, Cortana, Exchange, MSN, Office, Skype, Windows和Xbox等各种产品）。每次测试会有数十万至千万用户参与试用新改动，团队对测试结果进行严密的统计分析，并自动生成记分板，一一检查几百到上千个指标后，标记那些成效显著的改动。（当然如果你的企业规模较小，或对实验依赖度较低，实验团队投入可以降低）

3. 三种企业常见的实验团队人员结构：

1. 集中型（Centralized model）

集中型结构意味着会有一组数据科学家为整个公司服务。这种结构的优点是，实验组人员可以持续关注长期项目，比如设计更好的实验工具和开发更先进的统计算法。但一大缺点是，一个实验组在服务所有产品组时，会对实验任务有不同的优先级，这可能导致各组之间资源和成本分配的冲突。另一个问题是，当数据科学家着手商业项目时，可能会因为缺乏专业知识和商业经验而难以将实验结果关联起来，更难看到结果背后的关键点。除此以外，数据科学家的身份可能缺乏影响力，无法说服决策层相信实验结果或者为技术投资。

2. 分离型（Decentralized model）

分离型结构是企业为不同的业务部门配置数据科学家。这种的优点是，数据科学家可以成为其负责业务领域的专家。但缺点也很明显：对于员工而言，只为一个业务部门工作，数据科学家未来的职业道路并不明朗，同时也会缺乏同事的反馈和指导。而对于实验而言，只针对单个部门的实验可能不足以证明改动提案的合理性。

3. 卫星型（Center-of-excellence model）

卫星型是让一些数据科学家成为团队，集中工作，剩余的数据科学家分散在不同的业务部门（微软采用的结构）。团队中心主要负责对照实验的设计、执行和结果分析。有了团队统一为公司构建的实验平台和实验工具，企业可以显著降低A/B测试所需的时间和资源。除此以外，团队还能基于优秀实验开设课程，举办Lab和会议，在全公司范围推广。卫星型结构的主要的缺点是，中心团队和产品团队的责任划分可能并不明晰，比如当需要增加测试数量时，哪个团队应为招聘更多的数据科学家来买单呢？

实验团队结构的好坏不是绝对的非黑即白。小公司一般会使用第三方服务，或者从集中型结构起步。待公司发展壮大后，转向其他结构。对于拥有多个业务组的大公司，那些高度文案投放渠道有哪些依赖测试的业务组管理层，会在企业统一规划前实行测试，那么分电动牙刷方案离型结构就较为适用这种情况。如果在线实验是公司决策环节中的不可或缺的一环，可以通过卫星型结构的中心团队先构建实验范例，制定实验标准，然后再将其推行至各个业务部门。

上一篇：了解消费者的隐藏心理，提升营销转化率
下一篇：写给外贸人的电话沟通技巧，看看你掌握了几条