微软、亚马逊、脸书如何靠A/B测试创收上亿美金

时间:2022-03-01 | 标签: | 作者:Q8 | 来源:MarTechApe网络

小提示:您能找到这篇{微软、亚马逊、脸书如何靠A/B测试创收上亿美金}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的微软、亚马逊、脸书如何靠A/B测试创收上亿美金内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您!


2012年,微软的一位Bing的工程师想改变广告标题在Bing的搜索结果中的展现方式。实现这个想法只需要几行代码,但是它被淹没在成百上千的新提议中,没有受到重视。直到6个月后,一名工程师重拾了这个“遗珠”,在Bing上测试了一个实验——A/B Test。通过A/B Test,一部分的用户可以看到改变后的广告展示方式,而另一部分用户看到的界面保持原样不变,以此测试效果。惊人的是,几小时内新的广告展示方式就产生了极高的广告收入,高到监测系统误认为这是一个程序内的bug。这个小小的改变,成功将Bing的收益提高了12%,即每年1亿美金。可谓是Bing史上最厉害的赚钱点子了。



Bing的这个例子告诉我们,一一测试所有的新点子,绝对是一件大工程。但是人们也开始意识到,如果同时进行多个版本简单的测试,性价比极高。

 

时至今日,MicrosoftAmazonBooking.comFacebook,和Google,这样的大体量互联网公司每年进行的实验高达上万个,测试几百万用户的行为。而初创公司,和对互联网依赖程度较低的公司,像Walmart,租车公司,航空公司,也会定期进行小规模测试。因为决策者们普遍发现,“测试一切”的方法能为公司带来极大回报。对Bing来说,A/B测试每月成功地帮助公司敲定了和数十个收益相关的改动,这些改动每年将Bing每次搜索的收益增加了10-25%。

除此以外,A/B测试也对提升用户满意度做出了巨大贡献。每月数以百计的改动,不仅提高了Bing的获利能力,还将Bing在美国搜索引擎的市场占有率,从初创时的8%提高至23%

在这个网络对所有行业都至关重要的时代,严格的在线测试应该成为企业标准操作程序中的一环。除了网站,A/B测试还能方便快捷地评估商业模型,企业决策,产品,服务,营销活动等不同方面。有了A/B测试,企业决策的过程变得更科学,告别了依赖直觉,拍脑袋做决定的时代。但是遗憾的是,很多企业并不知道如何科学合理地进行测试,或者测试的次数远远不够。

今天我们来看看,如何合理地设计、执行测试,解读测试结果,解决可能的问题。利用文中的例子,举一反三,你就可以从容应对更复杂的A/B测试。


A/B测试的价值

A/B测试中,实验设计人员会设计两个版本的实验。


A:控制版,通常是已有系统,假设为成功版。

B:实验版,经过改动的版本,借以挑战现存的成功版。

随机分配不同版本给用户体验,并比较两个版本的关键性指标(单变量测试:比较A/B/C,和A/B/C/D版本。多变量测试:同时评估多个变量的不同版本)。不同版本的变量,可以是新功能的增加,用户界面的更改(例如新的排版),后端的改动(例如改进亚马逊书籍推荐的算法)或不同商业模型的测试(例如提供免费送货) 。对于决策者关心的,企业运营中的各个环节(比如:销售量,重复使用率,点击率或用户在页面停留的时间),都可以通过线上A/B测试来对其进行优化。

 

任何拥有上千日活(Daily Active User)的公司都能实行A/B测试。通过A/B测试,公司能获取大量用户样本、自动收集网站和APP上大量用户交互数据、以及同时运行多个版本测试,从而快速精准,低成本地评估许多实验,达到系统的快速迭代,企业发展的迅速转向。在今天,许多科技公司意识到了A/B测试的优点,这些公司有一个单独的团队负责构建、管理和改进测试架构的工作,为产品组提供服务。合理利用A/B测试,会为公司提供极大的竞争优势。


1. 小改变可能有大影响

一个常见的商业误区是:只有大投入才会产生大影响。但在互联网世界并非如此,成功更多源于很多正确的小改变。虽然商业世界更推崇大的、颠覆性的想法,实际上,大多数成功都是通过累积成百上千的小改进来实现的。

再来看一个Microsoft微软的例子,2008年,一名英国的微软员工提出了一个看似很小的建议:当用户点击MSN主页上的Hotmail链接时,自动为Hotmail打开一个新窗口,而不是在同一个页面上跳转至Hotmail。通过在90万英国用户中进行了测试,微软发现了一个激动人心的结果:通过MSN主页打开Hotmail的用户量增加了8.9%。然而,大家对这个改变众说纷纭,因为当时几乎不会有网站会在新的标签页上打开链接,所以微软只在英国采取了这个小小的改变。

20106月,Microsoft微软对270万美国用户进行了同样的实验,获得了类似的结果,因此微软开始在全球推行这项改变。除此以外,微软还探寻了此项改变是否能同样作用于其他功能上。在一项针对美国1200万用户的测试中,微软发现,通过在新的标签页上展现用户在MSN的搜索结果,用户点击量增加了5%。新标签中打开链接是一个极易实现的改变,只需几行代码,使这成为了微软提高用户参与度的最佳方法之一。除了Microsoft微软,Facebook脸书、Twitter推特等在内的许多网站至今都在使用这项技术。

微软的例子并非独一无二。亚马逊在测试中发现,将信用卡优惠活动从网站主页移到购物车页面,每年可增加数千万美元的利润。

这些公司的经验说明,小投资可以产生大回报。然而,大投资可能只很产生很少,甚至0回报。比如微软曾花费超过2500万美元,将Bing必应与社交媒体一体化——在搜索结果页面的第三窗格内展示FacebookTwitter的相关内容,但此举在用户参与度和收入方面产生的影响微乎其微。

 

2. 实验可以引导投资决策

线上测试可以帮助决策者了解对于潜在改进的理想投资数额。举个例子,微软曾面临一个问题:如何缩短Bing显示搜索结果所需时间。当然,结果显示肯定是越快越好。但是公司该如何量化提高搜索速度所带来的价值呢?团队应该用3个人、10个人还是50个人来提升性能呢?为了解决这些问题,微软进行了一系列的A/B测试:通过为搜索速度添加人为延迟,研究了加载速度的细微差异所产生的影响。数据表明,每100毫秒加载速度差异对公司收益的影响为0.6%。与此同时,Bing必应的年收益已经超过30亿美元,那么每100毫秒的提速就能增加1800万美元的年收入——足以维持一个规模可观的团队运作。

A/B测试结果也帮助了必应Bing权衡重要商业决策,尤其是那些可能提高搜索结果相关性,但会减慢软件响应速度的功能。为了避免多个小改动累积导致的显著性能下降,Bing会在团队改良搜索引擎和其他组件性能后,再上线会降低响应速度毫秒或以上的新功能。

大浪淘沙始见金 

早在100年以前,百货公司老板John Wanamaker就有一句营销名言:“我在广告上的投入有一半都是浪费,但我不知道是哪一半。”这句话同样适用于A/B测试,因为绝大部分试图超越已有版本的新实验都会以失败告终,即使是专家也经常错误地估计实验结果。在GoogleBing,只有10%~20%的测试会有积极成果。在Microsoft1/3的测试有积极影响,1/3的有负面影响,还有1/3没有产生影响。这就像青蛙王子的故事,想要发现江西省开门大吉价格好点子,公司需要亲吻很多青蛙(进行大量的实验)才能找到王子。

1. A/B测试极易被错误使用

正式进行A/B测试之前,团队应该确保测试版本既不会降低性能,也不会产生意料之外的结果。在必应Bing,除了一些低风险的bug修复和硬件类操作系统升级,其余80%的改动会首先以控制变量的实验方式进行。

大部分的科学测试的基础框架都需要以下几项:记录工具(记录例如用户点击、鼠标悬停和事件时间等数据)、数据流和专业的数据科学家。随着A/B测试的发展和普及,网络上出现了一些针对A/B测试的第三方工具和服务。但如果企业有大规模测试的需求,第三方工具和服务很难胜任。稳定的基础框架能降低每次的实验成本,并提高实验结果可靠性。相反,如果基础框架缺失,企业测试的成本会居高不下,从而导致决策者不愿进一步投入,或进行更多试验。

 

微软的A/B测试基础架构就是一个优秀范例:Microsoft的分析实验团队有80多人,每天可以实行数以百计的产品在线对照试验(包括Bing, Cortana, Exchange, MSN, Office, Skype, WindowsXbox等各种产品)。每次测试会有数十万至千万用户参与试用新改动,团队对测试结果进行严密的统计分析,并自动生成记分板,一一检查几百到上千个指标后,标记那些成效显著的改动。(当然如果你的企业规模较小,或对实验依赖度较低,实验团队投入可以降低)

3. 三种企业常见的实验团队人员结构:

1.     集中型(Centralized model

集中型结构意味着会有一组数据科学家为整个公司服务。这种结构的优点是,实验组人员可以持续关注长期项目,比如设计更好的实验工具和开发更先进的统计算法。但一大缺点是,一个实验组在服务所有产品组时,会对实验任务有不同的优先级,这可能导致各组之间资源和成本分配的冲突。另一个问题是,当数据科学家着手商业项目时,可能会因为缺乏专业知识和商业经验而难以将实验结果关联起来,更难看到结果背后的关键点。除此以外,数据科学家的身份可能缺乏影响力,无法说服决策层相信实验结果或者为技术投资。

2.     分离型(Decentralized model

分离型结构是企业为不同的业务部门配置数据科学家。这种的优点是,数据科学家可以成为其负责业务领域的专家。但缺点也很明显:对于员工而言,只为一个业务部门工作,数据科学家未来的职业道路并不明朗,同时也会缺乏同事的反馈和指导。而对于实验而言,只针对单个部门的实验可能不足以证明改动提案的合理性。

3.     卫星型(Center-of-excellence model

卫星型是让一些数据科学家成为团队,集中工作,剩余的数据科学家分散在不同的业务部门(微软采用的结构)。团队中心主要负责对照实验的设计、执行和结果分析。有了团队统一为公司构建的实验平台和实验工具,企业可以显著降低A/B测试所需的时间和资源。除此以外,团队还能基于优秀实验开设课程,举办Lab和会议,在全公司范围推广。卫星型结构的主要的缺点是,中心团队和产品团队的责任划分可能并不明晰,比如当需要增加测试数量时,哪个团队应为招聘更多的数据科学家来买单呢?

实验团队结构的好坏不是绝对的非黑即白。小公司一般会使用第三方服务,或者从集中型结构起步。待公司发展壮大后,转向其他结构。对于拥有多个业务组的大公司,那些高度文案投放渠道有哪些依赖测试的业务组管理层,会在企业统一规划前实行测试,那么分电动牙刷 方案离型结构就较为适用这种情况。如果在线实验是公司决策环节中的不可或缺的一环,可以通过卫星型结构的中心团队先构建实验范例,制定实验标准,然后再将其推行至各个业务部门。

微软、亚马逊、脸书如何靠A/B测试创收上亿美金

上一篇:了解消费者的隐藏心理,提升营销转化率
下一篇:写给外贸人的电话沟通技巧,看看你掌握了几条


版权声明:以上主题为“微软、亚马逊、脸书如何靠A/B测试创收上亿美金"的内容可能是本站网友自行发布,或者来至于网络。如有侵权欢迎联系我们客服QQ处理,谢谢。
相关内容
推荐内容
扫码咨询
    微软、亚马逊、脸书如何靠A/B测试创收上亿美金
    打开微信扫码或长按识别二维码

小提示:您应该对本页介绍的“微软、亚马逊、脸书如何靠A/B测试创收上亿美金”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通微软、亚马逊、脸书如何靠A/B测试创收上亿美金的相关事宜。

关键词:微软、亚马逊、脸书如何

关于 | 业务 | 案例 | 免责 | 隐私
客服邮箱:sales@1330.com.cn
电话:400-021-1330 | 客服QQ:865612759
沪ICP备12034177号 | 沪公网安备31010702002418号