您想找什么?
Hero background image
如何做游戏的 A/B 测试
了解在您正在进行的游戏和项目中使用 A/B 测试的优势。 

A/B 测试介绍

A/B 测试是通过实验和仔细分析数据以多种方式优化和改进应用程序的有效方法。

什么是 A/B 测试

A/B 测试背后的理念是比较和对比相似的用户变体,但对每个变体进行不同的优化,以确定今后应做出哪些改变。理想情况下,A/B 测试用于比较一个实验的两个或多个版本,看哪个版本表现更好。

在比较这两种变体时,它们通常被称为 A 变体和 B 变体。用户被随机分配到每个变体,以防止出现任何可能导致数据偏差的偏差。

这可能包括基于变量的测试前偏差,这些变量可能会影响测试结果,例如,在您开始实验前,社交媒体活动会奖励用户货币来尝试您的游戏。这部分用户可能会影响测试并提供偏差的结果。

为什么要进行 A/B 测试

A/B 测试可以让您根据数据而不是直觉做出明智的决定。能够提供数据证据是自信地进行必要更改以优化应用程序的关键。

根据测试规模的不同,您可以测试的变体不仅仅是 A 和 B。测试可进行调整,以包括更多变体。然而,将受众分成更多变体需要延长测试时间,以达到统计显著性,否则就有可能因样本不足而稀释数据。

如何进行 A/B 测试

使用 A/B 测试的最常见原因是

  • 最大化特定玩家行为(消费习惯、游戏习惯、留存率等)
  • 测试新功能和现有功能,以优化性能和用户采用率
  • 改进特定的用户流程(FTUE、商店用户流程、关卡进度、奖励节奏等)

确定每次 A/B 测试的目标对于正确利用数据和时间非常重要。确保每次实验的业务目标明确,这样您就可以衡量关键绩效指标,为推动优化应用程序的措施提供有价值的数据。

应用内 A/B 测试的一个例子是测试新玩家的起始货币余额。您的实验可以类似于

观众新用户变种 A(启用):100 金变体 B(对照组):0 金要衡量的关键绩效指标: 保留率(D1、D3、D7、D30)、ARPDAU 和转换率

控制变体的重要性

对照变体是指符合测试受众标准但不受处理影响的用户子集。该组的重要性在于确保您的团队能够清楚地看到使用 A 和 B 变体测量到的任何升高或降低。测试前设定的关键绩效指标将有助于确定这些变化。

值得注意的是,通过比较测试组与对照组的指标随时间的变化,我们可以分离出外部因素对关键绩效指标的影响,这些外部因素可能会影响您的结果。

A/B 测试仪表板截图
结论

Unity Gaming Services 可以使用我们的游戏覆盖系统创建 A/B 测试活动。您可以在这里查看我们的分步指南。请务必查看本页,我们将在未来几个月内添加更多提示。

运行该测试后,我们可以分析数据,了解这些变体的每种行为如何受到不同起始平衡的影响,以及它们对我们希望衡量的关键绩效指标的影响。

根据上面的例子,我们想知道变式 A 是否对我们的关键绩效指标产生了积极(或消极)影响。在审查结果时,您可以问自己一些问题:

  • 变体 A 与对照组相比,是否能提供更高的留存率,因为用户有更多的货币可花,以帮助在游戏中取得进展?
  • 为用户提供更高的起始余额是否会激励他们花更多的钱?
  • 当用户的起始余额较高时,他们是否会以更高的比例转化为消费用户?

提出这些问题并了解处理方法对用户的影响,对于了解这些玩家的行为以及如何优化这些用户的体验至关重要。

A/B 测试的中级技巧

如何确定统计意义

统计显著性是对 A/B 测试提供准确数据且不受外界因素影响的信任度。计算统计显著性的第一步是提出零假设和备择假设。

  • 零假设 (H0):说明变化对样本组没有影响,并假定其为真。
  • 另一种假设(Ha):您的治疗方法对给定样本的预测。

选定假设后,就可以选择显著性水平 (α),即拒绝零假设的概率。标准显著性水平应为 0.05,这意味着您的结果有小于 5%的概率表明零假设为真。

下一步是找出概率值(p 值),它决定了数据出现在零假设范围内的概率。p 值越小,结果的统计意义就越大。

如果 p 值大于显著性水平,那么拒绝零假设的概率太高,因此结果不具有统计意义。

如果您的 p 值低于显著性水平,那么就有足够的证据拒绝零假设,接受备择假设,这意味着我们的结果具有显著性。

具有统计学意义的 A/B 测试表明我们的实验是成功的,您可以放心地根据测试结果进行更改,以优化我们的应用程序。

游戏中的 A/B 测试示例

在游戏生命早期进行的一个非常常见的 A/B 测试实验是测试不同的首次用户体验(FTUE),以提高玩家的早期留存率(D1、D3、D7)。游戏的 FTUE 对于吸引用户并让他们对您的应用程序产生兴趣非常重要。

观众新用户变体 A(变体): 正常 FTUE(10 级)变体 B(对照组):简短的 FTUE(5 个步骤)关键绩效指标衡量:保留率(D1、D3、D7)

许多即时服务游戏和应用程序都向用户提供应用内购买(IAP),以帮助分发内容并为开发商带来收入。一个常见的例子是测试 IAP 捆绑(如物品捆绑)的不同价位(5 美元捆绑与 20 美元捆绑)。或者,您也可以在捆绑包内提供相同价位但不同内容的产品。

观众花费者变体 A(启用):5 美元捆绑变体B(控制):20 美元捆绑包要衡量的关键绩效指标: ARPDAU(每日均用户平均收入)、LTV(长期价值)

A/B 测试的注意事项

正确:

始终运行 A/B 测试。您应该始终运行至少一个 A/B 测试,这样您就不会浪费任何时间,并能找到优化应用程序的新方法。

对各种指标进行测试。在实验时,一定要确保测试可以优化的不同变量,同时对每个变量使用单独的 A/B 测试。这包括难度、广告奖励、推送通知时间等。

确保变量组具有相似的样本量。如果组间样本量相差太大,那么结果就会不准确。对这些样本进行的任何处理可能都不够充分。

错误:

同时测试太多变量。同时进行过多的 A/B 测试会使结果变得模糊不清,因为不同的测试会直接影响彼此。

测试时间太短。一个常见的错误是过早停止测试,因为数据并不充分,而且会受到各种因素的影响。在实验过程中发生的游戏内事件会极大地影响实验结果,导致统计显著性降低,数据可靠性降低。

不要害怕实验变得更加细化。只要有一个深思熟虑的假设,并有足够大的样本量来提供准确的结果,将目标受众缩小到一个更精细的水平是非常有效的。