Как применять A/B-тестирование в играх
Введение в A/B-тестирование
A/B-тестирование - это эффективный способ оптимизировать и улучшить ваши приложения самыми разными способами, экспериментируя и тщательно анализируя данные.
Идея A/B-тестирования заключается в сравнении и сопоставлении похожих вариантов пользователей, но с различными оптимизациями для каждого варианта, чтобы определить, какие изменения следует внести в дальнейшем. В идеале A/B-тестирование используется для сравнения двух или более версий эксперимента, чтобы понять, какая из них работает лучше.
При сравнении этих двух вариантов их часто называют вариантом A и вариантом B. Пользователи случайным образом распределяются по каждому варианту, чтобы предотвратить любые виды предвзятости, которые могут исказить данные.
Это может включать в себя предвзятость, основанную на переменных, которые могут повлиять на результаты тестирования, например, кампания в социальных сетях, в рамках которой пользователи получают валюту, чтобы попробовать вашу игру прямо перед началом эксперимента. Такая когорта пользователей может повлиять на результаты тестирования и исказить их.
A/B-тестирование позволяет принимать взвешенные решения, основанные на данных, а не на догадках. Способность предоставить данные, подтверждающие факт, необходима для того, чтобы уверенно вносить изменения, необходимые для наилучшей оптимизации вашего приложения.
В зависимости от размера теста вы можете протестировать не только варианты A и B. Тесты могут быть скорректированы, чтобы включить больше вариантов. Однако разбиение аудитории на большее количество вариантов требует увеличения продолжительности теста для достижения статистической значимости, иначе вы рискуете размыть данные из-за недостатка образцов.
Наиболее распространенными причинами использования A/B-тестирования являются:
- Максимизация специфического поведения игроков (привычки тратить, играть, удерживать и т. д.)
- Тестирование новых и существующих функций с целью оптимизации производительности и скорости освоения пользователями
- Улучшение специфических пользовательских потоков (FTUE, пользовательский поток в магазине, продвижение по уровням, темп выдачи наград и т.д.)
Определение целей для каждого A/B-теста очень важно для правильного использования данных и времени. Убедитесь, что бизнес-цель каждого эксперимента четко определена, чтобы вы могли измерить KPI, которые предоставят ценные данные для продвижения инициатив по оптимизации приложения.
Одним из примеров A/B-теста в приложении может быть тестирование начального валютного баланса нового игрока. Ваш эксперимент может быть примерно таким:
Аудитория: Новые пользователи Вариант A (включен): 100 золотых Вариант B (контроль): 0 золота KPI для измерения: Коэффициент удержания (D1, D3, D7, D30), ARPDAU и коэффициент конверсии
Контрольный вариант - это подмножество пользователей, которые соответствуют критериям аудитории теста, но не подвергаются воздействию лечения. Важность этой группы заключается в том, чтобы ваша команда могла четко видеть любые подъемы или спады, измеренные с помощью вариантов A и B. KPI, установленные перед тестированием, помогут определить эти изменения.
Важно отметить, что, сравнивая изменение показателей тестовой группы с течением времени с показателями контрольного варианта, мы можем изолировать воздействие на KPI, вызванное внешними факторами, которые могут повлиять на ваши результаты.
Unity Gaming Services имеет возможность создавать кампании A/B-тестирования с помощью нашей системы Game Overrides. Вы можете ознакомиться с нашим пошаговым руководством здесь. Обязательно заглядывайте на эту страницу, так как в ближайшие месяцы мы будем добавлять новые советы.
После выполнения этого теста мы можем проанализировать данные, чтобы увидеть, как на поведение каждого из этих вариантов влияет разный стартовый баланс и как они влияют на KPI, которые мы хотим измерить.
Исходя из нашего примера выше, мы хотим узнать, оказал ли вариант A положительное (или отрицательное) влияние на наши KPI. Просматривая результаты, вы можете задать себе следующие вопросы:
- Обеспечивает ли вариант A более высокий коэффициент удержания по сравнению с контрольным, поскольку у пользователей больше валюты, которую можно потратить на продвижение в игре?
- Стимулирует ли предоставление пользователям более высокого стартового баланса тратить больше денег?
- Превращаются ли пользователи в транжир с большей скоростью, если у них более высокий стартовый баланс?
Задавать эти вопросы и понимать, какое влияние оказывает лечение на пользователей, необходимо для понимания поведения этих игроков и того, как вы можете оптимизировать их опыт.
Промежуточные советы по проведению A/B-тестирования
Статистическая значимость - это уровень уверенности в том, что A/B-тест предоставляет точные данные и не подвержен влиянию внешних факторов. Первым шагом к расчету статистической значимости является выдвижение нулевой и альтернативной гипотез.
- Нулевая гипотеза (H0): Утверждение о том, что изменение не повлияло на выборочную группу, принимается за истину.
- Альтернативная гипотеза (Ha): Предсказание, которое ваше лечение окажет на данный образец.
Выбрав гипотезы, вы можете выбрать уровень значимости (α), который представляет собой вероятность отвергнуть нулевую гипотезу. Стандартный уровень значимости, к которому следует стремиться, составляет 0,05, что означает, что вероятность того, что нулевая гипотеза верна, составляет менее 5%.
Следующим шагом будет нахождение значения вероятности (p-value), которое определяет вероятность того, что ваши данные находятся в рамках нулевой гипотезы. Чем меньше значение p-value, тем более статистически значимыми будут ваши результаты.
Если p-значение больше уровня значимости, то вероятность отклонения нулевой гипотезы слишком высока, а значит, ваши результаты не являются статистически значимыми.
Если p-уровень ниже уровня значимости, значит, есть достаточно доказательств, чтобы отвергнуть нулевую и принять альтернативную гипотезу, а значит, наши результаты статистически значимы.
A/B-тест, имеющий статистическую значимость, говорит о том, что наш эксперимент был успешным, и вы можете смело вносить изменения, основанные на результатах теста, чтобы оптимизировать наше приложение.
Очень распространенным экспериментом A/B-тестирования на ранних этапах жизни игры является тестирование различных впечатлений первых пользователей (FTUE) с целью повышения удержания игроков на ранних этапах (D1, D3, D7). FTUE игры важна для того, чтобы привлечь пользователей и заинтересовать их в вашем приложении.
Аудитория: Новые пользователи Вариант А (вариант): Нормальный FTUE (10 шагов) Вариант B (контроль): Короткие FTUE (5 шагов) KPI для измерения: Уровень удержания (D1, D3, D7)
Многие игры и приложения с живым сервисом имеют встроенные покупки (IAP), которые помогают пользователям распространять контент и приносят доход разработчику. Один из распространенных примеров - тестирование разных ценовых точек для IAP-пакета, например, пакета предметов (пакет за $5 против пакета за $20). В качестве альтернативы можно установить одинаковую цену, но разное содержание пакета.
Аудитория: Вариант A (включенный): $5 сверток Вариант B (контроль): сверток за $20 KPI для измерения: ARPDAU (средний доход на одного среднесуточного пользователя), LTV (долгосрочная стоимость)
DO:
Всегда проводите A/B-тестирование. Чтобы не терять времени и находить новые способы оптимизации приложения, необходимо постоянно проводить хотя бы один A/B-тест.
Выполняйте тесты по различным метрикам. Экспериментируя, всегда проверяйте различные переменные, которые вы можете оптимизировать, используя для каждой из них отдельные A/B-тесты. Это может быть разная сложность, вознаграждение за рекламу, время появления push-уведомлений и т. д.
Убедитесь, что группы переменных имеют одинаковые размеры выборки. Если размеры выборок между группами будут слишком сильно различаться, вы получите неточные результаты. Любая обработка этих образцов может оказаться неадекватной.
НЕ НАДО:
Одновременное тестирование слишком большого количества переменных. Одновременное проведение слишком большого количества A/B-тестов приведет к искажению результатов, поскольку разные тесты могут напрямую влиять друг на друга.
Проводите слишком короткие тесты. Распространенной ошибкой является слишком раннее прекращение тестирования, когда данных недостаточно и на них могут повлиять самые разные факторы. Игровое событие, происходящее в середине эксперимента, может сильно повлиять на результаты, что приведет к низкой статистической значимости и менее надежным данным.
Не бойтесь проводить эксперименты более детально. Сужение целевой аудитории до более тонкого уровня может быть очень эффективным при условии, что у вас есть хорошо продуманная гипотеза и достаточно большая выборка для получения точных результатов.