Как работают АБ-тесты

АБ-тестирование — это метод проверки гипотез об эффективности маркетинговых кампаний за счет сравнения их результатов между собой или с контрольной группой.
Эффективность оценивается по показателям: средний чек и конверсия, в отдельных типах тестов — средняя выручка на клиента (ARPU) и конверсия в клики.

Тестирование можно разбить на следующие этапы:
1. Выделение целевой аудитории (участников).
2. Разделение аудитории на две или более группы (варианта).
3. Проведение эксперимента — запуск тестируемых механик на соответствующие варианты.
4. Завершение эксперимента и подведение итогов — сравнение поведения групп по заранее определенному показателю эффективности.

На данный момент доступны АБ-тесты:

В данной статье рассмотрим общие принципы настройки тестов и подсчета результатов, а также рекомендации по их использованию.

Как создать АБ-тест

Все АБ-тесты хранятся в разделе АналитикаАБ-тесты.
По кнопке «Создать тест» добавляются тесты по сегментам, сайтам и приложениям:

Снимок экрана 2023-12-20 в 13.44.34.png

Тест для персонализации создается и настраивается непосредственно на странице кампании:

Снимок экрана 2023-12-20 в 13.46.55.png

Так же у сценариев:

аб-тест в сценарии.png

Настройка теста

Гипотеза — то, что нужно доказать или опровергнуть с помощью теста.

Участники — группа клиентов, на которой проводится тест. Выбирается сегмент, сайт или приложение.
В сценариях и персонализации участники — все, кто попадает в блок АБ-теста сценария или показ формы.

Чем меньше эта группа, тем больше будет длиться тест.

Влияют ли оптовые покупатели на результаты теста? При использовании показателей «средний чек» и ARPU — нет.
Участники с аномально высокой выручкой, такие как оптовые покупатели, могут исказить результаты таких тестов, распределяясь неравномерно между вариантами.
Для исключения их влияния данные об их покупках и выручке не учитываются на этапах мониторинга и подведения итогов.

Трафик — распределение участников по вариантам. Задается в долях, автоматически пересчитывается в процентное соотношение.

Тесты более чем с двумя ветками

  • Чем больше вариантов, тем больше понадобится участников, что увеличивает продолжительность тестирования.
  • Тест может завершиться без однозначного победителя: каждая пара веток сравнивается между собой, и если хотя бы в одной паре не выявлен победитель, достаточно сложно принять решение, какой из вариантов лучший — возможно, придется проводить дополнительные тесты уже с двумя ветками.

Неравные доли вариантов

  • Длительность теста увеличится, если использовать распределение участников с неравными пропорциями. Например, тест с соотношением участников 75%/25% будет длиться дольше, чем с распределением 50%/50%

В тестах сайта и приложения есть функционал добавления контрольной группы. В остальных тестах в качестве контрольной группы нужно использовать вариант 0, так как в отчете по АБ-тесту результаты разных вариантов будут сравниваться именно с ним.

АБ-тесты никак не связаны с глобальной контрольной группой, поэтому участники ГКГ будут равномерно распределены по всем вариантам АБ-теста.

Для использования вариантов в тесте по сегменту, нужно для каждой группы: отобрать участников с помощью фильтра, объединить их в сегмент и добавить в тестируемую механику:

Снимок экрана 2023-12-20 в 14.35.03.png

Как происходит распределение клиентов по веткам? В тестах сайта и персонализации распределение участников работает по устройствам клиентов.

Куда попадает клиент с несколькими устройствами?
  • Если устройства попали в одну ветку, то клиент считается в ней за одного участника.
  • Если устройства попали в разные ветки, то клиент считается участником в обоих ветках. Заказы при этом распределяются по устройствам: атрибуцируются к тому, с которого был последний переход на сайт.

Аналитика — метрики, которые используются для оценки успешности тестируемых вариантов.

  • Основной целевой показатель — показатель, по которому принимается решение о победившем варианте.
    Возвраты и отмены не учитываются во всех показателях.

    • Конверсия в заказ — процент клиентов, которые совершили хотя бы один заказ после попадания в участники теста.
    • Средний чек — выручка за время тестирования, деленная на количество совершенных заказов.
    • Средняя выручка на клиента (ARPU) — выручка за время тестирования, деленная на количество участников в варианте.
    • Конверсия в клик — процент клиентов, которые кликнули по показанной во время тестирования форме.
      Доступно в тестах персонализации.
  • Дополнительный целевой показатель — показатель, позволяющий смотреть динамику других важных метрик параллельно с основной. Например, если при росте конверсия в заказ, важно видеть, что средний чек не стал хуже. Доступны те же метрики, что и основном показателе.

  • Дополнительные настройки — ожидаемый прирост, мощность и доверительная вероятность. Заданы оптимально по умолчанию.
    Меняйте настройки только в том случае, если точно знаете, как это отразится на результатах теста.

Тест можно запускать.

Перед включением

Проверьте настройки теста, так как после запуска можно редактировать только его название.

Сразу после запуска аудитория будет поделена в случайном порядке на варианты в соответствии с настройками трафика.

Пример настроенного теста по посетителям сайта:

Снимок экрана 2023-12-20 в 14.30.44.png

И по сценарию:

Снимок экрана 2023-12-20 в 14.30.44.png

Рекомендации по запуску АБ-тестов

Как получить статистически значимый результат быстрее?

Чем быстрее наберется нужное количество клиентов, тем быстрее завершится тестирование. Есть три метода для ускорения процесса.

  • Больше трафик

Например, на главной странице сайта, где посетителей значительно больше, чем на других, участники будут набраны быстрее.

  • Меньше вариантов

Каждый новый вариант увеличивает необходимое число участников теста. Это можно проверить с помощью калькулятора АБ-тестов. Меньше вариантов — быстрее набор участников и, соответственно, результаты теста.

  • Равномерное распределение

Чтобы провести тест в соотношении, например, 80/20, нужно дождаться, пока в варианте с меньшей вероятностью попадания наберется достаточное количество участников.
Поэтому равномерное распределение (50/50, 33/33/34, 25/25/25/25) скорее наполнит все варианты.

Можно ли запустить несколько АБ-тестов параллельно?

  • Да, можно. Но важно учитывать, что несколько АБ-тестов, параллельно запущенных на одну аудиторию, будут влиять друг на друга. Они не создадут ложных победителей там, где их нет, но могут сильно увеличить время, нужное каждому из тестов. Также это может привести к ложно несостоявшимся тестам (победитель на самом деле есть, но мы не смогли обнаружить) из-за конфликта цепочек взаимодействия с клиентом.
  • Несколько тестов, направленных на одну аудиторию со схожими гипотезами могут искажать результаты, даже если каналы разные. Например, при тесте рассылки со скидкой на товар и тесте попапа со скидкой на этот товар результаты обоих тестов будет сложнее интерпретировать.
  • Запущенный тест для всех механик сайта должен быть всегда один. В таком случае контрольная группа пользователей не увидит ни одной формы. Контрольные группы формируются случайным образом из всех посетителей сайта, поэтому они могут пересекаться при запуске нескольких таких тестов одновременно. Эти пользователи не увидят никаких форм и виджетов на сайте, что замедлит получение результатов для всех тестов.

Нужно ли делать паузу между АБ-тестами?

Да, если АБ-тесты запускаются на одну и ту же аудиторию, то ей нужно давать «остыть». Выгоревшая от многих (или даже параллельных) тестов подряд может давать искаженные результаты и не показывать разницу между вариантами, где она могла бы быть.

Завершение тестирования

Отчет АБ-теста

Когда АБ-тест показал значимые результаты, то персоналу, который запустил тест, уходит письмо, что есть результат со ссылкой на АБ-тест.

АБ-тест не останавливается сам, поэтому нужно остановить его вручную после получения уведомления о наличии статистической значимости. После остановки АБ-теста его нельзя запустить повторно.

Отчет формируется в течение 24 часов после запуска теста.

Внутри отчета можно увидеть графики по каждому показателю теста и информацию из настроек — сегмент, количество участников, гипотезу и дополнительные настройки. Также можно выбрать интересующий период и разбивку по дням, неделям или месяцам.

Снимок экрана 2023-12-20 в 22.57.53.png

Если тест показал, что варианты статистически значимо не отличаются, то у конкретного показателя будет указано, что победителя нет.
Если для расчета победителя данных недостаточно, то под показателем будет указано, что данные еще собираются.

Под графиками можно увидеть таблицу со значениями по основному и дополнительным показателям, их разницу относительно нулевого варианта, а также выручку каждого варианта.

При использовании показателей «средний чек» и ARPU выручка считается без учета оптовых покупателей. Подробнее

Снимок экрана 2023-12-20 в 15.11.07.png

Что делать, если победитель не выявлен?

Существуют несколько причин, почему в тесте не выявлен победитель:

1. Выбранные метрики не чувствительны к изменениям в тесте. Например, рассылка может не увеличивать средний чек, но повышает лояльность покупателя, количество покупок и ARPU.
2. Маркетинговая механика эффективна только для отдельного сегмента пользователей, а тест был запущен на широкую аудиторию.
3. Тест был запущен с более чем двумя ветками.
При подведении итогов теста с тремя и более вариантами гораздо сложнее определить, являются ли найденные различия в метриках неслучайными. Выявить победителя сложнее.
4. Тест был запущен с неравномерным распределением пользователей между ветками (например, 90% против 10%).
При подведении итогов теста с неравными ветками значимость теста определяется качеством данных в меньшей ветке (принцип «слабого звена») Выявить победителя математически сложнее, для достоверного ответа требуется больше данных.
5. Маркетинговая механика была отключена раньше завершения теста.
6. Не были учтены сезонные или внешние факторы.
Например, летний период, новогодние каникул и т.д. Значения метрик в такие периоды могут быть нестабильны во всех ветках теста, что усложняет выявления победителя.
7. Влияние тестируемой маркетинговой механики незначительно или отсутствует.

Калькулятор AB-тестов - расчет размера выборки при подготовке к AB-тесту и оценка результата.