Оперативно решаем задачи заказчика на любом этапе проекта

+7 495 989 48 45

info@b2bairwaves.ru

Остерегайтесь ложных результатов исследований – 3 способа улучшить тестирование

Остерегайтесь ложных результатов исследований – 3 способа улучшить тестирование

13.11.2014

Самый простой для маркетологов вариант как провести маркетинговые исследования – полностью погрузиться в A/B или многовариантные тестирования. Но сначала они должны знать, как правильно составлять тесты.

Вы должны проводить все исследования. Если вы не используете веб-сайт, CRM и/или данные о продажах в целях улучшения своего бизнеса, вы тратите деньги впустую.

Но что вы проверяете? И доверяете ли вы (или должны ли доверять) результатам?

Для программного обеспечения легко можно использовать A/B и многомерные тестирования.

Нетехнические маркетологи могут быстро реализовывать сложные испытания и систематически "доказывать" положительные или отрицательные результаты через красивый пользовательский интерфейс.

Тем не менее, одной из самых больших проблем реализации и интерпретации тестов является то, что маркетологи часто не знают, как правильно их составлять.

В этой статье будут описаны три концепции, которые, в случае их осуществления, могут помочь сделать хорошо продуманное тестирование вашего дизайна, и скорее всего приведут к наиболее точным результатам.

1. Планирование экспериментов (DOE)

Планирование экспериментов является одной из форм прикладной статистики, используемой для планирования, выполнения и анализа одного или серии контролируемых испытаний. Оно показывает влияние одного или нескольких сигналов в сложных условиях.

Статистик Рональд Фишер впервые рассказал о DOE еще в 1920-х и 1930-х годах и официально представил, среди многих других, следующие понятия:

  •  Тестирование против контроля (A/B тестирование);
  •  Случайное распределение участников и контрольных групп;
  •  Повторное тестирование для обеспечения точности и согласованности результата.

Хорошо разработанный и реализованный эксперимент увеличивает вероятность обнаружения отклонений (хорошие результаты) и снижает вероятность ложных срабатываний или негативов. И одним из единственных в большинстве компонентов хорошо спроектированного эксперимента является большой размер выборки.

2. Статистическая мощность

Небольшая выборка увеличивает вероятность ложных результатов.

Рассмотрим нулевую гипотезу: собаки больше, чем кошки. Если использовать выборку из одной собаки и одной кошки (например, болонки и льва), можно сделать вывод, что эта гипотеза неверна и что кошки больше, чем собаки.

Но, если бы мы использовали больший размер выборки со множеством видов кошек и собак, распределение размеров нормализовалось, и мы бы заключили, что, в среднем, собаки больше, чем кошки. Не удивительно, что одним из наиболее распространенных недостатков в исследованиях является слишком маленькая выборка.

К счастью, есть тест, который позволяет выяснить, достаточно ли большая используется выборка. Статистическая мощность - это вероятность того, что тест будет регистрировать отклонения от контроля. Чем больше размер выборки, тем больше мощность.

За статистической мощностью стоит серьезная математика, но есть хорошее правило: если вы думаете, что тест сделан, проверьте его немного дольше.

Если вы работаете с маленьким бюджетом, и результаты нужны быстро, попробуйте запустить А/A тест параллельно с тестом А/B. Если A/A тест генерирует такой же или похожий "положительный результат", можно предположить высокую вероятность ложных результатов.

3. Регресс к среднему

Представьте себе эксперимент, в котором мы просим десять человек бросить монетку сто раз, и угадать результат каждого броска.

Мы ожидаем равномерно распределенный набор результатов: в среднем 50 правильных и 50 неправильных ответов. Мы объявляем участникам топ-10 правильных ответов в эксперименте, чтобы выбрать победителей и просим их снова выполнить эксперимент.

Скорее всего, их результаты во втором эксперименте тоже будут равномерно распределены в среднем на 50 правильных и 50 неправильных. Разве победители первого тура неожиданно станут хуже угадывать?

Нет, они были выбраны в первом туре, и когда угадывают снова они, происходит регресс к среднему результату. Это явление очень заметно в онлайн-тестах.

Чаще всего, тест демонстрирует сильный первоначальный результат из-за эффекта новизны, а не хорошего опыта взаимодействия с продуктом. Если вы позволите немного расширить тест, скорее всего, вы увидите, что результаты регрессируют для контроля.

Вывод

Поведение пользователя трудно изменить, и удивительные результаты в течение короткого периода времени являются чаще всего ложными.

Это не подорвет эффект новизны от внесения изменений – при постоянном переключении между тестами можно завоевать больше внимания потребителей. Тем не менее, мы получим много данных, что сделает тест статистически значимым, даже если вы работаете с незначительным набором данных.

Если вы принимаете эту точку зрения, то вы можете потратить немного больше времени, для стратегического планирования ваших эксперименты, чтобы максимизировать эффект от подтверждения ваших гипотез и тестирования.

Обратная связь:

+7 (495) 989-48-45


info@b2bairwaves.ru


x