Когда алгоритм выбирает какой-либо сайт для показа в многорукий бандит аб тестирование ТОПе, он как будто дергает ручку игрового автомата (так называемого «Однорукого бандита»). Его «выигрыш» – это выбор полезного качественного ресурса, на который будут кликать пользователи. Мы разработали модель награды, в основе которой лежала оценка доходности клиента из бизнес-выборки.
Многорукие Бандиты: Практическое Руководство По Использованию
Если A/B тест только один, то, возможно, упущенная выгода совсем не велика. Большое число А/В тестов означает, что мы должны длительное время показывать клиентам множество не самых лучших вариантов. Было бы лучше, если бы можно было быстро в реальном времени откинуть плохие варианты, а уже потом, когда вариантов останется мало, использовать для них A/B тесты. Когда алгоритм многорукого бандита понимает, что тот или иной вариант фичи чаще даёт лучший результат, он начинает показывать его всё чаще.
Причины Появления «многорукого Бандита»
Поиск кратчайшего путиИнтересный пример применения многоруких бандитов был рассмотрен авторами статьи, в которой ставится задача поиска оптимального пути в графе из одной вершины в другую. Перед запуском определите, какова цель тестирования, на какие страницы направлять трафик и как будет производиться выборка пользователей для теста. Продвинутые инструменты A/B-тестирования используют алгоритм Multi-Armed Bandit — «многорукий бандит» — для разделения посетителей между тестируемыми страницами. Вообще можно не кидать монетку для того, чтобы выбрать, что же мы хотим делать, а оценить, насколько больше может быть выигрыш. Мы уже несколько раз дёргали ручку и уже имеем оценку T среднего выигрыша с конкретной ручки. Если ручки со временем не меняют своего поведения, то с каждым использованием ручки надежды недооценить должно становиться всё меньше и меньше.
Все просто – неопределенность в апостериорном распределении ожидаемой выгоды для каждого варианта означает, что каждый вариант выбирается с вероятностью, примерно пропорциональной его форме, определенной параметрам альфа и бета. Иными словами, на каждой попытке Томпсоновское сэмплирование запускает вариант согласно постериорной вероятности того, что максимальная выгода именно у него. Грубо говоря, имея из распределения инофрмацию о неопределенности, агент решает, когда исследовать окружающую среду и когда использовать информацию. Например, слабый вариант с высокой постериорной неопределенностью может окупаться больше всего для данной попытки. Но для большинства попыток, чем сильнее его постериорное распределение, тем больше его среднее и тем меньше его стандартное отклонение, а значит, тем больше шансов его выбрать.
Данный алгоритм действий представлен в виде схемы на рисунке далее. В то же время есть и те, кто считает себя проигравшими от введения нового алгоритма. Это, в первую очередь, сайты, давно и заслуженно обосновавшиеся на первых местах поисковой выдачи. В результате действий «Многорукого бандита» они теряют, пусть даже на время, свое положение и трафик. Особенно Юзабилити-тестирование это может ударить по коммерческим ресурсам, ведущим сезонный бизнес, который тесно привязан к временным рамкам, в отличие от информационных.
Convertize — инструмент A/B-тестирования, разработанный для веб-агентств и компаний среднего размера. Программное обеспечение позволяет любому маркетологу тестировать разные идеи без участия веб-мастера. Самые сложные части теста, такие как распределение трафика, автоматизированы. Я надеюсь, статья послужит мотиватором в использовании многоруких бандитов в продуктовой практике как замена А/Б-тестам. Используя формулу Байеса, мы можем учитывать полученные выигрыши, тем самым уточняя знания о руках многорукого бандита. Мы также можем ограничиться конкретным видом распределения, это тоже априорное знание.
- Далее по эффективности идёт linear TS, и мы видим, что SB и PyMC также близки по результатам.
- Параметр \(\varepsilon\) (обычно малое число, которое должно лежать в пределах между zero и 1) означает вероятность, с которой алгоритм выполняет исследование, а не использование White-13, 11.
- Во-вторых, агент использовал и другие варианты, но более хитрым путем – примерно после 1000 попыток агент, кроме главного варианта, в основном использовал самые сильные варианты среди остальных.
- Его «выигрыш» – это выбор полезного качественного ресурса, на который будут кликать пользователи.
- Окружающая среда его поощряет за эти действия, а агент продолжает их предпринимать.
Это связано с тем, что перемены часто имеют неожиданные последствия. Например, версия Б может побудить посетителей совершать покупки чаще, но при этом снизится средняя сумма чека. Необходимо перепроверить статистику еще раз и лишь потом считать эксперимент законченным. Минимальный срок проведения A/Б-теста должен составлять дней для микроконверсий и дней для транзакционных конверсий. Omniconvert — сервис, который ориентирован на малые и средние предприятия. Инструмент A/B-тестирования Discover https://deveducation.com/ предлагает функции локальной сегментации и персонализации.
Altcraft — платформа автоматизации многих маркетинговых задач, в том числе A/B-тестирования. Это инструмент для бизнеса различных масштабов — от стартапов до корпораций. Теперь рассмотрим самые популярные инструменты, включая лидеров рынка Google Optimize, Connvertize и VWO, а также другие более бюджетные по цене сервисы, доступные в России без VPN в 2023 году.
Мы запускаем агента в окружающей среде используя следующий паттерн. Типичный способ решить эту задачу – много раз запускать A/B тесты. Т.е сколько-то недель показывать каждый из вариантов одинаково часто, а потом, исходя из статистических тестов, решить, какой вариант лучше. Такой способ подойдет, когда вариантов немного, скажем, 2 или 4. Но когда вариантов много, такой подход становится неэффективным – и по упущенному времени, и по упущенной выгоде.
Сервисы Для A/b Тестирования
Если вы не хотите попробовать написать код самостоятельно, хотя я настоятельно призываю именно так и сделать, то соответствующий файл в репозитарии курса называется comparing_epsilons.py. Как и другие агенты, ThompsonSampler наследуется от BaseSampler и определяет свои собственные методы choose_k и update. Хотя среднее величины \(A\) больше остальных, верхняя граница доверительного интервала (скажем, 95-процентного) у неё самая низкая. Однако для каждой величины изменяется масштаб, получается функция softmax — обобщение логистической функции. Этап обновления, как сказано выше, по большей части одинаковый для всех алгоритмов.
Легкопонять, что в конце концов мы узнаем, какой из бандитов действительно лучший,даже если наши первоначальные предположения были неправильными, посколькупоказатель выигрышей каждого из бандита имеет шанс улучшиться. Исследование может дать потенциал, но требует денежных трат, а использование может вследствие неведения потенциала привести к стагнации. Нужно искать компромисс между исследованием и использованием (explore–exploit dilemma). Классический A/B-тест предполагает короткий этап исследования и долгий этап использования. В бандитских алгоритмах нет этого резкого перехода White-13, 9.
Алгоритм бандита выходит за рамки классического A/B тестирования и подключает разные алгоритмы для решения разных проблем — чтобы в результате выжать из эксперимента максимум. При наличии релевантного потока пользовательских данных, многорукие бандиты могут оперировать в рамках контекста. Контекстуальные алгоритмы бандита работают со входящим потоком контекстуальных данных о пользователе — как исторических, так и свежих — что позволяет им принимать более эффективные решения в реальном времени. На верхнем графике мы видим суммарное сожаление, а на нижнем сожаление на попытку. Как видно из графиков, томпсоновское сэмплирование сходится к минимальному сожалению гораздо быстрее, чем эпсилон-жадная стратегия.
Dejar una contestacion