Вы ведете себя в интернете как...

оценка crypta.yandex.ru сделана с помощью технологии «Крипта». Она позволяет определять пол, возраст и другие характеристики пользователей, анализируя их поведение в интернете. «Крипта» лежит в основе нескольких рекламных продуктов Яндекса.

Технология Крипта
Ежедневно миллионы пользователей видят на сервисах Яндекса баннеры медийной рекламы. Рекламодатели могут показывать свои предложения только той части аудитории, которая больше в них заинтересована, например, пользователям определённого пола и возраста. Для социально-демографического таргетинга Яндекс использует собственную технологию — Крипта. Она умеет группировать пользователей в зависимости от их поведения в интернете.
Крипта основана на методе машинного обучения Матрикснет.1 Чтобы технология научилась отличать одну возрастную группу от других, а мужчин от женщин, ей объяснили эти понятия на примере. Точнее, на сотнях тысяч примеров. Для этого использовалась обезличенная информация о поле и возрасте пользователей из сети профессиональных контактов Мой Круг — люди чаще указывают реальные данные, когда речь идёт о работе. Для уточнения информации из профессиональной сети её сравнили с указанной в профиле пользователя на Яндексе. После перекрёстной проверки осталось около миллиона анкет с наиболее достоверной информацией.
Потом система собрала информацию о поведении этих пользователей в интернете. Например, о длине поисковых запросов, наличии в них определённых слов, о периодах активности за сутки и т.д. Социально-демографические признаки и данные о поведении пользователей в интернете использовались для обучения алгоритма.
Из этих данных разработчики создали две выборки: обучающую и тестовую. Пользователей разделили на две группы: примерно 700 тысяч для обучения Крипты и 300 тысяч для последующей проверки. Проанализировав данные из обучающей выборки, Крипта отобрала 300 наиболее важных факторов для определения пола и возраста, а также рассчитала значимость каждого из них.
Следующий этап — проверка того, насколько хорошо обучилась Крипта. Из данных в тестовой выборке убрали информацию о поле и возрасте пользователей, чтобы Крипта выяснила это самостоятельно. Для каждого пользователя она определила вероятность того, мужчина это или женщина и к какой из пяти возрастных групп он относится. Разработчики сравнили результаты с имеющимися данными и усовершенствовали алгоритм обучения. После ряда проверок и усовершенствований технологию внедрили.
Применение
При выборе нужной аудитории из всех пользователей Яндекса пол определяется с вероятностью 74% — в полтора раза точнее, чем наугад. Возрастная группа, например, от 25 до 34 лет (самая большая по численности группа пользователей) определяется с вероятностью 45%, что более чем в два раза точнее случайного определения. Когда реклама таргетируется на меньшую аудиторию, точность определения демографии увеличивается. Например, при охвате половины аудитории указанные вероятности равны 85% и 52% соответственно.
Крипта постоянно поддерживает знания в актуальном состоянии. Каждый день она обрабатывает и обновляет данные о практически всех пользователях.
Технологию можно научить различать пользователей интернета не только по полу и возрасту. Ей не важно, какие общие признаки или интересы объединяют людей в реальной жизни. Но Крипта отличит разные группы друг от друга, если их поведение в интернете будет заметно различаться.

Поделиться
+1