Блог партнёрской сети Travelpayouts

Ботовый трафик: как вычислить и защититься

Обновлено:
Время прочтения:  8  мин.
1851
19
Ботовый трафик: как вычислить и защититься

В конце 2020 года аномальный рост ботового трафика стал горячей темой в рунете. Вебмастера делились на VC.ru и других площадках похожими историями. Это коснулось и русскоязычного блога Travelpayouts. С помощью Antibot.cloud нам удалось настроить эффективную защиту, которая доставляет минимальные неудобства пользователям и при этом эффективно справляется с ботовым трафиком. Из этой статьи вы узнаете подробней о ботовом трафике и о том, как с ним бороться. 

Статья подготовлена совместно с разработчиком Antibot.cloud

Каким бывает ботовый трафик, чем именно он опасен и как его вычислить

Обращения к сайту можно разделить на три группы:

  1. Живые люди, зашедшие через браузер.
  2. Полезные боты (GoogleBot, YandexBot), которые нужны сайту.
  3. Прочие боты, у которых цель прихода на сайт непонятна. 

Каждый вебмастер может легко посчитать живых людей при помощи Яндекс.Метрики или Google Analytics. При этом многие даже не догадываются, сколько «невидимых» ботов бродит по сайту. 

Живых людей на сайте может быть всего 0,5% от количества ботов

Ниже на картинке расположен пример статистики многостраничного сайта из кабинета Antibot.cloud. На ней видно, что процент живых людей (это «уники» и «хиты») составляет в среднем всего 0,5% от количества всех ботов: «Не прошли», «Хорошие боты» и «Заблокировано».

«Хорошие боты» — это боты поисковых систем, собственные автоматические обращения к API сайта и подобное. «Фейк боты» – это парсеры, которые подставляли юзерагенты GoogleBot или YandexBot.

Те же боты, которые отмечены как «Не прошли» и «Заблокировано», не приносят сайту никакой пользы, а скорее вредят. 

Чем опасен ботовый трафик

Поисковые системы умеют определять ботовый трафик и чаще всего не учитывают его в качестве сигналов для ранжирования, иначе закупка ботов была бы очень распространённым способом манипуляций с выдачей. Тем не менее, ботовый трафик нежелателен, так как может привести к следующим проблемам:

  • Если у вас на сайте есть реклама с оплатой за клики, например AdSense или РСЯ – можно получить бан и остаться без выплат за накрутку кликов и показов ботами.
  • Ботовый трафик, предназначенный для накрутки поведенческих факторов, опасен тем, что позиции сайта в поисковых системах могут упасть.
  • Боты создают нагрузку на сайт. Это, конечно, не полноценная DDOS-атака, но тоже может вызвать замедление работы и падение сервера или сайта.
  • Спам-боты (xrumer и подобный спам-софт) создают массовые регистрации и размещают спам и фейковые заказы в интернет-магазинах.
  • Боты ищут уязвимости в CMS и пытаются их использовать.
  • Боты парсят контент для размещения на дорвеях. Контент становится неуникальным — у сайта падают позиции в поисковиках.

Нет однозначной зависимости: боты пришли на сайт — вы гарантированно получили какую-то из этих проблем. Проект может годами существовать с ботами, а негативный эффект может не проявиться или проявиться не столь заметно. Например, из-за ботового трафика будут постепенно снижаться позиции страниц сайта в выдаче,  что приведёт к замедлению развития проекта. 

Как проверить, есть ли на вашем сайте ботовый трафик

На всех сайтах в индексе поисковых систем без исключения есть ботовый трафик. Как минимум, боты поисковых систем посещают ваш сайт. Задача вебмастера — обнаружить вредоносный ботовый трафик.

Есть закономерность: количество ненужных ботов возрастает вместе с ростом сайта. Сайт становится более трастовым и раскрученным, растёт количество страниц сайта и беклинков и вместе с тем растёт количество ботов. 

Вычислить количество ботов, подсчитав все обращения без исключения, можно по логам сервера: access.log и так далее. Ботов, работающих на браузерных движках с поддержкой JS, также можно увидеть в Яндекс.Метрике. В блоге Travelpayouts опубликована статья о способах вычисления ботов с помощью Метрики.

Кто и зачем отправляет ботов на ваш сайт

В рунете сейчас популярно заниматься накруткой поведенческих факторов при раскрутке сайта в Яндексе. Свои сайты крутят в плюс, сайты конкурентов — в минус. А конкуренты есть у всех популярных сайтов. 

Также всё чаще появляется склик рекламы на сайте (в AdSense, РСЯ). Это делают несколько видов ботов для различных целей: 

  • случайные боты-парсеры;
  • конкуренты вашего проекта специально;
  • «нагуливатели» ботов. Если боты предназначены для накручивания поведенческих факторов, они должны быть максимально похожи на живой трафик. Кто-то запустил идею, что если бот покликает по рекламе РСЯ, то этот бот в глазах Яндекса будет больше похож на человека. В итоге на вебмастерских форумах можно каждый день видеть новые темы о том, что сайт забанен в РСЯ, или о том, что Google Adsense опять списал больше половины суммы заработка.

Когда стоит начинать бороться с ботами 

Если боты доставляют вам проблемы, то бороться надо уже сейчас. 

Если вы пока не замечаете негативного эффекта, то вычислите количество ботового трафика. Если он составляет более 25% от всего трафика, то возникает риск получения проблем в Яндексе и Google. Это тот самый «порог», когда вам надо срочно позаботиться о защите.

И даже если сейчас количество ботового трафика менее 25%, проверяйте его регулярно и будьте готовы в любой момент выставить защиту. 

Кстати, например, спам-боты даже в минимальных количествах быстро надоедают. Постоянно приходится читать от них письма, отправленные через форму, или модерировать комментарии на сайте.

Сервисы для борьбы с ботами

Расскажем про два популярных и простых в использовании инструмента.

CloudFlare

Ориентировочно защищает 30% всех сайтов. 

Достоинства

  1. Кэширует статику (картинки) у себя, снижая нагрузку на сервер. 
  2. Если настроить 3 простых правила, то получится отличная защита сразу от многих ботов, которые не поддерживают HTTP2. Это примитивные парсеры контента, чекеры уязвимостей, некоторые спам-боты. 
  3. При использовании CloudFlare у вас наготове будет защита от DDOS-атак.
  4. Всё это досутпно на бесплатном тарифе. Даже платные сервисы защиты от DDOS-атак в целом не имеют преимуществ по сравнению с CloudFlare.

Недостатки

  1. Исключительно из-за специфики российского законодательства: иногда IP от CloudFlare банит РКН.
  2. CloudFlare вообще не защищает от накрутки поведенческих факторов. 

AntiBot 

Его можно использовать совместно с CloudFlare. AntiBot останавливает все виды ботов, включая тех, которые накручивают поведенческие факторы. Важно помнить, что он не обеспечивает защиту от DDOS-атак.

Достоинства

  1. Простая интеграция и настройка.
  2. Максимальная защита от ботов, маскирующихся людьми для накрутки поведенческих факторов.

Именно «Антибот» помог решить проблему с ботами в блоге Travelpayouts. «Антибот» установлен с февраля 2021 года и эффективно справляется с ботовым трафиком. Всплеск заходов с устройств с низким разрешением экрана — одно из проявлений ботового трафика. После установки «Антибота» ситуация нормализовалась. 

Недостатки

  1. Основной недостаток — решение не совместимо с Google Ads. На данный момент сайт, на котором стоит «Антибот», не получится рекламировать в Google Ads, так как он не пройдет модерацию. 

При грамотной настройке «Антибота», вы не должны столкнуться с другими проблемами. «Антибот» не влияет на сниппет в выдаче поисковых системах, не мешает шарингам в соцсетях и прочей «живой» активности.

Как работает AntiBot и как его установить

AntiBot — это PHP-скрипт и облачный сервис для защиты сайтов от плохих ботов. «Антибот» как сервис работает с 2017 года, сейчас в сутки он обрабатывает более 50 млн запросов. Заглушка «Антибота» переведена на самые популярные языки, потому его можно использовать на сайтах для любых гео. 

При антибот-проверке пользователь при заходе на сайт в течение 1-3 секунд видит страницу, похожую на страницу CloudFlare, затем автоматически попадает на сайт.

Если человек не прошел автоматическую проверку, что случается примерно в 5% случаев, ему нужно просто нажать на кнопку. 

На картинке ниже пример того, что видит человек, который не прошел проверку автоматически.

В облаке применяются фильтры и анализ посетителя по IP, PTR, Fingerprint, Whois по базе блэклистов, проверка через reCAPTCHA v.3 (определяет рейтинг посетителя глазами Google, пользователю не придётся указывать на картинках автобусы и велосипеды) и по базе принадлежности IP к хостингам (прокси, VPN, Tor).

Локально в скрипте можно удобно блокировать по user-agent, странам, языку браузера, рефереру, PTR, IP.

От каких именно ботов защищает «Антибот»

  1. От автоматического спама через формы. Эффективность до 99% защиты.
  2. От клик/хит ботов, скликивающих рекламу и портящих статистику посещаемости и поведенческие факторы.
  3. От взлома, поиска XSS и других уязвимостей, а также усложнение эксплуатации уязвимостей.
  4. От дорвеев и парсеров, ворующих контент. Эффективность до 99%.
  5. От псевдопоисковиков, анализаторов, AhrefsBot, Majestic, SEMrushBot и их аналогов.
  6. От фейк-ботов, когда посторонние парсеры прикидываются ботами YandexBot, Googlebot.

А также «Антибот» значительно снижает нагрузку на сервер, так как ненужные боты не ходят по сайту. И это экономит ваши деньги. 

Как установить скрипт AntiBot на сайт

«Антибот» будет работать на большинстве хостингов, в том числе на виртуальных.

Программные требования для установки «Антибота»:

  • PHP 5.5-8.0 с обязательными расширениями: SQLite3 и Mbstring и желательной PHP библиотекой GD;
  • желательные расширения: ZIP (для возможности проводить обновление антибота через админку в один клик) и Memcached (для ведения счётчиков статистики). Отсутствие Memcached не критично для работы скрипта. Если ваш провайдер не поддерживает Memcached, вы можете использовать «Антибот», но не сможете увидеть подробную статистику.

Процесс установки:

  • Загрузите папку «Антибота» на хостинг.
  • Зайдите в браузере в эту папку и проверьте, установлено ли всё ПО, которое нужно для работы «Антибота». Если всё установлено, вы увидите антибот-проверку.
  • Сделайте в конфиге «Антибота» необходимые настройки: пропишите email и пароль от лицензии. Большинство настроек вы можете оставить «по умолчанию» —  рекомендованные, поэтому вы можете их не изменять.
  • Подключите PHP «Антибота» инклудом в свой сайт. Если вы используете WordPress, то просто добавьте в wp-config.php строку кода:
    • <?php require_once($_SERVER[‘DOCUMENT_ROOT’].’/antibot/code/include.php’);
  • Просматривайте логи «Антибота» и добавляйте в белый список нужных вам ботов: ботов бирж ссылок типа sape, обращения скриптов биллингов платёжных систем, если у вас интернет магазин с онлайн оплатой. Также в конфиге «Антибота» вы можете выбрать нужных ботов из готового списка популярных ботов. По умолчанию там разрешены боты поисковых систем: Яндекса, Google, Bing и Mail.

Сколько стоит «Антибот»

Перед оплатой сервиса нужно протестировать «Антибот». Поэтому после регистрации на сайте у вас есть 10 дней для полнофункционального тестирования сервиса на 1 домене и всех его поддоменах. 

Регистрация в AntiBot, бесплатный тестовый период

Зарегистрируйтесь на сайте antibot.cloud и укажите домен для привязки лицензии. По всем вопросам обращайтесь в службу поддержки. 

Если совсем нет опыта в установке скриптов, то за дополнительную плату вы можете приобрести установку и настройку «под ключ».

Тарифы

  • ONE: 1 домен и любые его поддомены. Стоимость первого года — 25 долларов, продление — 13 долларов в год.
  • UNLIMITED: Без ограничений доменов, поддоменов и без привязок к доменам. Регистрация — 99 долларов в год, продление — 49 долларов в год.
  • Дополнительная услуга по настройке под ключ: 50долларов. В пакет входит установка недостающего ПО на сервер, настройка «Антибота», настройка белых/чёрных списков под ваши требования и задачи.

Для оплаты обращайтесь в службу поддержки, можно через Telegram. Но, пожалуйста, внимательно проверяйте никнейм саппорта. В Телеграме много мошенников и фишинговых аккаунтов.

Ответы на самые популярные вопросы про «Антибот»

Как поисковые системы относятся к «Антиботу», не уйдёт ли сайт в бан?

Боты поисковых систем, добавленные в список белых ботов, не видят наличия на сайте «Антибота». Потому без препятствий попадают на сайт, как и раньше. За 3 года работы «Антибота» не замечено никаких банов, изменения позиций, отображения сниппетов и прочего негативного влияния.

На каком основании Антибот принимает решение о блокировке пользователя?

Анализируя огромную базу накопленных данных (Big Data) и множество параметров конкретного запроса, «Антибот» моментально присваивает запросу оценку. Если она ниже определенного порога, то не происходит отдача токена для автоматического прохождения проверки.

Почему нельзя «Антибот» сделать только скриптом, без обращения в облако?

Обработка запроса в облаке создает совсем другую картину и представление о запросе. 

На отдельно взятом сайте сложно понять историю активности этого посетителя. Если бот, маскирующийся человеком, сделает 1 запрос на 1 сайт — невозможно сделать выводы в момент запроса. Но если бот делает множество схожих запросов к множеству сайтов — можно заподозрить, что активность совершается не человеком.

Когда надо включать капчу?

По умолчанию капчу можно не включать. Но если остальные фильтры не справляются и пропускают ботов, то стоит подключить. 

«Антибот» использует не классическую капчу, в которой нужно разгадывать тексты или выбирать автобусы на картинках, а reCAPTCHA v3. Это скрытое получение рейтинга посетителя от Google, если рейтинг ниже 0,7, то сам Google такого посетителя считает ботом. 

Недостатки рекапчи 

  • До 5% ложных срабатываний. Некоторым пользователям придётся сделать клик по кнопке входа.
  • Дополнительная задержка на странице проверки на 1-2 секунды в зависимости от скорости интернета посетителя.

Как сделать свою страницу заглушки?

Чтобы полностью переделать страницу заглушки (проверки) под свой сайт, используя свой стиль и тексты, потребуется знание HTML. Подробная инструкция по кастомизации страницы заглушки расположена по ссылке.

Совместим ли «Антибот» с размещенным на сайте виджетами Travelpayouts, блоками Adsense, РСЯ и другой рекламой?

«Антибот» не мешает работе размещенной на сайте рекламы. Даже наоборот, «Антибот» защищает рекламу на сайте от скликивания ботами. Помните, что это может снизить доход, полученный от кликов ботов, но защитит вас от бана в системах рекламы. 

Сайты с «Антиботом» успешно проходят модерацию в Adsense и РСЯ. Есть один нюанс при настройке: нужно добавить в белый список бот Яндекса и ботов Adsense (для них в конфиге есть пометка).

Сталкивались ли вы с ботовым трафиком на ваших сайтах? Расскажите в комментариях, как он повлиял на ваш проект и как вы с ним боретесь.

Рекомендуем также прочитать