Что такое поисковой робот и как он работает?

 

Понятия

Поисковой роботы (они же краулеры, боты, веб-пауки) – программа, которая индексирует страницы сайта посредством поиска уже на индексированных страницах.



 

Схема работы бота:

  1. Сканирование – сбор всех данных со страницы включая изображения, текст и видео. Такой процесс происходит не раз, ибо на странице могут внести изменения.
  2. Индексация – добавление информации в базу данных поисковой системы.
  3. Выдача поиска – поиск информации по индексу и ранжирование страниц с учётом релевантности запросу.

 



Принцип работы поисковых роботов и их функции

Поисковая выдача формируется в три этапа:

  • Сканирование — сбор всех данных с веб-страниц ботами, включая тексты, картинки и видеоматериалы. Данный процесс происходит регулярно с учётом частоты обновлений ресурса.
  • Индексация — внесение собранной информации в базу данных поисковых систем с присвоением определённого индекса для быстрого поиска. На крупных новостных порталах контент индексируется практически сразу после публикации.
  • Выдача результатов — поиск информации по индексу и ранжирование страниц с учётом релевантности запросу.

Иногда процесс индексации страниц происходит даже без их предварительного сканирования. В файле robots.txt указываются правила для сканирования, но не индексирования страниц. Поэтому если поисковый робот обнаружит страницу другим способом, например, если на неё ссылаются сторонние ресурсы, то может добавить её в базу.

 

Какие боты у Google и Yandex?

У каждого поисковика есть свои поисковые боты. Давайте рассмотрим на примере Google и Yandex.

Google

 

 

  • Googlebot – основной бот. Работает для десктопных и мобильных версий стандартных сайтов. С июля 2019 года добавлено приоритетное сканирование мобильных версий сайтов, соответственно большинство роботов будут обрабатывать мобильные версии.
  • Googlebot Images – поисковый робот для индексации изображений.
  • Googlebot News – бот, добавляющий материалы в Google Новости.
  • Google Favicon – краулер, собирающий фавиконы (иконки) сайтов.

Впечатляет, да? У Яндекса ситуация не хуже, тоже много ботов.

 

 

Yandex

 

 

 

  • Основной робот, индексирующий страницы, — YandexBot/3.0.
  • Бот, скачивающий страницы для проверки их доступности, — YandexAccessibilityBot/3.0.
  • Робот, определяющий зеркала проектов, — YandexBot/3.0; MirrorDetector.
  • Бот, индексирующий картинки, — YandexImages/3.0.
  • Бот, который скачивает фавиконы сайтов. — YandexFavicons/1.0.
  • Краулер, индексирующий мультимедийный контент, — YandexMedia/3.0.
  • Бот, собирающий материалы для Яндекс.Новостей, — YandexNews/4.0.
  • Краулеры Яндекс.Метрики — YandexMetrika/2.0, YandexMetrika/3.0.

 

Управление поисковыми роботами

Например, нижеприведенный код в файле robots.txt запрещает роботу Яндекс.Картинок индексировать все изображения.

User-agent: YandexImagesDisallow: /

А этот запрещает главному поисковому роботу Google индексировать страницу, на которой размещен данный тег: <meta name=”googlebot” content=”noindex, follow”/>

 

А что на тёмной стороне?

Это несомненно круто, что вы можете за пару секунд найти необходимую вам информацию через поиск. Но давайте рассмотрим как это может применяться в злых целях:

  • OSINT – через поиск не так трудно выйти на личную информацию, а значит пополнить копилочку компроматов на недруга.
  • Невозможность удаления – многие думают что удалить личную информацию не составит труда, но вы ошибаетесь. Часто в гугл работают мудаки, и слушать ваши просьбы они не захотят.

По итогам

Разный контент обрабатывается ботами в разной последовательности. Это позволяет одновременно обрабатывать огромные массивы данных. Благодаря краулерам мы можем каждый день искать нужную нам информацию. Робот сам может искать страницы, и такая программа не требует особых затрат на сотрудников. Но есть и темные стороны, как OSINT через поиск, отказ удалять информацию и т.д.

Закрывать информацию от индексирования лучше с помощью метатега  <meta name=”robots” content=”nofollow”/> или http-заголовка X-Robot tag, так как файл robots.txt содержит лишь рекомендации по сканированию, а не прямые команды к действию.

 

RuCoreNET - лучшее для вас!


Поделись статьей с друзьями


65 просмотров


0 0 vote
Рейтинг статьи
Подписаться
Уведомление о
guest
0 Комментарий
Inline Feedbacks
View all comments


Do NOT follow this link or you will be banned from the site!
0
Would love your thoughts, please comment.x
()
x

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: