Файл robots.txt — зачем он?

Если ваш ресурс не входит в топы по популярности и узнаваемости, тогда основные посетители приходят на него через поисковые системы. При создании нового веб-сайта, необходимо уделить внимание индексации поисковиками, такими как Яндекс и Google. Сложная и постоянно пополняющаяся база данных поисковых гигантов пополняется благодаря поисковому роботу. Робот запрашивает страницы с сайтов, индексирует, отслеживает изменения и в этом, не маловажную роль играет файл robots.txt именно его запрашивает в первую очередь индексирующий робот.

Robots.txt – это просто текстовый файл, в котором находятся инструкции и некие правила индексации и не индексации страниц и разделов интернет-сайта. Но для чего это нужно?

  1. На веб-сервере могут находится конфиденциальные данные, которые не должны попасть в поисковую выдачу;
  2. Сайты ведут логи посещения и ошибок, создают кэшированные и временные данные, которые не нужно индексировать;
  3. Т.к. большинство сайтов в интернете используют CMS, то многие страницы, файлы ядра, и страницы генерируемые с помощью GET запроса, являются мусором е пригодным для индексации;
  4. Структура ресурса опубликованного в интернете может подразумевать дублирование контента на разных страницах, а дубли в индексе – не к чему.

Есть ресурсы, которые разработаны для определенных людей или организаций: различные CRM, сайты для дилеров и реселлеров, база документов и т.д. В любом случае их необходимо делать закрытыми и вход только по паре логин-пароль, но если нет такой возможности, можно попробовать запретить индексацию через robots.txt совсем.

Правила индексации в robots.txt

Robots.txt – можно взять уже готовый, который предусмотрен для вашей CMS, отредактировать его под свои нужды и опубликовать в корне сайта, или написать свой с нуля. В строке User-agent есть возможность указать поискового бота, для которого создаются правила индексации веб-сайта. При необходимости для каждого робота, можно сделать набор своих правил для индексации. Так же, если вы используете CMS, файл robots.txt может быть сгенерирован автоматически.

Создание файла robots.txt вручную

Открываете свой текстовый редактор, например Notepad++ или простой Блокнот, нажимаете «Сохранить» и вводите название файла – «robots.txt» без кавычек, маленкими-строчными буквами и желательно в кодировке UTF-8 (без BOM). Файл пустой, или файл не загружен в корень сайта – поисковые пауки индексируют все страниц и документы, до которых могут дотянуться их лапки. Как было сказано выше, оператор User-agent объявляет, для какого поисковика предназначен набор правил индексации под ним. Disallow – это единичное правило ограничения индексации раздела, страницы или директории (папки) на веб сервере. Например, в файле будут написаны следующие значения:

User-Agent: Yandex
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /login/
Disallow: /logs/
Disallow: /registration/
Disallow: /search/

Это значить, что поисковый паук индексации «Яндекса» не должен индексировать директорию на сайте: admin, cgi-bin, login, logs, registration, search. Т.е. раздел администрирования (админка), страница регистрации, авторизации и внутренний поиск по сайту – не нужно индексировать, т.к. там нет полезной информации. В папке logs – хранятся данные по серверным события, ошибки, предупреждения и пр. Cgi-bin – содержит скрипты для некоторый функций сайта или может быть пустой. Под функциями подразумевается функционал, а не function, хотя возможен и такой вариант.

User-agent

Например, в PHP, $_SERVER[‘HTTP_USER_AGENT’] – выводит информацию о браузере пользователя, вот для Internet Explorer 10: Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; Trident/6.0).  В файле robots.txt могут быть указаны правила для каждого поискового робота или общие для всех «User-Agent: *». Вот основые поисковики и их обозначение – идентификатор для User-Agent:

  • Google — Googlebot
  • Яндекс — Yandex
  • Мэйл.ру — Mail.Ru
  • Рамблер — StackRambler
  • Yahoo! — Slurp
  • Bing — bingbot
  • MSN — MSNBot
  • Live — MSNBot
  • AltaVista — Scooter
  • Alexa — ia_archiver

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*