Важность файла robots в раскрутке и продвижении сайта / Статьи / SX CMS

Поисковые роботы, прежде чем индексировать ваш ресурс пытаются найти файл robots.txt, в корне каталоге сайта (домена). В этом файле содержатся команды для пауков-индексаторов, что индексировать на сайте, а что игнорировать.
Существуют определенные правила написания команд для понимания их поисковыми роботами. Обязательным условием создание этого файла является кодировка Unix, иначе робот, может не понять кодировки и будет индексировать сайт полностью.
Распространенной и частой ошибкой считается корректировка robots.txt в кодировке dos. Некоторые роботы все же понимают эту кодировку, но не стоит все-таки ошибаться. Редактируйте в кодировке UNIX, и закачивайте на хостинг в ASCII. Очень многие на такие тонкости не обращают внимание, а потом не понимают, почему пауком индексируется все, что не нужно.
Не нужно указывать несколько директив в одну строку, например:
Disallow: /cgi/ /img/
Неизвестно как пауки могут понять такой синтаксис. Одни поймут запрет на индексацию первой директивы (/cgi/), а вторую могут вообще проигнорировать. Правильным написанием такой директивы будет написание каждой команды на запрет индексации папки отдельно:
Disallow: /cgi/
Disallow: /img/
Часто можно встретить ошибку как перевернутое написание, например:
User-agent: silk.php (должно быть указано для какого паука действует)
Disallow: * (что именно запрещается)
Правильным будет такое написание:
User-agent: * (директива будет понятна для всех пауков)
Disallow: silk.php (означает запрет индексации файла)
Некоторые случайно вставляют пробелы с начала строки. Хотя об этом нигде не говорится, но лучше их убрать. Пробелы не считаются хорошим тоном.
Некоторые делают ошибку и пишут директивы, которые конфликтуют между собой, например:
User-agent: *
Disallow: /#
User-agent: googlebot
Disallow:
Первая команда запрещает индексацию сайта всем паукам, а вторая разрешает googlebot индексировать сайт. Лучше отказаться от такого написания, так как нам неизвестно как воспримут такую команду роботы.
Отсутствие после команды "слеша", может не разобраться что это, файл или папка и скорее всего не будет индексировать:
User-agent: *
Disallow: seo
Для верности директивы используйте "слеш".
Итак, существует огромное количество ошибок в написании файла robots.txt и пересчитать их практически невозможно, да и не нужно.
Правильным действием после закачки файла robots.txt на хостинг, будет проверка его через браузер.