Зарабатываем деньги на собственных сайтах - Использование файла robots.txt при продвижении сайта
Многие вообще не знают о существовании
этого файла, а не то что об использовании при продвижении. Поэтому для
начала немного азов.
Файл robots.txt предназначен только для
поисковых систем и на функционировании самого сайта никак не
отражается. В этом документе задаются правила индексации
для поисковых роботов. С помощью общепринятых команд, в нем задается
какие страницы и разделы сайта поисковым системам нужно индексировать и
какие не нужно.
Также
здесь можно, и даже нужно указывать, как правильно индексировать сайт с
www или без www, указывать путь к карте сайта в формате xml. Еще один
из параметров, который может использоваться в robots — это директива
Crawl-delay. При большой нагрузке на сервер, когда не успевают
отрабатываться запросы на закачку, можно воспользоваться директивой
«Crawl-delay». Она позволяет задать поисковому роботу минимальный
период времени (в секундах) между концом закачки одной страницы и
началом закачки следующей.
Итак, для начала шаблон файла robots.txt в чистом виде:
User-agent:* Allow: /
В строке «User-agent» указывается для
какой поисковой системы идут нижеследующие команды. Это может быть
Yandex, Google или другие поисковые роботы. Если указать значок *, то
команды будут восприниматься всеми поисковиками. Если для разных
поисковых роботов нужно указать разные команды, то можно сделать так:
User-agent: Yandex Allow: /
User-agent: Google Allow: /
Команда «Allow: /» говорит о том, что
нужно индексировать весь сайт полностью. Если нужно запретить какие-то
разделы или страницы, то используется команда «Disallow: /».
Например так:
User-agent: Google Disallow: /
Здесь мы запретили весь сайт к индексации
в поисковой системе Google. Если указать так Disallow: /reliz , то
будут запрещены все адреса начинающиеся с раздела «/reliz». Чтобы
запретить только сам раздел, а остальные страницы в нем оставить
разрешенными к индексации, нужно сделать так:
User-agent: Google Disallow: /reliz$
Спецсимвол $ говорит о том, что следующие после раздела reliz/, адреса не запрещены к индексации.
А теперь собственно перейду к использовании файла robots.txt при
продвижении сайта. Какая может быть извлечена польза от применения
этого документа.
Самое первое, что нужно сделать при
начале продвижения сайта в robots.txt — это указать директиву Host. Она
определяет какое из зеркал вашего сайта будет главным. Если даже у
вашего сайта нет зеркал, то все равно нужно указать, как индексировать
ваш сайт — с www или без него. Так как, если вы будете продвигать сайт
без www и ставить ссылки на сайт тоже без www, а Яндекс решит, что
главным является зеркало вашего сайта с www, то ссылки не будут
производить нужного эффекта до тех пор пока домены с www и без него не
склеятся. А склейку Яндекс может произвести очень не скоро.
Как правильно выбрать Host для продвижения сайта и указать его в роботе.
Для определения как лучше продвигать сайт, с www или без www, идем в расширенный поиск Яндекса
и в поле «На сайте:» вводим адрес продвигаемого сайта. Смотрим в
результатах выдачи как выдается адрес сайта с www или без него.
Соответственно как выдается, так и продвигаем. Если в результатах
присутствуют адреса как с www, так и без него, то выбирать вам. При
выборе можно ориентироваться на уже имеющиеся ссылки на сайт, каких
больше (с www или без него) так и продвигаем сайт.
Когда определились какой будет Host, записываем это в файл роботс.
Так:
User-agent:* Allow: /
Host: olimp-blog.ru
Или так:
User-agent:* Allow: /
Host: www.olimp-blog.ru
Чем еще может пригодится robots при
продвижении. Бывает, что при продвижении клиентского сайта вы выбираете
какую-то страницу под определенные запросы, а на сайте есть клоны этой
страницы или страницы с похожим текстом. И с каждым апдейтом Яндекс
выдает то одну из этих страниц, то другую. Убрать страницы совсем или
изменить текст не согласен клиент, а нужно что-то делать. Тогда с
помощью robots.txt запрещаем к индексации мешающие страницы для той поисковой системы, где вы продвигаете ресурс.
Также можно сделать запрет определенных
рубрик или страниц сайта, используя маску. Для этого применяется
символ «*» в файле robots.txt.
С помощью этого символа можно блокировать страницы по маске, например если добавить директиву
Disallow:/*print:page/*
будут заблокированы к индексации страницы урл которых содержит словосочетание «print:page». Можно запретить также таким образом
Disallow:/*print:page
Тогда будут запрещены все страницы с
адресом заканчивающимся на «print:page», например «katalog/print:page»,
если же адрес будет такого вида «print:page/katalog», то он не будет
запрещен.
И наоборот, если поставить такую
директиву /print:page/*, то будут запрещены все адреса начинающиеся с
«print:page», например /print:page/katalog
Теперь еще одна не обязательная, но
желательная запись в роботе — ссылка на карту сайта в формате xml.
Указать ее на сайте не всегда возможно, поэтому лучше всего разместить
ее в файле robots.txt.
И вот у нас готов настроенный файл
robots. В любой момент, при каких-либо изменениях вы всегда сможете
изменить этот документ и при следующей проверке поисковиками роботса,
изменения вступят в силу. При составлении документа robots.txt
необходимо помнить, что у робота есть разумное ограничение на его
размер. Слишком большие robots.txt (более 256 Кб) считаются полностью
разрешающими.
Готовый файл robots.txt помещается в корень сайта и должен быть доступен по адресу вашего сайта, например так: http://olimp-blog.ru/robots.txt