Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Зарабатываем деньги на собственных сайтах - Использование файла robots.txt при продвижении сайта


Многие вообще не знают о существовании этого файла, а не то что об использовании при продвижении. Поэтому для начала немного азов.

Файл robots.txt предназначен только для поисковых систем и на функционировании самого сайта никак не отражается. В этом документе задаются правила индексации для поисковых роботов. С помощью общепринятых команд, в нем задается какие страницы и разделы сайта поисковым системам нужно индексировать и какие не нужно.

Пожарная безопасность в Санкт-ПетербургеТакже здесь можно, и даже нужно указывать, как правильно индексировать сайт с www или без www, указывать путь к карте сайта в формате xml. Еще один из параметров, который может использоваться в robots — это директива Crawl-delay. При большой нагрузке на сервер, когда не успевают отрабатываться запросы на закачку, можно воспользоваться директивой «Crawl-delay». Она позволяет задать поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей.

Итак, для начала шаблон файла robots.txt в чистом виде:

User-agent: *
Allow: /

В строке «User-agent» указывается для какой поисковой системы идут нижеследующие команды. Это может быть Yandex, Google или другие поисковые роботы. Если указать значок *, то команды будут восприниматься всеми поисковиками. Если для разных поисковых роботов нужно указать разные команды, то можно сделать так:

User-agent:  Yandex
Allow: /
 
User-agent:  Google
Allow: /

Команда «Allow: /» говорит о том, что нужно индексировать весь сайт полностью. Если нужно запретить какие-то разделы или страницы, то используется команда «Disallow: /».
Например так:

User-agent:  Google
Disallow: /

Здесь мы запретили весь сайт к индексации в поисковой системе Google. Если указать так Disallow: /reliz , то будут запрещены все адреса начинающиеся с раздела «/reliz». Чтобы запретить только сам раздел, а остальные страницы в нем оставить разрешенными к индексации, нужно сделать так:

User-agent:  Google
Disallow: /reliz$

Спецсимвол $ говорит о том, что следующие после раздела reliz/, адреса не запрещены к индексации.
А теперь собственно перейду к использовании файла robots.txt при продвижении сайта. Какая может быть извлечена польза от применения этого документа.

Самое первое, что нужно сделать при начале продвижения сайта в robots.txt — это указать директиву Host. Она определяет какое из зеркал вашего сайта будет главным. Если даже у вашего сайта нет зеркал, то все равно нужно указать, как индексировать ваш сайт — с www  или без него. Так как, если вы будете продвигать сайт без www и ставить ссылки на сайт тоже без www, а Яндекс решит, что главным является зеркало вашего сайта с www, то ссылки не будут производить нужного эффекта до тех пор пока домены с www и без него не склеятся. А склейку Яндекс может произвести очень не скоро.

Как правильно выбрать Host для продвижения сайта и указать его в роботе.

Для определения как лучше продвигать сайт, с www или без www, идем в расширенный поиск Яндекса и в поле «На сайте:» вводим адрес продвигаемого сайта. Смотрим в результатах выдачи как выдается адрес сайта с www или без него. Соответственно как выдается, так и продвигаем. Если в результатах присутствуют адреса как с www, так и без него, то выбирать вам. При выборе можно ориентироваться на уже имеющиеся ссылки на сайт, каких больше (с www или без него) так и продвигаем сайт.

Когда определились какой будет Host, записываем это в файл роботс.

Так:

User-agent: *
Allow: /
 
Host: olimp-blog.ru

Или так:

User-agent: *
Allow: /
 
Host: www.olimp-blog.ru

Чем еще может пригодится robots при продвижении. Бывает, что при продвижении клиентского сайта вы выбираете какую-то страницу под определенные запросы, а на сайте есть клоны этой страницы или страницы с похожим текстом. И с каждым апдейтом Яндекс выдает то одну из этих страниц, то другую. Убрать страницы совсем или изменить текст не согласен клиент, а нужно что-то делать. Тогда с помощью robots.txt запрещаем к индексации мешающие страницы для той поисковой системы, где вы продвигаете ресурс.

Например так:

User-agent: *
Allow: /
User-agent:  Yandex
Disallow: /reliz
Disallow: /obzor
Disallow: /news
 
Host: www.olimp-blog.ru

Также можно сделать запрет определенных рубрик или страниц сайта, используя маску. Для этого применяется  символ «*» в файле robots.txt.

С помощью этого символа можно блокировать страницы по маске, например если добавить директиву

Disallow: /*print:page/*

будут заблокированы к индексации страницы урл которых содержит словосочетание «print:page». Можно запретить также таким образом

Disallow: /*print:page

Тогда будут запрещены все страницы с адресом заканчивающимся на «print:page», например «katalog/print:page», если же адрес будет такого вида «print:page/katalog», то он не будет запрещен.

И наоборот, если поставить такую директиву /print:page/*, то будут запрещены все адреса начинающиеся с «print:page», например /print:page/katalog

Теперь еще одна не обязательная, но желательная запись в роботе — ссылка на карту сайта в формате xml. Указать ее на сайте не всегда возможно, поэтому лучше всего разместить ее в файле robots.txt.

User-agent: *
Allow: /
User-agent:  Yandex
Disallow: /reliz
Disallow: /obzor
Disallow: /news
 
Host: www.olimp-blog.ru
Sitemap: http://olimp-blog.ru/sitemap.xml

И вот у нас готов настроенный файл robots. В любой момент, при каких-либо изменениях вы всегда сможете изменить этот документ и при следующей проверке поисковиками роботса, изменения вступят в силу. При составлении документа robots.txt необходимо помнить, что у робота есть разумное ограничение на его размер. Слишком большие robots.txt (более 256 Кб) считаются полностью разрешающими.

Готовый файл robots.txt помещается в корень сайта и должен быть доступен по адресу вашего сайта, например так: http://olimp-blog.ru/robots.txt

Советую почитать:


В избранное