Все выпуски  

В помощь начинающим и профессиональным сайтостроителям! Задаем правила индексации с robots.txt


Сегодня рассмотрим файл robots.txt. Этот файл частично контролирует индексацию сайта поисковыми системами. Что именно контролирует? В нем задаются страницы и/или разделы сайта, которые запрещены к индексации и которые не нужно индексировать. Кроме этого может содержать обратную информацию. Например, можно сделать так, чтобы доступ к разделу /news/ был запрещен для всех страниц, кроме /news/page.html. Ну и кроме всего этого может содержать и другую информацию, но она нам будет не очень интересна, хотя частична будем упомянута.

Файл должен находится в корне сайта и иметь относительно корня ссылку http://www.yousite.ru/robots.txt

В общем виде, файл robots.txt должен содержать как минимум две строки:

 User-agent: *
 Disallow: /images/

Это я привел в пример. У каждого будет своё второе правило. Объясню немного. В первой строке указываются роботы, для которых будут действовать нижеописанные правила. Звездочка * означает, что правила будут действовать для всех ботов. Вместо * можно вписывать имя бота, если нужно поставить ограничение только для конкретной ПС. Вторая строка указывает боту на то, что раздел /images/ индексировать не надо. Этот раздел указан для примера, вы указываете свой.

Кроме правила Disallow, который запрещает индексацию, есть обратное правило Allow, которое, как вы наверное поняли уже, разрешает индексацию страниц. Обычно это правило используется в редких случаях для того, чтобы разрешить индексацию только для отдельной папки или страницы раздела, который запрещен к индексации правилом Disallow.

В файле robots.txt НЕ НУЖНО указывать ссылки на админ-панели или на файл конфигурации.

Хорошим примером файла robots.txt для блога WordPress может быть следующий код, если конечно вы пользуетесь ЧПУ, который вы смело можете использовать на своем блоге:

User-agent: *
Allow: /wp-content/uploads/
Disallow: */comment-page
Disallow: */comments/
Disallow: */feed/
Disallow: */trackback/
Disallow: /category/
Disallow: /page/
Disallow: /tag/
Disallow: /wp-
Disallow: /xmlrpc.php
Disallow: */?*

Хорошим примером файла robots.txt для форума phpBB может быть следующий код, который вы смело можете использовать на своем форуме:

User-agent: *
Disallow: /cache/
Disallow: /download/
Disallow: /files/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /store/
Disallow: /styles/
Disallow: /common.php
Disallow: /cron.php
Disallow: /memberlist.php
Disallow: /mcp.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /style.php
Disallow: /ucp.php

Кстати, отличным дополнение кода будет следующая строка:

Sitemap: http://www.yoursite.ru/sitemap.xml

Как вы понимаете наверное, эта строка показывает поисковым системам ссылку на карту Вашего сайта. Это облегчит и ускорит индексацию вашего сайта.

Думаю Вам этого хватит для составления нужного содержания файла robots.txt.

Для того, чтобы проверить, правильно ли вы составили файл robots.txt, можно воспользоваться анализатором robots.txt Яндекса. 

Материал с блога 


В избранное