После того как вы проделали основную работу по оптимизации страницы, т.е. переработали содержание документа с использованием ключевых слов и проверили программой Meta Tuner частоту их встречаемости, необходимо довести мета теги.
Существует достаточно большая группа мета тег позволяющая достаточно точно настраивать ваш документ. Ранее мы уже рассмотрели теги описания и ключевых слов - <Description>, <Keywords>.
<meta name="description" content="описание содержания документа">
<meta name="keywords" content=" ключевые слова через пробел по убыванию">
Остальные мета теги (управление индексированием, кэшированием, тип документа и т.д.) я рекомендую сформировать с помощью специальных программ упрощающих этот процесс. Вот, к примеру, одна из таких профессиональных разработок - TagPromoter.
Следующее, на что я хотел бы обратить Ваше внимание - это наличие на страницах вашего сайта "мусора". Это счетчики, кнопочки, отдельные ссылочки не относящиеся к контенту документа и кроме того при определенной структуре документа они могут выводиться в результатах поиска в описании. Простой пример - если ваша страничка построена табличкой в два столбца. В первом размещены счетчики, а только в другом - текст, то очень велика вероятность того, что в описании поисковых результатов сперва будут идти надписи из описания ссылок (title) счетчиков и уж затем оставшаяся часть текста. Счетчики оказались выше в html-коде, нежели сам текст. В таких случаях для того, что бы нежелательные элементы не выводились и не индексировались, следует их обрамлять тегом <noindex></noindex>.
Документы вашего сайта по их значимости можно разделить на несколько типов или групп. К первой группе относятся рабочие документы, т.е. страницы с релевантным содержанием. Следующая группа документов - это вспомогательные документы, не имеющие или же имеющие, но очень низкую релевантность (мало текста, тематика не определена…). К примеру, форма обратной связи.
Соответственно разрешать SE индексировать вспомогательную группу документов не целесообразно по двум весомым причинам - 1) их индексация снизит (разжижит) общую релевантность Вашего ресурса, 2) замедлит индексацию рабочей группы документов.
Кроме этого управление индексацией позволяет скрыть от SE служебные или же приватные папки и документы на сервере. Кроме этого документы могут быть динамичными или статичными.
Управление индексацией возможно двумя способами.
1) Управление индексацией на сервере с помощью файла robots.txt
Этот способ позволяет выборочно, ориентируясь на имена поисковых машин запрещать индексировать файлы и каталоги.
Для лучшей и своевременной индексации наличие этого файла в корневом каталоге сервера обязательно, т.к. некоторые SE проводят индексацию только при наличии robots.txt. Запрещать к индексации следует скрипты, служебные каталоги.
Файл robots.txt формируется из записей, по две строки в каждой. User-agent - содержит имя робота, Disallow - перечень закрываемых каталогов. Имена каталогов и файлов на сервере рекомендуется всегда писать на нижнем регистре.
Пример, записи, который полностью разрешает индексацию сайта:
User-agent: * # относится ко всем роботам
Disallow: # ни каких запретов
Звездочка в строке User-agent - запись относится ко всем роботам.
Строка Disallow не содержит записей, что означает отсутствие запретов.
Единственный символ, который можно использовать в строке Disallow, это косая черта /, она означает, что доступ ко всем каталогам и файлам на этом сервере закрыт.
Пример, записи, запрещающей, все и всем:
User-agent: *
Disallow: /
Первая строка говорит, что данная рекомендация относится ко всем роботам. Вторая строка блокирует (рекомендательно) доступ ко всем файлам и каталогам сервера.
В строке User-agent вместо звездочки могут быть указаны имена конкретных роботов, через пробел. Тогда запрещающий тег будет выглядеть так: User-agent: Scooter Spidey T-Rex
Пример, запрета индексации файлов в служебных каталогах:
User-Agent: *
Disallow: /cgi-bin/ /img/ /news/img/ # служебные каталоги
Файл robots.txt может содержать несколько записей как для одного, так и для нескольких роботов.
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
Можно накладывать ограничения и на отдельные файлы:
User-agent: *
Disallow: /my/my.html
Disallow: /docs/mydoc.html
2) Управление индексацией страницы с помощью мета тега ROBOTS.
<meta name="ROBOTS" content="index,follow">
Значение свойства Robots может состоять из следующих директив, разделенных запятыми:
- Index - эта страница должна быть индексирована.
- Noindex - эта страница не должна индексироваться.
- Follow - прослеживать гиперссылки на странице.
- Nofollow - не прослеживать гиперссылки на странице.
- All - = index, follow (принято по умолчанию).
- None - = noindex, nofollow.
(некоторые пауки не воспринимают директивы Follow и Nofollow)
Если страница создается динамически или очень часто обновляется, то нет смысла ее индексировать, так как информация о странице в поисковой машине и ее истинное содержание будут разными. В этом случае следует не индексировать эту страницу, а только отслеживать на ней гиперссылки, что бы проиндексировать остальную часть сайта <META name=Robots content="noindex,follow">.
Подобное написание также применимо в отношении группы вспомогательных документов.
META-тег Robots имеет приоритет над директивами управления, заданными в файле robots.txt. Если в файле robots.txt разрешается индексировать все файлы в каталоге, то блокирующий META тег может запретить индексирование страницы, находящейся в этом каталоге.