Отправляет email-рассылки с помощью сервиса Sendsay

HTML. Хочу знать все!

  Все выпуски  

HTML. Хочу знать все! выпуск девятнадцатый


Информационный Канал Subscribe.Ru

Рассылка для всех, кто использует HTML в своей работе

HTML. Хочу знать ВСЕ!

Выпуск #19
Письмо автору
Хостинг от 1.2$ в месяц
Скрипты для web-мастера HTML для чайников

Замечания о содейтсвии поисковым машинам в индексировании веб-сайта

Здесь приводятся некоторые простые советы, которые сделают документы более доступными для поисковых машин.

Определите язык документа
В глобальном контексте Web важно знать, на каком языке создается страница.
Укажите языковые варианты документа
Если Вы подготовили переводы документа на другие языки, используйте элемент LINK для ссылки на них. Это позволит индексным машинам предлагать пользователям результаты поиска на предпочитаемом пользователем языке, независимо от построения запроса. Например, следующие ссылки предлагают поисковой машине французскую и немецкую версии:


<LINK rel="alternate" 
         type="text/html"
         href="mydoc-fr.html" hreflang="fr"
         lang="fr" title="La vie souterraine">
<LINK rel="alternate" 
         type="text/html"
         href="mydoc-de.html" hreflang="de"
         lang="de" title="Das Leben im Untergrund">
Задавайте ключевые слова и описания
Некоторые индексирующие машины проводят поиск элементов META, в которых определяется разделенный запятыми список ключевых слов/фраз или дается краткое описание. Поисковые машины могут представлять эти ключевые слова как результат поиска. Рассмотрим следующие примеры,


<META name="keywords" content="отпуск,Греция,солнце">
<META name="description" content="Идиллический отпуск в Европе">
Укажите начало набора
Наборы документов или представлений систем обработки текстов часто переводятся в наборы документов HTML. Для поисковых машин полезно указать ссылку на начало набора в дополнение к попаданию страницы в результаты поиска. Вы можете помочь поисковым машинам с помощью элемента LINK с атрибутом rel="begin" и TITLE, как показано в следующем примере:

 
<LINK rel="begin" 
         type="text/html"
         href="page1.html" 
         title="Общая теория относительности">
Предоставьте роботам инструкции по индексированию
Люди могут удивиться, узнав, что их сайт проиндексирован роботом, и не получил доступа к значительной части сайта. Многие Web-роботы предлагают администраторам Web-сайтов возможности ограничения действий роботов. Это достигается с помощью двух механизмов: файла "robots.txt" и элемента META в документах HTML.

Поисковые роботы

Файл robots.txt

Когда робот просматривает Web-сайт, например, http://www.foobar.com/, сначала он проверяет файл http://www.foobar.com/robots.txt. Если этот документ обнаружен, он анализирует его содержимое и смотрит, позволено ли загрузить документ. Вы можете настроить файл robots.txt только для конкретных роботов и запретить доступ к определенным каталогам или файлам.

Вот пример файла robots.txt, запрещающего доступ ко всему сайту всем роботам

        User-agent: *    # применяется ко всем роботам
        Disallow: /      # запретить индексацию всех страниц

Робот просто найдет файл "/robots.txt" на Вашем сайте, где сайт - это сервер HTTP, работающий на определенной машине и порте. Вот некоторые примеры расположения файла robots.txt:

URI сайтаURI файла robots.txt
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

На одном сайте может быть один файл "/robots.txt". Точнее, не следует помещать файлы "robots.txt" в каталоги пользователей, поскольку робот их не найдет. Если Вы хотите, чтобы пользователи могли создавать свои собственные файлы "robots.txt", нужно будет объединить их все в один файл "/robots.txt". Если Вы не сделаете так, пользователи могут использовать вместо этого тег Robots META.

Некоторые советы: URI учитывают регистр, и строка "/robots.txt" должна всегда быть в нижнем регистре. Пустые строки запрещены.

В каждой записи должно быть ровно одно поле "User-agent". Робот должен свободно интерпретировать это поле. Рекомендуется строка без учета регистра, совпадающая с именем и не включающая информацию о версии.

Если указано значение "*", запись описывает политику доступа по умолчанию для любого робота, не соответствующего другим записям. В файле "/robots.txt" не может быть несколько таких записей.

В поле "Disallow" задается частичный URI, который посещать запрещено. Это может быть полный или частичный путь; любой URI, начинающийся с этого значения, нельзя будет загрузить. Например,

    Disallow: /help запрещает доступ к /help.html и /help/index.html, в то время как 
    Disallow: /help/ запретит доступ к /help/index.html, но разрешит доступ /help.html. 

Пустое значение параметра "Disallow" означает, что все URI могут загружаться. В файле robots.txt должно быть по крайней мере одно поле "Disallow" .

Роботы и элемент META

Элемент META позволяет авторам документов HTML сообщать роботам о том, может ли документ быть проиндексирован или может ли он использоваться для получения дополнительных ссылок. Для этого не требуется вмешательство администратора сервера.

В следующем примере робот не будет ни индексировать сайт, ни анализировать ссылки.


<META name="ROBOTS" content="NOINDEX, NOFOLLOW">

В атрибуте content могут содержаться следующие слова: ALL, INDEX, NOFOLLOW, NOINDEX. Значения атрибутов name и content учитывают регистр.

Примечание. Работает не со всеми поисковыми роботами.


Как зарабатывать 500$ в месяц с помощью мобильного телефона

Письмо автору
Хостинг от 1.2$ в месяц
Скрипты для web-мастера HTML для чайников

© NBUSINESS.RU


Subscribe.Ru
Поддержка подписчиков
Другие рассылки этой тематики
Другие рассылки этого автора
Подписан адрес:
Код этой рассылки: inet.webbuild.webhtml
Отписаться
Вспомнить пароль

В избранное