Отправляет email-рассылки с помощью сервиса Sendsay

Раскрутка сайта. Шаг за шагом.

  Все выпуски  

Раскрутка сайта. Шаг за шагом. Все, все, все о Robots.txt


Информационный Канал Subscribe.Ru

Выпуск 22

Раскрутка сайта. Шаг за шагом.

05 февраля 2005 года

 

 

Вершины достигает не тот, кто не падает, а тот, кто оступившись,
находит в себе силы подняться и продолжить восхождение!..


    Доброго времени суток! С Вами Зайцев Игорь и рассылка "Раскрутка сайта. Шаг за шагом". Спасибо всем, кто остался с нами, а так же я рад приветствовать новых подписчиков!

    Вы можете бесплатно скачать электронную книгу "27 способов продвижения сайта" по этой ссылке. Размер архива 389 кб.

  Но это еще не все!..

Уважаемые подписчики. Администрацией форума "КреаСофт" принято решение награждать самого активного участника форума по итогам месяца книгой Дмитрия Кирсанова "Веб-дизайн" (изд. Символ-Плюс, 376 страниц).

По итогам января победителем стал Долгушев Василий. Поздравляем победителя!

  Эта книга - первый полный курс веб-дизайна на русском языке, написанный профессиональным дизайнером. От теоретических основ визуального дизайна до интернетовских технологий и приемов практической работы над сайтом - все это есть в книге, написанной понятно, подробно и увлекательно. Издание будет интересно не только начинающим авторам сайтов, но и дизайнерам, работающим в более традиционных областях, специалистам по рекламе и маркетингу, художникам, программистам, - и, конечно же, всем творческим и любознательным людям.
Хотите и Вы получить эту замечательную книгу в подарок? От Вас требуется только зарегистрироваться и активно участвовать в обсуждении тем форума!
Сезон подарков еще не закончен! Сегодня я хочу предложить Вам, мои уважаемые подписчики, еще одну электронную книгу. Эта книга написана уже в 2005 году, поэтому в сети ее еще просто не существует. Вы будете ее первыми читателями! Вот эта книга:
  Александр Костров. "Как правильно выбрать хостинг"

В книге подробно рассмотрены такие вопросы, как:
Почему хостинг должен быть платным?
О хостинге и доменах.
Выбор доменного имени.
Выбор хостинга.
Выбор тарифного плана.

Подписчики моей рассылки могут бесплатно скачать эту книгу на моем сайте! (Объем 50 кб.)

   Сегодня в рассылке:


1. Все, все, все о Robots.txt
2. МЕТА-тег robots
3. Обмен ссылками


Что мы можем предложить для Вас. Практически все: это создание логотипов для сайта, банеров, создание сайтов, установка форумов, порталов и других скриптов. Для Вас наши сервисы гостевых книг, форумов, банерные сети по раскрутки сайтов и много другое.

 Мы так же предоставим Вам бесплатный хостинг и будем с Вами на протяжение всего времени. Мы предлагаем Вам наши сервисы: Рейтинг сайтов и получить счетчик, каталог сайтов, бесплатная банерная сеть WCS, бесплатный сервис гостевых книг и многое другое

К Вашим услугам и наш форум, в котором вы сможете с пользой провести время: узнать много нового, пообщаться на интересующие Вас темы и просто отдохнуть. Добро пожаловать!

Все, все, все о Robots.txt

Robots.txt Tutorial
автор: www.searchengineworld.com
перевод: Александр Качанов

Robots.txt

Поисковые сервера всегда перед индексацией вашего ресурса ищут в корневом каталоге вашего домена файл с именем "robots.txt" (http://www.mydomain.com/robots.txt). Этот файл сообщает роботам (паукам-индексаторам), какие файлы они могут индексировать, а какие нет.

Формат файла robots.txt - особый. Он состоит из записей. Каждая запись состоит из двух полей: строки с названием клиентского приложения (user-agent), и одной или нескольких строк, начинающихся с директивы Disallow:

<Поле> ":" <значение>

Robots.txt должен создаваться в текстовом формате Unix. Большинство хороших текстовых редакторов уже умеют превращать символы перевода строки Windows в Unix. Либо ваш FTP-клиент должен уметь это делать. Для редактирования не пытайтесь пользоваться HTML-редактором, особенно таким, который не имеет текстового режима отображения кода.

Поле User-agent

Строка User-agent содержит название робота. Например:

User-agent: googlebot

Если вы обращаетесь ко всем роботам, вы можете использовать символ подстановки "*":

User-agent: *

Названия роботов вы можете найти в логах вашего веб-сервера. Для этого выберите только запросы к файлу robots.txt. большинство поисковых серверов присваивают короткие имена своим паукам-индексаторам.

Поле Disallow:

Вторая часть записи состоит из строк Disallow. Эти строки - директивы для данного робота. Они сообщают роботу какие файлы и/или каталоги роботу неразрешено индексировать. Например следующая директива запрещает паукам индексировать файл email.htm:

Disallow: email.htm

Директива может содержать и название каталога:

Disallow: /cgi-bin/

Эта директива запрещает паукам-индексаторам лезть в каталог "cgi-bin".

В директивах Disallow могут также использоваться и символы подстановки. Стандарт диктует, что директива /bob запретит паукам индексировать и /bob.html и /bob/index.html.

Если директива Disallow будет пустой, это значит, что робот может индексировать ВСЕ файлы. Как минимум одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы robots.txt считался верным. Полностью пустой robots.txt означает то же самое, как если бы его не было вообще.

Пробелы и комментарии

Любая строка в robots.txt, начинающаяся с #, считается комментарием. Стандарт разрешает использовать комментарии в конце строк с директивами, но это считается плохим стилем:

Disallow: bob #comment

Некоторые пауки не смогут правильно разобрать данную строку и вместо этого поймут ее как запрет на индексацию ресурсов bob#comment. Мораль такова, что комментарии должны быть на отдельной строке.

Пробел в начале строки разрешается, но не рекомендуется.

  Disallow: bob #comment

Примеры

Следующая директива разрешает всем роботам индексировать все ресурсы сайта, так как используется символ подстановки "*".

User-agent: *
Disallow:

Эта директива запрещает всем роботам это делать:

User-agent: *
Disallow: /

Данная директива запрещает всем роботам заходить в каталоги "cgi-bin" и "images":

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

Данная директива запрещает роботу Roverdog индексировать все файлы сервера:

User-agent: Roverdog
Disallow: /

Данная директива запрещает роботу googlebot индексировать файл cheese.htm:

User-agent: googlebot
Disallow: cheese.htm

Если вас интересуют более сложные примеры, попутайтесь вытянуть файл robots.txt с какого-нибудь крупного сайта, например CNN или Looksmart.

Дополнения к стандартам

Несмотря на то, что были предложения по расширению стандарта и введению директивы Allow или учета версии робота, эти предложения формально так и не были утверждены.

Поход в поисках robots.txt

При проверке нашего валидатора robots.txt, нам понадобилось найти много-много "корма" для него. Мы создали спайдер, который скачивал с каждого найденного сайта лишь один файл robots.txt. Мы прошлись по всем ссылкам и доменам, занесенным в Open Directory Project. Так мы прошлись по 2.4 миллионам URL и накопали файлов robots.txt примерно на 75 килобайт.

Во время этого похода мы обнаружили огромное количество проблем с файлами robots.txt. Мы увидели, что 5% robots.txt плохой стиль, а 2% файлов были настолько плохо написаны, что ни один робот не смог бы их понять. Вот список некоторых проблем, обнаруженных нами:

Перевернутый синтаксис

Одна из самых распространенных ошибок - перевернутый синтаксис:

User-agent: *
Disallow: scooter

А должно быть так:

User-agent: scooter
Disallow: *

Несколько директив Disallow в одной строке:

Многие указывали несколько директив на одной строке:

Disallow: /css/ /cgi-bin/ /images/

Различные пауки поймут эту директиву по разному. Некоторые проигнорируют пробелы и поймут директиву как запрет на индексацию каталога /css//cgi-bin//images/. Либо они возьмут только один каталог (/images/ или /css/) и проигнорируют все остальное.

Правильный синтаксис таков:

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

Перевод строки в формате DOS:

Еще одна распространенная ошибка - редактирование файла robots.txt в формате DOS. Несмотря на то, что из-за распространенности данной ошибки многие пауки-идексаторы научились понимать ее, мы считаем это ошибкой. Всегда редактируйте свой robots.txt в режиме UNIX и закачивайте файл на сайт в режиме ASCII. Многие FTP-клиенты умеют при закачке в текстовом режиме переводить символы строки из DOS-формата в UNIX-формат. Но некоторые этого не делают.

Комментарии в конце строки:

Согласно стандарту, это верно:

Disallow: /cgi-bin/ #this bans robots from our cgi-bin

Но в недавнем прошлом были роботы, которые заглатывали всю строку в качестве директивы. Сейчас нам такие роботы неизвестны, но оправдан ли риск? Размещайте комментарии на отдельной строке.

Пробелы в начале строки:

  Disallow: /cgi-bin/

Стандарт ничего не говорит по поводу пробелов, но это считается плохим стилем. И опять-таки, стоит ли рисковать?

Редирект на другую страницу при ошибке 404:

Весьма распространено, когда веб-сервер при ошибке 404 (Файл не найден) выдает клиенту особую страницу. При этом веб-сервер не выдает клиенту код ошибки и даже не делает редиректа. В этом случае робот не понимает, что файл robots.txt отсутствует, вместо этого он получит html-страницу с каким-то сообщением. Конечно никаких проблем здесь возникнуть не должно, но стоит ли рисковать? Бог знает, как разберет робот этот html-файл, приняв его за robots.txt. чтобы этого не происходило, поместите хотя бы пустой robots.txt в корневой каталог вашего веб-сервера.

Конфликты директив:

Чтобы вы сделали на месте робота slurp, увидев данные директивы?

User-agent: *
Disallow: /
#
User-agent: slurp
Disallow:

Первая директива запрещает всем роботам индексировать сайт, но вторая директива разрешает роботу slurp это делать. Так что же все-таки должен делать slurp? Мы не можем гарантировать, что все роботы поймут эти директивы правильно. В данном примере slurp должен проиндексировать весь сайт, а все остальные не должны уйти прямо с порога.

Верхний регистр всех букв - плохой стиль:

USER-AGENT: EXCITE
DISALLOW:

Несмотря на то, что стандарт безразлично относится к регистру букв в robots.txt, в именах каталогов и файлов регистр все-таки важен. Лучше всего следовать примерам и в верхнем регистре писать первые буквы только в словах User и Disallow.

Список всех файлов

Еще одна ошибка - перечисление всех файлов в каталоге:

Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html

Вышеприведенный пример можно заменить на:

Disallow: /AL
Disallow: /Az

Помните, что начальная наклонная черта обозначает, что речь идет о каталоге. Конечно, ничто не запрещает вам перечислить парочку файлов, но мы речь ведем о стиле. Данный пример взят из файла robots.txt, размер которого превышал 400 килобайт, в нем было упомянуто 4000 файлов! Интересно, сколько роботов-пауков, посмотрев на этот файл, решили больше не приходить на этот сайт.

Есть только директива Disallow!

Нет такой директивы Allow, есть только Disallow. Этот пример неверный:

User-agent: Spot
Disallow: /john/
allow: /jane/

Правильно будет так:

User-agent: Spot
Disallow: /john/
Disallow:

Нет открывающей наклонной черты:

Что должен сделать робот-паук с данной директивой:

User-agent: Spot
Disallow: john

Согласно стандартам эта директива запрещает индексировать файл "john" и каталог john". Но лучше всего, для верности, использовать наклонную черту, чтобы робот мог отличить файл от каталога.

Еще мы видели, как люди записывали в файл robots.txt ключевые слова для своего сайта (подумать только - для чего?).

Бывали такие файлы robots.txt, которые были сделаны в виде html-документов. Помните, во FrontPage делать robots.txt не стоит.

Неправильно настроенный сервер

Почему вдруг на запрос robots.txt веб-сервер выдает бинарный файл? Это происходит в том случае, если ваш веб-сервер настроен неправильно, либо вы неправильно закачали на сервер сам файл.

Всегда после того, как вы закачали файл robots.txt на сервер, проверяйте его. Достаточно в броузере набрать простой запрос:

http://www.mydomain.com/robots.txt

Вот и все что нужно для проверки.

Особенности Google:

Google - первый поисковый сервер, который поддерживает в директивах регулярные выражения. Что позволяет запрещать индексацию файлов по их расширениям.

User-agent: googlebot
Disallow:
*.cgi

В поле user-agent вам следует использовать имя "googlebot". Не рискуйте давать подобную директиву другим роботам-паукам.

 

Обсудить статью в форуме

     Уважаемые подписчики. У Вас есть возможность задать любой вопрос по теме раскрутки сайтов, не дожидаясь выхода следующего номера рассылки. Задать вопрос Вы можете в любое, удобное для Вас время в форуме "КреаСофт".

    Форум состоит из трех основных разделов, включающих в себя подразделы с темами для обсуждений:

    Раздел "Поисковая оптимизация - раскрутка сайта":
    Поисковая оптимизация - раскрутка сайта для русскоязычных поисковых машин - Все о раскрутке сайта в Яндексе, Рамблере, Апорте.
    Поисковая оптимизация - раскрутка сайта для англоязычных поисковых машин - Все о раскрутке сайта в Google.
    Обмен ссылками - Предложения по обмену ссылками.
    Бесплатная раскрутка - Обмен опытом по раскрутке.
    Новичкам о раскрутке сайта - Вопросы от новичков по раскрутке сайта.
    Рассылка по раскрутке сайта - Вопросы и обсуждения тем рассылки.
    Учебное пособие по раскрутке сайта - Раскрутка сайта. Шаг за шагом. (публикация выпусков нашей рассылки)

    Раздел "Создание сайтов":
    Сайт визитка - Создание самого простого сайта визитки.
    Каталог товаров - Создание сайта - каталога товаров.
    Интернет магазин - Создание сайта - интернет магазина.

    Раздел "Общий":
    О сайте - В этом разделе можно и нужно оставлять замечания и пожелания по сайту. Качественная критика по созданию самого сайта приветствуется.
    О форуме - Различные темы и направления, которые необходимо поднимать в форуме. Письма модераторам сайта.

 

МЕТА-тег robots

МЕТА тег robots служит для того, чтобы разрешать или запрещать роботам, приходящим на сайт, индексировать данную страницу. Кроме того, этот тег предназначен для того, чтобы предлагать роботам пройтись по всем страницам сайта и проиндексировать их. Сейчас этот тег приобретает все большее значение.

Кроме того, этим тегом могут воспользоваться те, кто не может доступиться к корневому каталогу сервера и изменить файл robots.txt.

Некоторые поисковые сервера, такие как Inktomi например, полностью понимают мета-тег robots. Inktomi пройдет по всем страницам сайта если значение данного тега будет "index,follow".

Формат мета-тега Robots

Мета тег robots помещается в тег html-документа. Формат достаточно прост (регистр букв значения не играет):

<HTML>
<HEAD>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<META NAME="DESCRIPTION" CONTENT="Эта страница ….">
<TITLE>...</TITLE>
</HEAD>
<BODY>

Значения мета-тега robots

Данному мета-тегу можно присвоить варианта четыре значений. Атрибут content может содержать следующие значения:

index, noindex, follow, nofollow

Если значений несколько, они разделяются запятыми.

В настоящее время лишь следующие значения важны:

Директива INDEX говорит роботу, что данную страницу можно индексировать.

Директива FOLLOW сообщает роботу, что ему разрешается пройтись по ссылкам, присутствующим на данной странице. Некоторые авторы утверждают, что при отсутствии данных значений, поисковые сервера по умолчанию действуют так, как если бы им даны были директивы INDEX и FOLLOW. К сожалению это не так по отношению к поисковому серверу Inktomi. Для Inktomi значения по умолчанию равны "index, nofollow".

Итак, глобальные директивы выглядят так:

Индексировать всё = INDEX, FOLLOW

Не индексировать ничего = NOINDEX,NOFLLOW

Примеры мета-тега robots:

<META NAME=ROBOTS" CONTENT="NOINDEX, FOLLOW">
<META NAME=ROBOTS" CONTENT="INDEX, NOFOLLOW">
<META NAME=ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

 

Обсудить статью в форуме

 

Обмен ссылками

Предложения, поступившие за прошедшую неделю:

Категория: Безопасность

Кнопка URL сайта Описание тИЦ mail
Сотовый телефон в составе системы безопасности Telarm-GSM

www.telarm.h14.ru

Применение сотовых телефонов Siemens серий S25, C35 и C45 в составе сотовой охранной сигнализации Telarm-GSM обеспечит Вашему сотовому телефону Вторую жизнь, а Вам - охрану, безопасность и комфорт!

Яндекс цитирования

telarm(@)list.ru

Если Вас устраивает предложение, Вы пишете письмо администратору на его электронный почтовый ящик (скопируйте адрес и удалите ненужные скобки!). В письме указываете коды своих ссылок и кнопок, в ответ получите коды ссылок интересующего Вас сайта. В своем письме обязательно укажите URL сайта, с которым вы хотите обменяться ссылками, т.к. у одного вебмастера может быть несколько сайтов, а адрес электронного почтового ящика - один.

Условия подачи заявок на обмен ссылками смотрите ниже:

Объявления об обмене ссылками подаются на платной основе. Стоимость одного объявления зависит от количества подписчиков рассылки (т.е. чтобы узнать стоимость объявления необходимо общее количество подписчиков разделить на 100 и округлить результат). Текущее количество подписчиков можно узнать на сайте рассылки www.sitepromo.com.ru .

Чтобы подать заявку Вам необходимо написать мне письмо по адресу hz@pochta.ru, в котором Вы должны сообщить следующее:
1. Категорию Вашего сайта (Товары и услуги, Интернет, Недвижимость и т.п.)
2. Код кнопки Вашего сайта (если есть)
3. URL Вашего сайта
4. Описание сайта (код ссылки мне высылать не нужно, только описание сайта)
5. Адрес электронного почтового ящика для обмена ссылками
6. Фамилия администратора или вебмастера
7. Сколько раз публиковать Ваше объявление
8. Укажите номер Вашего рублевого кошелька в системе WebMoney, на который я выставлю счет для оплаты. Если у Вас нет счета в системе WebMoney, сообщите свои предложения по оплате.

Как только Вы оплатите выставленный счет, Ваше объявление будет опубликовано в ближайшем выпуске рассылки.

Какие выгоды Вы получите от публикации Вашего объявления в моей рассылке:
1. В отличие от каталогов ссылок, куда заходят далеко не все посетители сайтов, Ваше объявление прочитают более 1700 подписчиков, т.к. объявление опубликовано на первой странице!
2. В каталоге Вашу ссылку со временем могут удалить, а в рассылке она останется навечно, т.к. будет находиться в архивах ТРЕХ сервисов рассылок
3. Архивы рассылок посещаются гораздо чаще, чем каталоги ссылок
4. Оплатив публикацию сразу за месяц, Вы экономите свои деньги, т.к. со временем количество подписчиков будет расти, а значит будет расти и стоимость объявления
5. На сегодняшний день (05 февраля) стоимость одного объявления составляет всего 17 рублей. Торопитесь, через неделю может быть дороже!

Ну вот вроде на сегодня и все!

Жду от Вас пожелания и замечания, а возможно и критику! Встретимся в форуме "КреаСофт"!

С искренним уважением, Зайцев Игорь.
E-mail: hz@pochta.ru

Copyright © 2004-2005 by Зайцев Игорь. Все права защищены.


http://subscribe.ru/
http://subscribe.ru/feedback/
Подписан адрес:
Код этой рассылки: inet.webbuild.shagi
Отписаться

В избранное