<<
>>

Robots.txt и Robots Meta Tag

Robots Exclusion Protocol (файл Robots.txt) - ещё один способ указать ПМ, какие страницы не следует индексировать.
Это правда. Иногда после достижения хороших позиций в рейтингах, вы начинаете понимать, что не хотите, чтобы некоторые страницы сайта посещали пользователи.
Или если вы не хотите, чтобы определенную страницу увидели первой. Или у вас есть одинаковые страницы для разных разрешений экрана: 800x600 или 1024x768. Однако поисковики не любят зеркальные сайты, поэтому здесь есть смысл заблокировать один из вариантов сайта для поисковиков.
Кроме того, вы можете захотеть, чтобы поисковая машина не индексировала те или иные ваши страницы? Потому что, индексируя страницы, слайдеры поисковой машины функционируют с ограничениями по времени и ресурсам. А вам нужно, чтобы индексация сосредоточилась на наиболее важных страницах сайта, связанных с клиентами, товаром и ценами.
Другие страницы, от которых вы захотите держать подальше слайдеров поисковой машины, могут включать что-нибудь из папки cgi-bin, так же как и директории, которые содержат изображения или иные важные для компании данные. В основном, если нет никакой пользы от появления страницы в результатах поиска машин, то вы можете скрыть эти страницы от слайдеров при помощи использования файла robots.txt.
Это не только увеличит ресурсы поисковой машины, потраченные на ваши важные страницы, но также поможет защитить ваш сайт от хакеров, которые могут в своих целях использовать результаты поисковой машины или заполучить важную информацию о вашей компании или сайте. Слайдеры поисковой машины довольно охотны до индексации чего-нибудь, что они могут найти в сети, включая такие вещи как файлы, где хранятся пароли. Таким образом, вы должны быть осторожными.
Есть много причин, по которым вы можете захотеть скрыть свои страницы.
Хотя слайдеры поисковиков довольно примитивны, вы можете общаться с ними. Для этого существуют файлы robots.txt, которые также известны как протоколы исключения. Это очень простой процесс создания текстового файла для размещения в корневой директории. Каждый раз, когда спайдер делает запрос на ваш сайт, он запрашивает и robots.txt файл.
Файлы Robots.txt используются только ради одного — рассказать слайдерам поисковых машин, какие страницы не нужно индексировать. Существует неправильное представление о том, что файл robots.txt может так или иначе использоваться, чтобы поощрять поисковые машины индексировать ваш сайт. Неверно! Страницы, которые соответствуют описанным выше принципам, с готовностью проверяются слайдерами поисковых машин, не нуждаясь в дополнительной поддержке. Как вы заметили, важная часть оптимизации поисковой машины (SEO) - это идентификация элементов, которые вызывают трудности индексации для слайдеров и устранение этих элементов.
Существует большая проблема, связанная с незнанием работы файла robots.txt. Удивительное число сайтов случайно настроило свои файлы robots.txt так, чтобы препятствовать слайдерам поисковой машины нормально индексировать их сайт.
Когда поисковый робот заходит на сайт, он первым делом проверяет, существует ли файл www.site.ru/robots.txt. Если таковой имеется, то робот анализирует его и руководствуется полученным содержанием.
Вы, например, знаете, что добавление следующих двух строк в ваш файл robots.txt достаточно, чтобы поисковые машины никогда не заглядывали на ваш сайт?
User-agent: *
Disallow: /
Эти строки запрещают определённым роботам или пользовательским агентам просматривать заданные каталоги и страницы сайта. Звёздочка означает, что указания распространяются на всех роботов, но если Вы хотите, чтобы запрет действовал на какого-то отдельного робота, укажите его имя вместо звёздочки.
В строке “Disallow” следует указать файлы и каталоги, которые Вы не хотите индексировать. Например, большинство администраторов не хотят, чтобы индексировалась директория cgi-bin. В этом случае в файле Robots.txt следует указать:
User-agent: *
Disallow: /cgi-bin/
В Google Webmaster Tools - http://www.google.com/webmasters/sitemaps судествует специальная опция, позволяющая просмотреть количество страниц, запрещенных к индексации.
ROBOTS
ROBOTS выполняет в точности те же функции, что и файл robots.txt - но он не настолько надежен. Не все роботы воспринимают и ROBOTS.
Воспользуйтесь им, если ваш сайт пользуется услугами бесплатного хостинга.
Если же у вас есть доступ к корневому каталогу, то забудьте про ROBOTS. Пользуйтесь файлом robots.txt. Нет необходимости использовать оба метода.
Текст для ROBOTS будет следующий:

Вставьте его между тэгами и на каждой странице, которая не должна индексироваться согласно вашему желанию.
Более подробно смотри статью на нашем сайте «Как манипулировать «пауком» Google, чтобы получить наивысший рейтинг, который заслуживает ваш сайт!»
<< | >>
Источник: Механов Е.В.. Базовый курс поисковой оптимизации. 2008

Еще по теме Robots.txt и Robots Meta Tag:

  1. 6.6.12. Robots.txt и мета-тег Robots
  2. 12.1.6. Редирект: Meta & JavaScript Refresh Pages
  3. Страницы, не предназначенные для всеобщего обозрения
  4. Часть 11/10. Как склеить домен или склейка зеркал сайта
  5. Мета-теги
  6. 6.7.4. Оптимизация динамических сайтов
  7. Как удержать вес PageRank внутри сайта?
  8. 12.1.4. Информационные страницы
  9. 6.3. Выводы
  10. 8.1. Регистрация сайта в каталогах
  11. Регистрация сайта в каталогах
  12. Часть 11/3. SEO Р.Д.О. - 215 вопросов по SEO
  13. 6.2. Управление индексацией сайта
  14. Часть VIII/3. Технические ошибки оптимизации сайтов
  15. Часть 11/34. Бан сайта: причины, как снять, или не попасть под него