Учебник по веб дизайну
 Свободное программное обеспечение. Доступно. Бесплатно. Легально.
Учебник
HTML
CSS
DHTML
JavaScript
SSI
Раскрутка
Справочник
HTML
JavaScript
SSI
Браузеры
Хостинг
Скрипты
JavaScript
PHP
Статьи
SEO
  Яндекс
  Рамблер
  Google
  Апорт
  robots.txt
  Термины
HTML
Flash
Все об Интернет
Новости Интернет
Утилиты
Конструктор
Информер
А так же...
Наши баннеры
Контакты
Гостевая
Реклама на сайте

robots.txt

Файл robots.txt необходим для того, чтоб запретить сетевым роботам (web crawlers, например, поисковым ботам) доступ к части содержимого сайта. Для определенного сайта файл robots.txt может быть только один и находится исключительно в корневой дирректории сайта (т.е. /robots.txt). Так как URL чувствительны к регистру, то необходимо помнить, что название файла robots.txt пишется строчными буквами.

Правила запрета или разрешения на индексацию разделяются между собой пустой строкой. Первая строка правила содержит информацию об сетевом роботе User-agent: и имя этого робота (если правило распространяется на всех роботов, то ставится звездочка *). Следующие строки содержат информацию об запрещенных или разрешенных для индексации дирректорий (Disallow:). Если имя дирректории отсутствует, то индексация разрешена. Каждой инструкции Disallow соответствует одня дирректория. Если нужно закрыть несколько дирректорий, то для каждой необходимо писать свою инструкцию Disallow.

Запрет индексации всего сервера

Для того, чтобы запретить индексацию всего сервера необходимо создать в корневой дирректории файл robots.txt содержащий следующие строчки:

	User-agent: *
	Disallow: /

В первой стоке определяется правило для всех роботов *, а во второй задается запрет на доступ от корневой дирректории и выше.

Запрет индексации для одного робота

	User-agent: BadBot
	Disallow: /

Разрешение индексации всего сервера

Для того, чтобы разрешить индексацию всего сервера пишем:

	User-agent: *
	Disallow:

Аналогичного эффекта можно добиться создав пустой файл robots.txt.

Разрешение индексации только для одного робота

	User-agent: WebCrawler
	Disallow:

	User-agent: *
	Disallow: /

Запрет индексации отдельных дирректорий

Для запрета индексации отдельных дирректорий они записываются по одной после диррективы Disallow:

	User-agent: *
	Disallow: /cgi-bin/
	Disallow: /tmp/
	Disallow: /private/

Запрет индексации отдельных файлов

Одним из способов является размещение всех необходимых для запрета файлов в отдельную дирректорию и установки на нее запрета индексации. Или же просто перечислить все запрещаемые файлы:

	User-agent: *
	Disallow: /~user/private.html
	Disallow: /~user/emails.html
	Disallow: /~user/contacts.html

Использование мета-инструкций для запрета индексации

Отметим, что вместо файла robots.txt можно использовать мета-инструкций (<META NAME="ROBOTS">) в заголовке HTML документа (<HEAD>). Например,

	<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
запрещает поисковому боту индексацию документа (NOINDEX) и анализ ссылок на странице (NOFOLLOW). Однако не все поисковые роботы анализируют эту мета-инструкцию.


Ссылки по теме:
A Standard for Robot Exclusion
Проверка файла robots.txt
Реклама

Можно ли сообщение "Программа выполнила недопустимую операцию... обратитесь к разработчику" считать официальным вызовом в США?
главная :: наверх :: добавить в избранное :: сделать стартовой :: рекомендовать другу :: карта сайта

Rambler's Top100

Страница сгенерированна за 0.0128 сек.
Сайт оптимизирован под разрешение 800х600 и браузер MS IE 6.0.
Copyright © 2005-2010 originweb.info, design.originweb.info.
Хостинг ruweb.net