Главная :: Поисковая оптимизация. Оптимизация под поисковые системы :: robots.txt

robots.txt

Файл robots.txt необходим для того, чтоб запретить сетевым роботам (web crawlers, например, поисковым ботам) доступ к части содержимого сайта. Для определенного сайта файл robots.txt может быть только один и находится исключительно в корневой дирректории сайта (т.е. /robots.txt). Так как URL чувствительны к регистру, то необходимо помнить, что название файла robots.txt пишется строчными буквами.

Правила запрета или разрешения на индексацию разделяются между собой пустой строкой. Первая строка правила содержит информацию об сетевом роботе User-agent: и имя этого робота (если правило распространяется на всех роботов, то ставится звездочка *). Следующие строки содержат информацию об запрещенных или разрешенных для индексации дирректорий (Disallow:). Если имя дирректории отсутствует, то индексация разрешена. Каждой инструкции Disallow соответствует одня дирректория. Если нужно закрыть несколько дирректорий, то для каждой необходимо писать свою инструкцию Disallow.

Запрет индексации всего сервера

Для того, чтобы запретить индексацию всего сервера необходимо создать в корневой дирректории файл robots.txt содержащий следующие строчки:

	User-agent: *
	Disallow: /

В первой стоке определяется правило для всех роботов *, а во второй задается запрет на доступ от корневой дирректории и выше.

Запрет индексации для одного робота

	User-agent: BadBot
	Disallow: /

Разрешение индексации всего сервера

Для того, чтобы разрешить индексацию всего сервера пишем:

	User-agent: *
	Disallow:

Аналогичного эффекта можно добиться создав пустой файл robots.txt.

Разрешение индексации только для одного робота

	User-agent: WebCrawler
	Disallow:

	User-agent: *
	Disallow: /

Запрет индексации отдельных дирректорий

Для запрета индексации отдельных дирректорий они записываются по одной после диррективы Disallow:

	User-agent: *
	Disallow: /cgi-bin/
	Disallow: /tmp/
	Disallow: /private/

Запрет индексации отдельных файлов

Одним из способов является размещение всех необходимых для запрета файлов в отдельную дирректорию и установки на нее запрета индексации. Или же просто перечислить все запрещаемые файлы:

	User-agent: *
	Disallow: /~user/private.html
	Disallow: /~user/emails.html
	Disallow: /~user/contacts.html

Использование мета-инструкций для запрета индексации

Отметим, что вместо файла robots.txt можно использовать мета-инструкций (<META NAME="ROBOTS">) в заголовке HTML документа (<HEAD>). Например,

	<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

запрещает поисковому боту индексацию документа (NOINDEX) и анализ ссылок на странице (NOFOLLOW). Однако не все поисковые роботы анализируют эту мета-инструкцию.

Ссылки по теме:
A Standard for Robot Exclusion
Проверка файла robots.txt