|
robots.txtФайл robots.txt необходим для того, чтоб запретить сетевым роботам (web crawlers, например, поисковым ботам) доступ к части содержимого сайта. Для определенного сайта файл robots.txt может быть только один и находится исключительно в корневой дирректории сайта (т.е. /robots.txt). Так как URL чувствительны к регистру, то необходимо помнить, что название файла robots.txt пишется строчными буквами. Правила запрета или разрешения на индексацию разделяются между
собой пустой строкой. Первая строка правила содержит информацию об сетевом
роботе Запрет индексации всего сервераДля того, чтобы запретить индексацию всего сервера необходимо создать в корневой дирректории файл robots.txt содержащий следующие строчки: User-agent: * Disallow: / В первой стоке определяется правило для всех роботов *, а во второй задается запрет на доступ от корневой дирректории и выше. Запрет индексации для одного роботаUser-agent: BadBot Disallow: / Разрешение индексации всего сервераДля того, чтобы разрешить индексацию всего сервера пишем: User-agent: * Disallow: Аналогичного эффекта можно добиться создав пустой файл robots.txt. Разрешение индексации только для одного роботаUser-agent: WebCrawler Disallow: User-agent: * Disallow: / Запрет индексации отдельных дирректорийДля запрета индексации отдельных дирректорий они записываются
по одной после диррективы User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/ Запрет индексации отдельных файловОдним из способов является размещение всех необходимых для запрета файлов в отдельную дирректорию и установки на нее запрета индексации. Или же просто перечислить все запрещаемые файлы: User-agent: * Disallow: /~user/private.html Disallow: /~user/emails.html Disallow: /~user/contacts.html Использование мета-инструкций для запрета индексацииОтметим, что вместо файла robots.txt можно использовать мета-инструкций (<META NAME="ROBOTS">) в заголовке HTML документа (<HEAD>). Например, <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">запрещает поисковому боту индексацию документа (NOINDEX) и анализ ссылок на странице (NOFOLLOW). Однако не все поисковые роботы анализируют эту мета-инструкцию. Ссылки по теме: A Standard for Robot Exclusion Проверка файла robots.txt |
|