Для чего нужен файл robots txt. Правила указания User-agent

01.07.2020 Photoshop: новые версии

Здравствуйте, дорогие читатели сайт! Наша сегодняшняя тема — Как сделать правильный robots.txt Если кто-то еще не знает, что это такое — читать данный пост обязательно! Здесь Вы найдете что это такое файл robots.txt Для чего он нужен и как правильно заполнить…

Я думал данная тема уже давно разжевана и трудностей возникать не должно, но не тут то было. Буквально вчера мне на почту пришло письмо с просьбой написать как правильно заполнять файл robots.txt Что вообще там нужно писать и как.

Я понимаю его, ведь полгода назад сам не знал про данный файл ничего. У меня он был, но был не заполнен вообще! Как так, сейчас сам удивляюсь. Позже узнал о нем, мало-мало заполнил и радовался. Но опять же не тут то было, я заполнил его неправильно!

Пришлось было искать информацию по этому поводу, к счастью вебмастеров в интернете сейчас «пруд пруди», поэтому трудностей не возникло. Я заполнил правильный robots.txt Хотя, после этого я вновь несколько раз заходил туда и менял. Вскоре все же сделал все правильно и теперь хочу научить Вас.

В начале я напишу, что такое robots.txt Потом подробно опишу как его правильно настроить. Настраивать мы будем поэтапно и с подробностями. Приступаем!

Файл robots.txt

Файл robots.txt служит для пояснения поисковым системах действий, которые следует выполнять с Вашим сайтом, блогом при индексации. То есть это некая инструкция, по которой поисковые системы буду работать с Вашим ресурсом при индексации. Это я постарался объяснить более менее понятным для всех языков. Теперь же давайте обратимся к Webeffector’у:

Robots.txt — стопроцентное оправдание своего названия, являясь инструкцией для поисковых роботов. Файл robots.txt вносится корневую папку сайта и управляет поведением поисковых роботов, главным образом, запрещая индексацию той или иной части сайта.

Если Вам интересна история возникновения этого файла, можете прочитать . Я решил не этого не писать, дабы это интересно не всем!

Для чего нужен robots.txt?

Я уже написал ранее, данный файл служит для управления индексацией Вашего ресурса. При отсутствии или не правильном заполнении робот.txt можно лишится не только трафика с поисковых системах, а также не уважения с их стороны и даже фильтра.

В данном файле прописываются команды для индексации. Например, какую страницу или категорию индексировать, а какую нет.

Лишится трафика можно при неправильном заполнении, т.е. если случайно добавить целую категорию в запрет при индексации (как это обойти будет написано ниже). Или вообще закроете весь сайт целиком. Поэтому к заполнению данного файла нужно отнестись серьезно!

Также из-за неправильного заполнения можно получить фильтр (бан) от ПС. Как это? Очень просто, некоторые шаблоны, движки сайтов оставляют дубли (копии) страниц. А если в поиске много одинаковых страниц, значит ПС думают, что это копипаст . Значит сайт плохой и опускает его позиции, а то и вовсе удаляет из поиска… Поэтому, что избежать этого нужно правильно заполнить файл robots.txt

Правильный robots.txt

Давайте разберем каждую директиву отдельно, а позже весь файл целиком. Благодаря этому Вы поймете суть настройки и позже сами сможете управлять им.

User-agent: — данная строка указывает с каким роботом будет работать инструкция

В нее можно прописать следующие значения:

Yandex — инструкцию будет воспринимать один лишь Яндекс. Получается User-agent: Yandex

Это самый популярные и востребованные значения для данной строки. Если Вам нужна какая-то другая ПС, то напишите об этом в комментариях к данной статье.

Прошу заметить, что если Вы указываете конкретного робота какой-то ПС, то данная поисковая система не будет обращать внимание на User-agent: *

Disallow — данная строка (директива) отвечает за то, какие файлы, страницы или категории запрещать при индексации. То есть:

Disallow: /test/ — обозначает запрет индексации папки test

Disallow: /demo — обозначает запрет всего, что начинается на слово demo

Allow — данная строка (директива) отвечает за то, какие файлы, страницы или категории будут разрешаться при индексации ПС. Тут похожая ситуация:

Allow: /test2/ — обозначает разрешение индексации папки test2

Allow: /demo2 — обозначает разрешение всего, что начинается на слово demo2

Если директивы Disallow и Allow оставить пустыми, то будут, соответственно разрешаться все или запрещаться все.

Sitemap — очень важная директива, она отвечает за расположение файла sitemap.xml то есть (для ) и прописывается следующим образом:

Sitemap: http://ваш сайт.ru/sitemap.xml.gz

Sitemap: http://ваш сайт.ru/sitemap.xml

Host — в данной директиве нужно вписать адрес Вашего ресурса. Если у Вас есть зеркало сайта, то тут нужно вписать адрес, который у Вас главный! Это нужно для того, чтобы ПС склеили эти ресурсы и считали его за один. Пишется после Disallow и Allow

Host: сайт

Clean-param — данная директива применяется очень редка и служит для установления задержки между закачкой страниц для снижения нагрузки на сервер. Измеряется в секундах и выглядит так:

Clean-param: 6

Вот эти самые главные директивы, которые используются на Всех сайтах, кроме Clean-param он используется довольно редко…

Из всего выше сказанного уже можно составить полноценный файл robots.txt

Если Вы работаете на системе WordPress, то Ваш файл будет выглядеть примерно следующим образом:

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?replytocom Disallow: /*?* Disallow: /*? Disallow: /tag User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?replytocom Disallow: /*?* Disallow: /*?.ru/sitemap.xml

Данный robots.txt используется на данном блоге. Все отлично работает, с ПС не конфликтует, индексация проходит на ура. Поэтому можете смело создавать файл, копировать туда пример выше и сохранять на хостинге. Только не забудьте вместо моего адреса сайта вписать Ваш!

Быстрая навигация по этой странице:

Современная реальность такова, что в Рунете ни один уважающий себя сайт не может обходиться без файла под названием роботс.тхт — даже если вам нечего запрещать от индексации (хотя практически на каждом сайте есть технические страницы и дублирующий контент, требующие закрытия от индексации), то как минимум прописать директиву с www и без www для Яндекса однозначно стоит — для этого и служат правила написания robots.txt, о которых пойдет речь ниже.

Что такое robots.txt?

Свою историю файл с таким названием берет с 1994 года, когда консорциум W3C решил ввести такой стандарт для того, чтобы сайты могли снабжать поисковые системы инструкциями по индексации.

Файл с таким названием должен быть сохранен в корневой директории сайта, размещение его в каких-либо других папках не допускается.

Файл выполняет следующие функции:

запрещает какие-либо страницы или группы страниц к индексации
разрешает какие-либо страницы или группы страниц к индексации
указывает роботу Яндекса, какое зеркало сайта является главным (с www или без www)
показывает расположение файла с картой сайта

Все четыре пункта являются крайне важными для поисковой оптимизации сайта. Запрет на индексацию позволяет закрыть от индексации страницы, которые содержат дублирующий контент — например, страницы тегов, архивов, результаты поиска, страницы с версиями для печати и так далее. Наличие дублирующего контента (когда один и тот же текст, пусть и в размере нескольких предложений, присутствует на двух и более страницах) — это минус для сайта в ранжировании поисковиков, потому дублей должно быть как можно меньше.

Директива allow самостоятельного значения не имеет, так как по умолчанию все страницы и так доступны для индексации. Она работает в связке с disallow — когда, например, какая-то рубрика полностью закрыта от поисковиков, но вы хотели бы открыть в ней ту или отдельно взятную страницу.

Указание на главное зеркало сайта также является одним из самых важных элементов в оптимизации: поисковики рассматривают сайты www.вашсайт.ру и вашсайт.ру как два разных ресурса, если вы им прямо не укажете иное. В результате происходит удвоение контента — появление дублей, уменьшение силы внешних ссылок (внешние ссылки могут ставиться как с www, так и без www) и в результате это может привести к более низкому ранжированию в поисковой выдаче.

Для Google главное зеркало прописывается в инструментах Вебмастера (http://www.google.ru/webmasters/), а вот для Яндекса данные инструкции можно прописать только в том самом роботс.тхт.

Указание на xml-файл с картой сайта (например — sitemap.xml) позволяет поисковикам обнаружить данный файл.

Правила указания User-agent

User-agent в данном случае — это поисковая система. При написании инструкций необходимо указать, будут ли они действовать на все поисковики (тогда проставляется знак звездочки — *) или же они рассчитаны на какой-то отдельный поисковик — например, Яндекс или Google.

Для того, чтобы задать User-agent с указанием на всех роботов, напишите в своем файле следующую строку:

User-agent: *

Для Яндекса:

User-agent: Yandex

Для Гугла:

User-agent: GoogleBot

Правила указания disallow и allow

Во-первых, следует отметить, что файл robots.txt для его валидности обязательно должен содержать хотя бы одну директиву disallow. Теперь рассмотрив применение этих директив на конкретных примерах.

Посредством такого кода вы разрешаете индексацию всех страниц сайта:

User-agent: * Disallow:

А посредством такого кода, напротив, все странички будут закрыты:

User-agent: * Disallow: /

Для запрета на индексацию конкретной директории под названием folder укажите:

User-agent: * Disallow: /folder

Можно использовать также звездочки для подстановки произвольного названия:

User-agent: * Disallow: *.php

Важно: звездочка заменяет название файла целиком, то есть нельзя указать file*.php, можно только *.php (но будут запрещены все страницы с расширением.php, чтобы этого избежать — можете указать конкретный адрес страницы).

Директива allow, как было указано выше, используется для создания исключений в disallow (иначе она не имеет смысла, так как страницы по умолчанию и так открыты).

Например, запретим к индексации страницы в папке archive, но оставим открытой страничку index.html из этой директории:

Allow: /archive/index.html Disallow: /archive/

Указываем хост и карту сайта

Хост — это главное зеркало сайта (то есть название домена плюс www или название домена без этой приставки). Хост указывается только для робота Яндекса (при этом обязательно должна быть хотя бы одна команда disallow).

Для указания host robots.txt должен содержать следующую запись:

User-agent: Yandex Disallow: Host: www.вашсайт.ру

Что касается карты сайта, то в robots.txt sitemap указывается простым прописанием полного пути к соответствующему файлу, с указанием доменного имени:

Sitemap: http://вашсайт.ру/sitemap.xml

О том, как сделать карту сайта для WordPress, написано .

Пример robots.txt для WordPress

Для wordpress инструкции необходимо указывать таким образом, чтобы закрыть к индексации все технические директории (wp-admin, wp-includes и т.д.), а также дубли страниц, создаваемые тегами, файлами rss, комментариями, поиском.

В качестве примера robots.txt для wordpress можете взять файл с нашего сайта:

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */attachment/* Allow: /wp-content/uploads/ Host: www..php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */attachment/* Allow: /wp-content/uploads/ User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */attachment/* Allow: /wp-content/uploads/ Sitemap: https://www..xml

Скачать файл robots.txt с нашего сайта можно по .

Если по итогам прочтения этой статьи у вас остались какие-либо вопросы — задавайте в комментариях!

Правильная настройка файла robots.txt позволит исключить возможные проблемы, возникающие при индексации.

В частности, у владельца сайта имеется возможность ограничить индексирование служебных и личных разделов ресурса. Как создать файл и настроить его под разные поисковые системы, а также популярные CMS — поговорим в этой публикации.

Для чего нужен файл robots.txt

Как не трудно догадаться, этот файл содержит инструкции, предназначенные для поисковых ботов. Размещается он обязательно в корневой директории, благодаря чему индексацию страницы боты начнут именно с чтения условий, изложенных в robots.txt.

Таким образом, файл указывает поисковым роботам, какие директории сайта разрешены для индексирования, и какие этому процессу не подлежат.

Учитывая, что на процесс ранжирования наличие файла не влияет, много сайтов не содержат robots.txt. Но это не совсем верный путь. Рассмотрим преимущества robots.txt, которые он дает ресурсу.

Можно запретить индексирование ресурса целиком или частично, ограничить круг поисковых роботов, которые будут иметь право на проведение индексирования. Можно вовсе оградить ресурс от этого процесса (например, при создании или реконструкции сайта).

Кроме того, файл роботс ограничивает доступ на ресурс всевозможных спам-роботов, цель которых — сканирование сайта на наличие электронных адресов, которые потом будут использоваться для рассылки спама. Не будем останавливаться на том, к чему это может привести — и так понятно.

От индексирования можно скрыть разделы сайта, предназначенные не для поисковых машин, а для определенного круга пользователей, разделы, содержащие приватную и прочую подобную информацию.

Как создать правильный robots.txt

Правильный robots легко написать вручную, не прибегая к помощи различных конструкторов. Процесс сводится к прописыванию нужных директив в обычном файле блокнота, который потом нужно сохранить под названием «robots» и закачать в корневую директорию собственного ресурса. Для одного сайта нужен один такой файл. В нем можно прописать инструкции для поисковых ботов всех нужных поисковых систем. То есть, делать отдельный файл под каждый поисковик не понадобится.

Что нужно прописывать в файле? Обязательно употребление двух директив: User-agent и Disallow. Первая определяет, какому боту адресовано данное послание, вторая показывает, какую страницу или директорию ресурса запрещено индексировать.

Чтобы задать одинаковые правила для всех ботов, можно в директиве User-agent вместо названия прописать символ «звездочку».
Файл robots.txt в таком случае будет выглядеть таким образом:

Кстати, разработчики Гугл неоднократно напоминали веб-мастерам, что файл robots.txt не должен превышать по размерам 500 Кб. Это непременно приведет к ошибкам при индексации. Если создавать файл вручную, то «достичь» такого размера, конечно, нереально. Но вот некоторые CMS, автоматически формирующие содержание robots.txt, могут значительно его «утяжелить».

Простое создание файла для любого поисковика

Если страшно наделать ошибок при написании файла (или просто лень этим заниматься), можно поручить создание нужных директив конструктору. Он прост, как дважды два, но небольшое объяснение по работе с ним все же приведем.

В первом поле прописывается адрес ресурса. Только после этого пользователю представится возможность выбрать поисковую систему, для которой устанавливаются данные правила (можно последовательно выбрать несколько поисковиков). Далее нужно указать папки и файлы, доступ к которым будет запрещен, прописать адрес зеркала сайта, указать расположение карты ресурса.

По мере заполнения полей в нижнем поле будут прописываться нужные директории. Все, что нужно в итоге — скопировать их в txt-файл и присвоить ему название robots.

Как проверить эффективность файла robots.txt

Для того, чтобы проанализировать действие файла в Яндексе, следует перейти на соответствующую страницу в разделе Яндекс.Вебмастер. В диалоговом окне следует указать имя сайта и нажать кнопку «загрузить».

Система проанализирует файл robots.txt и укажет, будет ли поисковый робот обходить страницы, запрещенные к индексации. Если возникли проблемы, директивы можно отредактировать и проверить прямо в диалоговом окне, после чего скопировать отредактированный текст и вставить в свой файл robots.txt в корневом каталоге.

Аналогичную услугу предоставляет сервис «Инструменты для веб-мастеров» от поисковика Google

Создание robots.txt для WordPress , Joomla и Ucoz

Различные CMS, получившие широкую популярность на наших просторах, предлагают пользователям свои версии файлов robots.txt (или же не имеют их вовсе). Зачастую эти файлы либо чересчур универсальны и не учитывают особенностей ресурса пользователя, либо имеют ряд существенных недостатков.

Можно пытаться внести изменения в них вручную (что при недостатке знаний не очень-то эффективно), а можно воспользоваться опытом более профессиональных коллег. Как говорится, все уже сделано до нас. Например, robots.txt для WordPress может выглядеть таким образом:

Строку www.site.ru, само собой, следует заменить на адрес сайта пользователя.

1) Что такое поисковый робот?
2) Что такое robots.txt?
3) Как создать robots.txt?
4) Что и зачем можно записать в этот файл?
5) Примеры названий роботов
6) Пример готового robots.txt
7) Как проверить работу моего файла?

1. Что такое поисковый робот?

Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса.

2. Что такое robots.txt?

Поисковые роботы ищут на сайтах в первую очередь файл robots.txt. Если у Вас на сайте есть директории, контент и тп, которые бы Вы, например, хотели скрыть от индексации (поисковик не выдавал информацию по ним. Например: админка, другие панели страницы), то должны внимательно изучить инструкцию по работе с данным файлом.

robots.txt - это текстовый файл (.txt), который находится в корне (коренвой директории) Вашего сайта. В нём записываются инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.

3. Как создать robots.txt?

Создать robots.txt очень просто. Заходим в обычный текстовой редактор (или правая кнопка мыши - создать - текстовой документ), например, Блокнот (Notepad). Далее создаём текстовой файл и переименовываем его в robots.txt .

4. Что и зачем можно записать в файл robots.txt?

Перед тем, как указать команду поисковику, нужно определиться, к какому Боту она будет адресована. Для этого существует команда User-agent
Ниже привёл примеры:

User-agent: * # написанная после этой строки команда будет обращена ко всем поисковым роботам
User-agent: YandexBot # обращение к основному роботу индексации Яндекса
User-agent: Googlebot # обращение к основному роботу индексации Google

Разрешаем и запрещаем индексацию
Для разрешения и запрета индексации есть две соответствующие команды - Allow (можно) и Disallow (нельзя).

User-agent: *
Disallow: /adminka/ # запрещает всем роботам индексировать директорию adminka, в которой якобы админ-панель

User-agent: YandexBot # команда ниже будет обращена к Яндексу
Disallow: / # запрещаем индексацию всего сайта роботом Яндекса

User-agent: Googlebot # команда ниже будет обращена к Google
Allow: /images # разрешаем индексировать всё содержимое директории images
Disallow: / # а всё остальное запрещаем

Порядок не важен

User-agent: *
Allow: /images
Disallow: /

User-agent: *
Disallow: /
Allow: /images
# и там, и там разрешено индексировать файлы
# начинающиеся с "/images"

Директива Sitemap
Данная команда указывает адрес карты вашего сайта:

Sitemap: http://yoursite.ru/structure/my_sitemaps.xml # Указывает адрес карты сайта

Директива Host
Данная команда вставляется В КОНЦЕ вашего файла и обозначает главное зеркало
1) прописывается В КОНЦЕ вашего файла
2) указывается только один раз. в противном случае принимается только первая строка
3) указывается после Allow или Disallow

Host: www.yoursite.ru # зеркало Вашего сайта

#Если www.yoursite.ru главное зеркало сайта, то
#robots.txt для всех сайтов-зеркал выглядит так
User-Agent: *
Disallow: /images
Disallow: /include
Host: www.yoursite.ru

# по умолчанию Google игнорирует Host, надо сделать так
User-Agent: * # индексируют все
Disallow: /admin/ # запрещаем индекс админа
Host: www.mainsite.ru # указываем главное зеркало
User-Agent: Googlebot # теперь команды для Google
Disallow: /admin/ # запрет для Google

5. Примеры названий роботов

Роботы Яндекса
У Яндекса есть несколько видов роботов, которые решают самые разные задачи: один отвечают за индексацию изображений, другие за индексацию rss данных для сбора данных по блогам, третьи - мультимедийные данные. Самый главный - YandexBot , он индексирует сайт с целью составить общую базу данных по сайту (заголовки, ссылки, текст и тп). Также есть робот для быстрой индексации (индексация новостей и тп).

YandexBot -- основной индексирующий робот;
YandexMedia -- робот, индексирующий мультимедийные данные;
YandexImages -- индексатор Яндекс.Картинок;
YandexCatalog -- «простукивалка» Яндекс.Каталога, используется для временного снятие с публикации недоступных сайтов в Каталоге;
YandexDirect -- робот Яндекс.Директа, особым образом интерпретирует robots.txt;
YandexBlogs -- робот поиска по блогам, индексирующий посты и комментарии;
YandexNews -- робот Яндекс.Новостей;
YandexPagechecker -- валидатор микроразметки;
YandexMetrika -- робот Яндекс.Метрики;
YandexMarket -- робот Яндекс.Маркета;
YandexCalendar -- робот Яндекс.Календаря.

6. Пример готового robots.txt

Собственно пришли к примеру готового файла. Надеюсь после приведённых выше примеров Вам всё будет понятно.

User-agent: *
Disallow: /admin/
Disallow: /cache/
Disallow: /components/

User-agent: Yandex
Disallow: /admin/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/

Sitemap: http://yoursite.ru/structure/my_sitemaps.xml

Здравствуйте, уважаемые читатели блога «Мир Вебмастера»!

Файл robots.txt – это очень важный файл, напрямую влияющий на качество индексации вашего сайта, а значит и на его поисковое продвижение.

Именно поэтому вы должны уметь правильно оформлять роботс.тхт, чтобы случайно не запретить к индексу какие-нибудь важные документы интернет-проекта.

О том, как оформить файл robots.txt, какой синтаксис нужно использовать при этом, как разрешать и запрещать к индексу документы, и пойдет речь в этой статье.

О файле robots.txt

Сначала давайте подробнее узнаем, что же это за файл такой.

Файл роботс – это файл, который показывает поисковым системам, какие страницы и документы сайта можно добавлять в индекс, а какие – нельзя. Он необходим из-за того, что изначально поисковые системы стараются проиндексировать весь сайт, а это не всегда правильно. Например, если вы создаете сайт на движке (WordPress, Joomla и т.д.), то у вас будут присутствовать папки, организующие работу административной панели. Понятно, что информацию в этих папках индексировать нельзя, как раз в этом случае и используется файл robots.txt, который ограничивает доступ поисковикам.

Также в файле роботс.тхт указывается адрес карты сайта (она улучшает индексацию поисковыми системами), а также главный домен сайта (главное зеркало).

Зеркало – это абсолютная копия сайта, т.е. когда один сайт , то говорят, что один из них – это главный домен, а другой – его зеркало.

Таким образом, у файла достаточно много функций, причем немаловажных!

Синтаксис файла robots.txt

Файл роботс содержит блоки правил, которые говорят той или иной поисковой системе, что можно индексировать, а что нет. Блок правил может быть и один (для всех поисковиков), но также их может быть несколько – для каких-то конкретных поисковиков отдельно.

Каждый такой блок начинается с оператора «User-Agent», который указывает, к какой поисковой системе применимы данные правила.

User- Agent: A
{правила для робота «А»}

User- Agent: B
{правила для робота «В»}

В примере выше показано, что оператор «User-Agent» имеет параметр – имя робота поисковой системы, к которой применяются правила. Основные из них я укажу ниже:

После «User-Agent» идут другие операторы. Вот их описание:

Для всех операторов справедлив один синтаксис. Т.е. операторы нужно использовать следующим образом:

Оператор1: параметр1

Оператор2: параметр2

…

Таким образом, сначала мы пишем название оператора (неважно, большими или маленькими буквами), затем ставим двоеточие и через пробел указываем параметр данного оператора. Затем с новой строки таким же образом описываем оператор два.

Важно!!! Пустая строка будет означать, что блок правил для данного поисковика закончен, поэтому не разделяйте операторы пустой строкой.

Пример файла robots.txt

Рассмотрим простенький пример файла robots.txt, чтобы лучше разобраться в особенностях его синтаксиса:

User-agent: Yandex
Allow: /folder1/
Disallow: /file1.html
Host: www.site.ru

User-agent: *
Disallow: /document.php
Disallow: /folderxxx/
Disallow: /folderyyy/folderzzz
Disallow: /feed/

Sitemap: http://www.site.ru/sitemap.xml

Теперь разберем описанный пример.

Файл состоит из трех блоков: первый для Яндекса, второй для всех поисковых систем, а в третьем указан адрес карты сайта (применяется автоматически для всех поисковиков, поэтому указывать «User-Agent» не нужно). Яндексу мы разрешили индексировать папку «folder1» и все ее содержимое, но запретили индексировать документ «file1.html», находящийся в корневом каталоге на хостинге. Также мы указали главный домен сайта яндексу. Второй блок – для всех поисковиков. Там мы запретили документ «document.php», а также папки «folderxxx», «folderyyy/folderzzz» и «feed».

Обратите внимание, что мы запретили в втором блоке команд к индексу не всю папку «folderyyy», а лишь папку внутри этой папки – «folderzzz». Т.е. мы указали полный путь для «folderzzz». Так всегда нужно делать, если мы запрещаем документ, находящийся не в корневом каталоге сайта, а где-то внутри других папок.

Создание займет меньше двух минут:

Созданный файл роботс можно проверить на работоспособность в панели вебмастеров Яндекса . Если в файле вдруг обнаружатся ошибки, то яндекс это покажет.

Обязательно создайте файл robots.txt для вашего сайта, если его у вас до сих пор нету. Это поможет развиваться вашему сайту в поисковых системах. Также можете почитать еще одну нашу статью про методом мета-тегов и.htaccess.