Правильный файл robots txt для joomla 3. Разберем знаки синтаксиса, которые задают правила индексации

Сегодня я хочу поговорить о таком популярном явлении, как Twitter. Применительно к вебмастерам эта социальная сеть может помочь привлечь на ваш сайт дополнительных посетителей, равно как и другие социалки. К примеру такие, как , и , а так же Твитер может служить своеобразным аналогом .

Например, насколько я знаю, многие посетители моего блога сайт следят за его обновлениями именно через этот сервис микроблогов. Но для того, чтобы это все заработало как надо, нужно будет понять, что такое Твиттер, как пройти в нем регистрацию и как им пользоваться.

Кстати, с недавних пор форма регистрации и интерфейс этого сервиса были полностью переведены на русский язык, что не может не радовать. Правда, когда писалась данная статья, эта социалка с русским языком еще совсем не дружила, поэтому мне пришлось кое-что переписать и дополнить.

Что такое Twitter и как им пользоваться?

Итак, что же такое Твиттер — в первую очередь это сервис предназначенный для общения. Он пришел на смену (или в дополнение) набившим оскомину традиционным социальным сетям, причем его аудитория растет как снежный ком. Сейчас, наверное, уже трудно встретить человека никогда не слышавшего о нем или подобным ему сервисах микроблогинга (FriendFeed и т.п.).

Тем не менее, для многих суть этих сервисов остается до сих пор не понятной и поэтому стоит ответить на вопрос «Что такое Твитер» чуть поподробнее. В этой серии статей я постараюсь подробно рассказать о том, как пройти в нем регистрацию (теперь уже на русском языке), как с ним работать, как набрать подписчиков (фолловеров), как автоматически постить в него заголовки новых материалов вашего сайта (это будет ).

Twitter был создан в 2006 году, а к началу 2007 уже приобрел достаточную популярность. Иногда его характеризуют как микроблогинг из-за того, что размер оставляемого в нем сообщения ограничен 140 символами. В связи с таким ограничением, в сообщениях Твитера с помощью специальных сервисов до примерно такого вида: http://bit.ly/4J2b1R .

Из-за небольшой длины сообщений общение по нему очень удобно вести с мобильного телефона. Собственно, Твитер и был на это рассчитан, т.к. в нем ограничение составляет 140 символов на сообщение, а в мобильном телефоне, как известно, ограничение равно 160 символов (в SMS сообщениях). Оставшиеся 20 символов могут быть использованы для имени отправителя.

Но для этого вам придется сообщить логин и пароль для доступа к своему Емайлу. Мой основной ящик находится как раз на Gmail, но я как-то не решился передать его пароль в Твитер.

Если же вы решитесь на этот шаг, то судя по всему, на основе вашей адресной книги, будут найдены все пользователи из нее, которые так же имеют аккаунт в этом сервисе микроблогов. Ну, и вы сможете добавить их в свои друзья.

Твиттер за время, прошедшее с момента написания этой статьи, успел не только начать поддерживать русский язык, но обзавелся новым интерфейсом. Поэтому, сразу же после успешного прохождения регистрации вы попадете на страницу, в самом верху которой будут расположены пиктограммы ваших дальнейших шагов.

Описанный в предыдущем абзаце шаг теперь называется «Друзья» и имеет номер 3:

В новом интерфейсе появился новый шаг, открывающийся после прохождения регистрации — «Интересы». На этой вкладке вы сможете рассказать, какие именно тематики вам интересны. Открыв одну из предлагаемых тематик вы увидите имеющиеся в ней ленты.

Для подписки на них вам нужно будет всего лишь нажать на кнопку «Читать» , расположенную рядом. В результате кнопка поменяет свой вид и на ней появится надпись «Читаю»:

Как изменить фон для Твитера?

По умолчанию фон вашего профиля будет оформлен в голубых тонах, но вы можете поменять его, а так же цвет панелей, цвет шрифта и ссылок на вашей странице по своему усмотрению. Например, мой Twitter выглядит так .

Можете так же посмотреть, как выглядел интерфейс этого сервиса раньше. Для этого вам нужно будет из выпадающего списка рядом с вашим «Именем пользователя» (расположен в правом верхнем углу) выбрать вариант «В старый Твиттер»:

Для настройки дизайна вашей страницы выберите из верхнего меню пункт «Настройки» (см. скриншот выше), а в открывшемся окне — пункт «Оформление».

Для настройки заднего фона вашей страницы в Твитере вы можете пользоваться предложенными вариантами, просто щелкнув по ним мышью. Если ничего из предложенных фонов не пришлось вам по вкусу, то можете использовать свой графический файл в качестве .

Для этого щелкните по кнопке «Изменить фоновое изображение» под эскизами фонов, нажмите на кнопку «Выберите файл» и найдите на своем компьютере нужный графический файл.

Нажав в настройках Твиттера на кнопку «Изменить цвета оформления» справа под эскизами, вы получите возможность:

  1. залить фон одним цветом, который сможете выбрать, щелкнув по квадрату с надписью «background»
  2. задать цвет текста на страницах вашего аккаунта, щелкнув по квадрату с надписью «текст»
  3. выбрать оттенок для оформления всех ссылок, щелкнув по квадрату с надписью «links»
  4. выбрать цвет фона и цвет рамки для правой боковой панели на вашей вебстранице в Твитере можно, щелкнув, соответственно, по квадратам «панель» и «граница»

После того, как вы закончите заниматься эстетическими изысками, не забудьте сохранить изменения, нажав на соответствующую кнопку в самом низу. Я поначалу ее не заметил и, в результате, пришлось настраивать фон и оформление своего Twitter аккаунта заново. В этом же окне настроек на вкладке «Профиль» вы можете прикрутить аватарку, выбрав нужную картинку в области «Изображение».

Выберите из верхнего меню настроек пункт «Профиль». Здесь вы можете внести изменения в уже имеющиеся данные вашего профиля, а так же я советую добавить в поле «More Info URL» адрес вашего веб-проекта. Что примечательно, он будет .

Но последнее время поисковые системы могут все же учитывать в той или иной степени обратные ссылки с этого сервиса микроблогов, у которого .

Как пользоваться Твитером (теперь уже на русском)?

Выбрав из верхнего меню настроек пункт «Уведомления» вы сможете настроить: по поводу каких событий вам будут присылать сообщения на E-mail, например, когда кто-то подписался на вашу ленту (зафоловит вас). Прямо из присланного письма вы сможете перейти на вебстраницу этого человека, кликнув по его имя:

Ознакомившись с содержанием его сообщений вы можете принять решение о подписке или неподписке на его твиттер ленту. Для подписки вам нужно будет нажать на кнопку «Читать» (в английской версии интерфейса — «Follow», откуда и растут ноги у терминов фоловить, зафоловить или фолловер) в верхней части окна:

Подписаться на сообщения какого-либо пользователя или же, по другому, «Следовать» за кем-то в Твиттер (Follow), означает добавить кого-то в список своих контактов. Это то, что мы только что проделали, нажав на кнопку «Follow» (Читать).

Но этот пользователь не сможет видеть ваши новости, пока он не добавит вас в свой список контактов. Легче всего создать список контактов в Twitter, добавив пользователей со схожими интересами. Вы добавите их, а они добавят вас.

Для этого можно пользоваться поиском по Твитеру — http://search.twitter.com/ . Задайте в поисковой строке свои интересы и в результате вы получите большущий список обитателей этого сервиса, которых интересует тоже самое. Запросы, само собой, можно вводить и на русском тоже.

Как только вы станете добавлять пользователей в свой список контактов, их сообщения появятся у вас в ленте. Чтобы попасть в свою ленту новостей вам нужно всего навсего зайти по адресу TWITTER.COM, нажать на ссылку Войти" в самом верху окна и ввести свои логин и пароль, заданные при регистрации.

Если браузер запомнил логин и пароль, то после перехода по указанному выше адресу вы сразу попадете в ленту новостей с сообщениями тех пользователей твиттера, за которыми вы следите.

Если посты какого либо пользователя вам не понравятся и вы не захотите их больше читать, то можете отписаться от получения сообщений этого пользователя, зайдя на его страницу (ленту). Для этого нужно будет нажать либо на его имя, либо на его аватарку в сообщении. На его странице в Твиттере подведите курсор мыши к кнопке «Читаю», которая при этом сменится на кнопку «Отмена» , и щелкните по ней:

Там есть еще несколько маленьких кнопок, которые помогут получать сообщения этого пользователя на сотовый телефон и т.п. Написать свое сообщение в Twitter вы можете в отведенной для этого форме в самом верху главной страницы с надписью «Что происходит?» . Когда начнете набивать сообщение, то увидите справа снизу от этой формы количество символов, которое еще можно набить. В , но для этого придется всегда иметь их под рукой, ибо встроенного тултипа как Вконтакте в этой соцсети вы не найдете.

Для того, чтобы ответить на уже имеющееся сообщение в Твиттере, просто подведите к нему курсор мыши и нажмите на появившуюся внизу сообщения надпись «Ответить» (в английском варианте — «Reply»).

После этого в форму ответа автоматически добавится имя того пользователя, на чье сообщение вы собираетесь написать ответ, а перед этим именем будет стоять знак @, означающий, что это, собственно, ответка.

Зачастую сообщения читают через специализированные программы, а не через интернет браузер. Программ таких довольно много. Можно посылать личные сообщения через Твитер, которые не будут видеть другие пользователи. Для этого адресат должен следить за вами, тогда вы можете на его вебстранице, по аналогии с рассмотренным чуть выше способом отписки, нажать на стрелочку возле кнопки, напоминающей солнышко, и выбрать из выпадающего списка «Direct message имя пользователя».

Подводя итог можно сделать обобщение и сказать, что Twitter — это сервис, являющийся гремучей смесью блога с ICQ. Но все же это не совсем блог. Он именно средство общения и получения информации. С помощью него вы можете познакомиться с интересными вам людьми даже если вы не добавлены друг у друга в лист контактов.

Если нужный вам человек не подписан на ваши обновления, вы все равно можете отвечать на его сообщения, просто вставляя в форму ответа его имя со знаком @ впереди . В итоге он вас заметит и вы сможете законтачиться в любой удобной для вас форме (icq и т.п.).

Ну а кроме этого, конечно же, Twitter может приводить на ваш сайт посетителей в количестве, пропорциональном количеству ваших фоловеров, если вы, например, настроите автоматический постинг заголовков ваших новых материалов. Но об этом и о том, и настроить постинг туда заголовков новых статей с вашего вебсайта, я расскажу следующей статье.

Кстати, разработчики Твиттера недавно запустили еще одни социальный проект, правда, ориентированный на пользователей мобильных гаджетов — . Оно сейчас здорово быстро набирает популярность, поэтому советую ознакомиться с приведенной по ссылке статьей, чтобы, так сказать, не отставать от жизни...

Удачи вам! До скорых встреч на страницах блога сайт

Вам может быть интересно

FriendFeed - что этого такое, регистрация, настройка канала и общение, а так же автопостинг сообщений с сайта в Твиттер
Как я увеличил посещаемость на сайте до 300 человек в день?
Управление репутацией в поисковых системах (методы SERM)
Ротапост - заработок для блогов на продаже ссылок или продвижение сайта через биржу Rotapost
Seo форумы, блоги и социальные сети - что почитать и где почерпнуть информацию по продвижению сайтов
Яндекс ты лапочка, но Гугл лучше и другие поисковые приколы Pr.Sape - как покупать вечные ссылки и размещать статьи, а так же как добавить свой сайт в биржу Пр Сапе и начать зарабатывать
Как раскрутить сайт самому и бесплатно
Как писать статьи в WordPress - визуальный и Html редакторы, заголовки и выделение ключевых слов
Рейтинги сайтов и блогов - куда стоит добавить свой сайт, блог или форум

В 2006 году состоялась первая передача короткого сообщения - твита. Это произошло 21 марта в 20 часов 50 минут по Тихоокеанскому времени. В этот момент Джек Дорси передал сообщение: «just setting up my twttr». Так началась эпоха Twitter.

Твиттер - это социальная сеть , «фишка» которой заключается в том, что пользователи могут оставлять только короткие сообщения, не длиннее 140 символов.

А если превышают, тогда что? Тогда в силу вступает правило быть простым и лаконичным. Но это правило действует эмпирически. То есть, с одной стороны, оно действует, а с другой - нет. Слишком длинное сообщение может разбиваться на два или три коротких. И существовать в таком виде.

Вообще, возможности этой социальной сети гораздо шире, чем можно представить. Сначала можно было публиковать только сообщения. Позже система усовершенствовалась и к ним стали добавляться фотографии и видеофайлы. Кроме того, к тексту можно добавлять и ссылки.

Зачем это нужно

Казалось бы, зачем такое вообще может быть нужно?! Но в действительности этот формат быстро нашел применение. Комментарии, шутки, мнения - всё это люди любят. А твиттер как раз под это и «заточен».

Как раз из-за этой краткости социальной сетью начали активно пользоваться известные люди: политики, музыканты, писатели и представители других публичных профессий. Ведь, с одной стороны, им нужно быть открытыми, а с другой - не взболтнуть чего лишнего.

Как зарегистрироваться

1 . Открываем официальный сайт twitter.com , заполняем небольшую форму с правой стороны и нажимаем «Регистрация».

2 . Если все заполнено верно (возле каждого пункта стоит птичка), опять нажимаем «Регистрация».

3 . Затем система попросит указать номер телефона.

Этот шаг можно и пропустить, но лучше всё же добавить свой номер. Иначе ваша страница может быть взломана в любой момент.

4 . И последний этап - выбор логина . Вам нужно придумать английское название для своего твиттера, такое, которого еще в системе нет. Можно выбрать одно из тех, что указаны в «Рекомендации».

Этот шаг тоже можно пропустить, но тогда система назначит вашему твиттеру случайное имя. Обычно оно не очень симпатичное. Согласитесь, гораздо приятнее, когда называние такое @nazvanie, а не такое: @bCbMjODYcAfqqAb

Вот и всё! Осталось сделать кое-какие настройки (ответить на парочку вопросов) и личная страница готова.

А еще можно подписываться на страницы других людей, ставить лайки к постам, комментировать их, делать ретвиты (перепосты у себя на странице).

Твиттеры известных людей

Начну с наших, отечественных знаменитостей:

Перед тем как внести изменения в файл robot.txt, думаю, будет не лишним рассказать, что это за файл и для чего он нужен. Те, кто уже знаком с данным файлом первую часть текста могут пропустить.

Robots.txt что это за файл и для чего он нужен

Это обычный текстовый файл, который нужен исключительно для поисковых систем, именно он служит для указания (или если хотите рекомендации) поисковым роботам, что и как индексировать. От правильно составленного файла robot.txt зависит многое, с его помощью можно закрыть сайт от поисковых роботов или наоборот, разрешить обход только определенных разделов сайта. Поэтому грамотное его составление является одной из приоритетных задач в SEO оптимизации сайта.

Для того чтобы правильно отредактировать файл robots.txt сначала необходимо определиться с его расположением. Для любого сайта, в том числе, созданном в CMS Joomla 3, данный файл находится в корневой директории (папке) сайта. После установки Joomla 3 этот файл уже присутствует, но его содержание далеко от идеала.

Синтаксис файла robots.txt

В Joomla 3 файл robots.txt в базовом варианте содержит только самое основное, его содержимое примерно такое:

User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/

В самом начале файла может содержаться еще текст, но он, скажем так, закомментирован символом «#». Проще говоря, строка, вначале которой содержится символ «#» не учитывается поисковыми роботами и для уменьшения размера файла их можно смело удалять. Таким образом, базовый файл robot.txt будет иметь именно указанное выше содержание. Давайте разберем каждую строку.

Первая строка содержит директиву User-agent, в качестве параметров которой выступает имя робота, который будет индексировать сайт. Таким образом, следующие за ней директивы будут обрабатываться только указанным роботом. Параметров может быть множество, но давайте рассмотрит только те, которые нужны именно нам:

  • User-agent: * #Данный параметр со значением "*" говорит, что следующий за данной строкой текст будет содержать информацию для всех роботов без исключения.

У данного параметра существуют и другие значения, самые распространенные из них это робот Яндекса и Гугла:

  • User-agent: Yandex #как понятно из названия параметр предназначен для роботов Яндекса, причем для всех роботов, которых у Яндекса больше 10 штук, рассматривать каждый по отдельности не вижу смысла.
  • User-agent: Googlebot #а это основной индексирующий робот Гугла.

Стоит отметить, если вы не указали директиву User-agent, то роботы будут думать, что им разрешен обход всего сайта, то есть доступ не ограничен. Так что не стоит ею пренебрегать.

Следующая директива Disallow , она необходима, для запрета поисковым роботам индексировать определенные разделы, она играет очень важную роль, поскольку Joomla славится созданием дублей страниц.

На этом директивы в базовом файле robots.txt закончились, но их гораздо больше чем две. Все описывать не буду, напишу только то, что действительно нужно для правильной индексации сайтов на Joomla. 

Составляем правильный файл robots.txt для Joomla 3

Избавлю Вас от лишнего текста и сразу приведу пример моего файла robots.txt, а к строчкам допишу комментарии:

User-agent: * # указываем что следующие директивы предназначены для всех роботов без исключения Host: сайт #Директива указывает на главное зеркало сайта, по рекомендациям Яндекса её желательно размещать после директив Allow и Disallow Disallow: /administrator Disallow: /component/slogin/* #запрет обхода левых страниц создаваемых компонентом авторизации Slogin (если такого компонента нет, то директиву убираем) Disallow: /component/jcomments/ #Запрещаем роботам скачивать страницы создаваемые компонентом JComments (убираем если не используется) Disallow: /component/users #Таким же образом запрещаем обход других левых страниц Disallow: /bin/ #Запрет обхода системных папок Disallow: /cache Disallow: /cli Disallow: /includes Disallow: /installation Disallow: /language Disallow: /layouts Disallow: /libraries Disallow: /logs Disallow: /tmp Disallow: /components Disallow: /modules Disallow: /plugins Disallow: /component/content Disallow: /component/contact Disallow: /404 #закрываем 404 ошибку от глаз робота Disallow: /index.php? #урлы с параметрами, таких страниц Joomla может создать великое множество, они не должны попасть в индекс Disallow: /*? #урлы с вопросами Disallow: /*% #урлы с процентами Disallow: /*& #урлы со знаком & Disallow: /index.php #убираем дубли, их так же быть не должно Disallow: /index2.php #снова дубли Allow: /*.js* #Данная директива разрешает роботам индексировать файлы с указанными расширениями. Allow: /*.css* Allow: /*.png* Allow: /*.jpg* Allow: /*.gif* Allow: /index.php?option=com_jmap&view=sitemap&format=xml #Разрешаем обход карты сайта, в противном случае она будет под запретом..php?option=com_jmap&view=sitemap&format=xml #Данная директива предназначена для указания работу места хранения карты сайта в xml формате

Вот примерно такой файл robot.txt используется на данном сайте, в нем указаны как разрешающие , так и запрещающие директивы , указано главное зеркало сайта , а также путь до карты сайта . Разумеется, для каждого сайта все индивидуально и директив может быть гораздо больше. Но на данном примере можно понять основные принципы работы с файлом «робот тхт» и в дальнейшем раздавать запреты либо разрешения на определенные страницы уже конкретно под ваш сайт.

Хочу добавить, что вопреки рекомендациям Яндекса о том, что директиву Host лучше располагать после директив Disallow и Allow я все же разместил её почти в самом верху. А сделал я это после того как после очередного обхода сайта роботом Яндекс сообщил мне о том, что не может найти данную директиву. Был ли это временный сбой, или что-то еще я проверять не стал и вернул данную директиву в самый верх.

Обратите внимание на последнюю директиву, имя которой Sitemap, она необходима для указания поисковому роботу на место расположения карты сайта, это очень важный момент. Что такое файл Sitemap и какова его роль в продвижение сайта можно почитать в

Файл robots.txt текстовой файл, для управления поведением поисковых машин при сканировании сайта. Используя директории disallow можно закрывать от сканирования отдельные страницы сайта, его разделы и сайт целиком. Однако, disallow закрывают индексирование страниц только для ботов Яндекс.

О файле robots.txt

Не стоит откладывать шаги по подготовке сайта к индексации до заполнения его материалами. Основную подготовку сайта к индексации можно сделать сразу после создания сайта.

Основными инструментами для управления поисковых систем Google, Яндекс, Bing и других является текстовой файл robots.txt. С помощью файла robots.txt можно управлять, что поисковики должны сканировать, а что им следует обходить. Яндекс читает директивы файла robots.txt не только для разрешения на сканирование, но и разрешения на индексирование страниц. Если страница есть в запрете robots, Яндекс, через некоторое время уберет её из индекса, если она там есть, и не индексирует, если страницы нет в индексе.

Файл robots.txt это текстовой файл, размещаемый в корне сайта. В нем по определенным правилам прописывается, какой материал сайта поисковики должны сканировать, а какой материал «обходить стороной». Задать правила поведения поисковиков по отношению к материалу сайта необходимо в файле robots.txt.

Чтобы посмотреть, как выглядит файл robots.txt (если он есть в каталоге сайта), достаточно в строке браузера к имени сайта, через слеш приписать robots.txt.

Создается файл robots.txt по определенным правилам. Правила эти называют синтаксис файла. Подробно синтаксис файла robots.txt можно посмотреть на Яндекс (https://help.yandex.ru/webmaster/?id=996567 ). Здесь остановлюсь на основных правилах, которые помогут создать файл robots.txt для сайта Joomla.

Правила создания файла robots.txt

Для начала обращу ваше внимание: файл robots.txt должен создаваться индивидуально, учитывая особенности структуры сайта и политики его продвижения. Предложенный вариант файла является условным и примерным и не может претендовать на универсальность.

Каждая строка в файле называется директива. Директивы файла robots.txt имеют следующий вид:

<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>

<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>

<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>

Пустой файл robots.txt означает индексацию всего сайта.

Казалось бы, что тут плохого. Пусть поисковики сканируют и индексируют весь материал сайта. Но это хорошо пока сайт пустой. С наполнением его материалами, постоянным редактированием, загрузкой фото, удалением материалов в индексацию попадают статьи, которые уже не имеют отношения к сайту, дублированные страницы, старые архивы, и другой мусорный материал. Поисковики этого не любят, особенно дубли страниц, да и за этим «мусором» основной материал может теряться.

Директивы файла robots.txt

  • «User-agent» это именное или общее обращение к поисковикам.
  • «Allow» это разрешающие директивы;
  • «Disallow» это запрещающие директивы.

Директива «User-agent»

Если в строке User-agent поисковик не указан, в строке «User-agent» стоит звездочка (*), значит, все директивы файла robots.txt относятся ко всем поисковикам.

Можно задать правила индексации для определенного поисковика. Например, правила для Яндекс должны прописываться в директиве «User-agent» ,так

User-agent: Yandex

Приведу пример других поисковиков,которые можно прописать в директории «User-agent».

  • Google Googlebot
  • Yahoo! Slurp ( или Yahoo! Slurp)
  • AOL Slurp
  • MSN MSNBot
  • Live MSNBot
  • Ask Teoma
  • AltaVista Scooter
  • Alexa ia_archiver
  • Lycos Lycos
  • Яндекс Yandex
  • Рамблер StackRambler
  • Мэйл.ру Mail.Ru
  • Aport Aport
  • Вебальта WebAlta (WebAlta Crawler/2.0)

Важно! В файле robots.txt обязательна, должна быть директива «Disallow». Даже если весь файл robots.txt пустой, директива «Disallow» в нем быть должна.

Разберем знаки синтаксиса, которые задают правила индексации

Разрешены следующие специальные символы «звездочка» (*); слеш (/); и ($).

  • Символ «звездочка» (*) означает «любой» , «все».
  • Символ ($) отменяет (*)
  • Символ слеш (/) в одиночестве означает корневую директорию сайта, как разделитель слеш (/) показывает пути к файлам, для которых пишется правило.

Например, строка:

Disallow:

Означает запрет «ни для кого»,то есть отсутствие запрета для всего сайта. А строка:

Disallow: /

Означает запрет «для всех»,то есть запрет для всех папок и файлов сайта. Строка типа:

Disallow: /components/

Полностью формирует запрет на всю папку /components/ ,которая находится по адресу: http://ваш_сайт/components/

А вот строка

class="eliadunit"> Disallow: /components

Создает запрет на папку “components” и на все файлы и папки начинающиеся на “components”. Например: “components56”;”components77”.

Если к приведенным примерам директорий “Disallow”, добавить для какого поисковика это правило создано, получаем готовый файл robots.txt

User-agent: Yandex Disallow:

Это файл robots.txt который означает, что поисковик Yandex может индексировать весь сайт без исключений.

А такое написание строк:

User-agent: Yandex Disallow: /

Наоборот полностью запрещает Yandex индексировать весь сайт.

Принцип понятен, разберу несколько примеров и в конце приведу классические файлы robots.txt для Yandex и Google.

Следующий пример это файл robots.txt шаблонного (только, что установленного) сайта на Joomla

User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/

Этот файл robots.txt определяет правила для всех поисковиков и запрещает индексацию 15 папок сайта, находящихся в корневой директории (корне) сайта.

Дополнительная информация в файле robots.txt

В файле robots.txt нужно указать поисковикам адрес карты-сайта Sitemap и зеркальный домен для поисковика Yandex.

  • Sitemap: http://exempl.com/sitemap.xml.gz
  • Sitemap: http://exempl.com/sitemap.xml

Отдельно можно сделать robots.txt для Яндекс,чтобы в нем сделать директиву Host и в ней указать зеркало сайта.

Host: www.vash-site.com # означает, что основное зеркало сайта с www.

Host: vash-site.com #означает, что основной домен сайта без www.

Важно! При написании файла robots.txt не забывайте про пробел после двоеточия, и после двоеточия всё должно быть написано в нижнем регистре.

Важно! Старайтесь не использовать шаблоные файла robots.txt взятвые из Интернет (кроме robots.txt Joomla по умочанию). Каждый фал robots.txt должен составляться индивидуально и редактироваться в зависимости от посещаемости сайта и его SEO анализа .

В конце статьи приведу пример правильного файла robots.txt для сайта на Joomla.

User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /tmp/ Disallow: /templates/ User-agent: Yandex Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /templates/ Disallow: /*?* Host: domen.ru (или https://domen.ru) Sitemap: http://domen.ru/sitemap.xml (или https://domen.ru/sitamap.xml)

Выводы

Несмотря на традиции, замечу, для закрытия страниц сайт от индексации используйте внутренние инструменты CSM. Во всех редакторах контента есть вставке тегов noindex, nofollow.

  • закрытия всего сайта при его создании;
  • закрытия сайта от ненужных поисковиков;
  • закрытия личных разделов;
  • снижения нагрузки на сервер (директива crawl-delay).
  • закрытия индексации страниц пейджинга, сортировки и поиска;
  • Закрывать дубли страниц только для Яндекс, а для Google использовать средства CMS;
  • Не пытаться удалить из индекса Google страницы и разделы. Это работает только для Яндекс.

В итоге, еще раз замечу, файл robots.txt для сайта Joomla составляется индивидуально. Для начала работ используйте коробочную версия файла robots.txt.disc, который переименуйте в robots.txt и разделите на две секции, одна для Яндекс и вторая, для всех остальных ботов. Для Яндекс обязательно добавьте директорию Host, указав в ней главное зеркало сайта.

​Для того, чтобы узнать есть ли robots.txt на сайте, достаточно просто в адресной строке браузера добавить "/robots.txt", полный вид выглядит так: "http://вашсайт.ru/robots.txt". Практически на каждом интернет ресурсе есть этот robots.txt, именно этот файл определяет и дает поисковому роботу возможность индексировать или не индексировать разделы, категории веб-сайта. Плохо настроенный robots.txt или вообще просто оставленный по-умолчанию, порой может дать плохой результат в поисковой выдаче в виде дублированных страниц, страниц пагинации и так далее. Все это может привести к фильтрам и санкциям со стороны поисковой системы, если в Google это маловероятно, то в Яндексе из-за неверного robots.txt можно легко пропасть из результатов поиска.

Что же такое robots.txt?

Robots.txt - файл формата *.txt расположенный в корневой папке вашего сайта. Файл robots.txt содержит ряд инструкций для поисковых роботов, которые говорят как нужно индексировать веб-сайт. Правильно составленный robots.txt - залог успешной индексации вашего проекта в сети Интернет!

Правила и термины robots.txt

В начале файла robots.txt указана наиболее значимая директива, которая определяет название поискового робота -User-agent . Если ваш ресурс не относится к русскоязычному сегменту, директива будет называться -User-agent: * (для всех поисковых роботов), а для Яндекса добавляем к User-agent нужно добавить название Yandex - User-agent: Yandex.

Затем следуют директивы Allow и Disallow , которые определяют возможность индексирования. Директива Allow разрешает индексацию, а Disallow запрещает .

Если файл robots.txt будет пустой или будет просто отсутствовать, поисковой робот будет индесировать весь сайт, включая ненужные мусорные страницы, которых в поисковой выдаче быть не должно.

Директива Host определяет главное зеркало веб-сайта и ее считывает только робот поисковой системы Яндекс.

Последняя важная часть каждого файла robots.txt в Joomla является директива Sitemap . Именно Sitemap помогает избежать дублированного контента и подсказывает роботу Яндекса правильные адреса на новые материалы. Карта сайта на Joomla указывается в формате XML.

User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*.pdf Disallow: /*% Disallow: /index.php Host: vash_sait.ru (или www.vash_sait.ru) Sitemap: http://путь к вашей карте XML формата User-agent: * Allow: /*.css?*$ Allow: /*.js?*$ Allow: /*.jpg?*$ Allow: /*.png?*$ Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /*mailto/ Disallow: /*.pdf Disallow: /*% Disallow: /index.php Sitemap: http://путь к вашей карте XML формата