воскресенье, 23 декабря 2018 г.

Файл robots.txt для сайта на Joomla



Основными инструментами индексации сайта в поисковых системах Google,Яндекс,Bing и других  являются карта-сайта Sitemap и текстовой файл Robots.txt.Если карта-сайта создает cтруктуру cfqnf, которую можно выложить в интернет, то с помощью файла Robots.txt можно управлять, что поисковики должны индексировать, а что от них нужно спрятать.

Файл  Robots.txt это текстовой файл, размещаемый в корне сайта. В нем по определенным правилам прописывается, какой материал сайта поисковики должны индекировать, а какой материал «обходить стороной». Задать правила поведения поисковиков по отношению к материалу сайта необходимо в файле   Robots.txt

Чтобы посмотреть, как выглядит файл Robots.txt достаточно в строке браузера к имени сайта, через слеш приписать  robots.txt

Создается файл robots.txt по определенным правилам. Правила эти называют синтаксис файла. Подробно синтаксис файла robots.txt можно на Яндекс. Здесь остановлюсь на основных  правилах, которые помогут создать файл robots.txt для wordpress/joomla.

Правила создания файла robots.txt

Каждая строка в файле называется директива. Директивы файла robots.txt имеют следующий вид:
<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>
<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>
<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>
Следует отметить, что пустой файл robots.txt означает индексацию всего сайта.
Казалось бы, что тут плохого. Пусть поисковики индексируют весь материал сайта. Но это хорошо пока сайт пустой. С наполнением его материалами, постоянным редактированием, загрузкой фото, удалением материалов в индексацию попадают статьи, которые уже не имеют отношения к сайту, дублированные страницы, старые архивы, а поисковики это не любят, да и за этим «мусором» основной материал может теряться.

Директивы файла robots.txt

 «User-agent» это директива для обозначения поисковика.
«Allow» это разрешающие директивы;
«Disallow» это запрещающие директивы.

Директива «User-agent»

 Если поисковик не указан, а в директиве «User-agent» стоит звездочка (*), значит, все директивы файла относятся ко всем поисковикам.
Можно задать правила индексации для определенного поисковика. Например, правила для  Яндекс должны прописываться в директиве «User-agent» ,так
User-agent: Yandex
Приведу пример других поисковиков ,которые можно  прописать в  директории «User-agent».
Google           Googlebot
Yahoo!            Slurp (или Yahoo! Slurp)
AOL            Slurp
MSN         MSNBot
Live           MSNBot
Ask          Teoma
AltaVista     Scooter
Alexa           ia_archiver
Lycos            Lycos
Яндекс               Yandex
Рамблер          StackRambler
Мэйл.ру              Mail.Ru
Aport             Aport
Вебальта         WebAlta (WebAlta Crawler/2.0)

Важно! В файле robots.txt обязательна, должна быть директива  «Disallow».Даже если весь файл robots.txt пустой, директива «Disallow» в нем быть должна.

Разберем знаки синтаксиса, которые задают правила индексации

Разрешены следующие специальные символы «звездочка» (*); слеш (/); и ($).
  • Символ «звездочка» (*) означает «любой» , «все».
  • Символ ($) отменяет (*)
  • Символ слеш (/) в одиночестве означает корневую директорию сайта, как разделитель слеш (/) показывает пути к файлам, для которых пишется правило.
Например, строка:
Disallow:
Означает запрет «ни для кого»,то есть отсутствие запрета для всего сайта.
А строка:
Disallow: /
Означает запрет «для всех»,то есть запрет для всех папок и файлов сайта.
Строка типа:
Disallow: /components/
Полностью формирует запрет на всю папку  /components/ ,которая находится по адресу: http://ваш_сайт/components/
 А вот строка 
Disallow: /components
Создает запрет на папку   "components" и на все файлы и папки начинающиеся на "components".Например: "components56";"components77".
Если к приведенным примерам директорий "Disallow",  добавить для какого поисковика это правило создано, получаем готовый файл robots.txt
User-agent: Yandex
Disallow:
Это файл robots.txt  который означает, что поисковик Yandex  может индексировать весь сайт без исключений. 
А такое написание строк:
User-agent: Yandex
Disallow: /
Наоборот полностью запрещает Yandex индексировать весь сайт.
Принцип понятен, разберу несколько примеров и в конце приведу классические файлы robots.txt для Yandex и Google.
Например, файл robots.txt для шаблонного сайта Wordpress выглядит так: 
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
 Этот файл означает, что правила индексации прописываются в файле robots.txt для всех поисковиков. Поисковикам запрещено индексировать папки /wp-admin/ и /wp-includes/ находящихся в корневом каталоге сайта.
Следующий пример это файл robots.txt шаблонного (только, что установленного)сайта на Joomla
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Опять таки этот файл robots.txt определяет правила для всех поисковиков и запрещает индексацию 15 папок сайта, находящихся в корневой директории (корне) сайта.

Дополнительная информация в файле robots.txt

В  файле robots.txt нужно указать поисковикам адрес карты-сайта Sitemap и зеркальный домен для поисковика Yandex.
Sitemap: http://exempl.com/sitemap.xml.gz
Sitemap: http://exempl.com/sitemap.xml
Отдельно можно сделать robots.txt для Яндекс,чтобы в нем сделать директиву Host и в ней указать зеркало сайта.
Host: www.exempl.com
Где  [exempl.com] это Ваш_сайт
Важно! При написании файла robots.txt не забывайте про пробел после двоеточия, и что после двоеточия все должно быть написано в нижнем регистре.
В конце статьи приведу пример правильного файла robots.txt для сайта на Joomla.
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
 
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: vash_sait.ru
Sitemap: http://ВАШ-САЙТ/Адрес карты сайта

Evernote помогает вам помнить всё и без труда организовать свою жизнь. Загрузить Evernote.

0 коммент.:

Отправить комментарий