Правильный robots.txt для Wordpress
Удивительно, но меньше половины владельцев сайтов используют файл robots.txt.
Хочу показать Вам наиболее частые ошибки которые допускаются при составлении данного файла от которых часто много зависит из стороны SEO.
Так как, на блоге использую движок Wordpress, то в качестве примера приведу написание файла robots.txt специально для Wordpress.
User-Agent: *
Allow: /wp-content/up/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: site.ru
Sitemap: http://site.ru/sitemap.xml
По всей видимости, мы запретили индексацию тех файлов и папок которые содержат служебные документы, а также если активный плагин (J)Exr, который делает внешние ссылки внутренними , закрываем папку, которая указана в его настройках. Также страницы поиска по блогу, которые совсем не нужны в индексе.
Если говорить о других CMS сайтов, то часто встречается такая ошибка, что сайт доступный и сайт.com и сайт.com/index.php. А из позиции SEO это дубль главной страницы, которая не желательно для сайта.
Обязательно закройте страницы которая дублирует главную страницу:
Disallow: /index.php
Следующая ошибка заключається в том, что часто указывая Яндекс (как он просит указывать) как воспринимать Ваш домен с «www» или без. Также адрес размещение карты сайта тем же вы освобождаете его от команды «user-agent: *».
И теперь Яндекс будет игнорировать запреты какие мы адресовали всем поисковым роботам, а значит нужно для Яндекса прописывать те же команды, которые и для всех роботов.
Также помните, пустой сроки перед «Host» не должно быть.
| RSS |
| Email |
| Twitter! |



