Пример Файла robots.txt — запрет индексации.
Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Это текстовый файл, находящийся в корневой директории сайта (там же где и главный файл index.), в нем записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации папки или страницы сайта, указать роботу на главное зеркало сайта, рекомендовать поисковому роботу соблюдать определенный временной интервал индексации сайта и многое другое. Пример файла robots.txt
Чтобы создать файл robotx.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл robots.txt. Важно, чтобы его название и расширение было написано строчными буквами. Как вы уже могли понять, robox.txt содержит инструкции для поисковика — что индексировать, а что нет. Файл состоит из одной или нескольких инструкций, каждая из которых пишется с новой строки. В свою очередь, каждая инструкция должна состоять из двух частей. Первая определяет, кому это относится, то есть какой поисковик должен следовать данной инструкции, вторая — что именно нельзя индексировать. Первая часть называется, User-agent. Если вы хотите обратиться ко всем поисковикам, то можете писать User-agent: *. Вторая часть Disallow, (запретить). Если вы хотите запретить индексацию всех страниц сайта, то нужно написать Disallow: /, если же разрешаете обрабатывать сайт полностью, то после Disallow должна следовать пустота Disallow: . Вы можете указать, какие папки (Disallow: /имя папки/) или же файлы (Disallow: имя файла. расширение) не следует индексировать.
Примеры использования файла robots.txt
Символ # используется для обозначения начала комментария (текст, игнорируемый роботом). Например:
User-agent: * #Запрет индексации папки cgi
Disallow: /cgi/
Пример 1. Разрешаем индексировать все страницы сайта всем поисковикам (примечание: эквивалентом данной инструкции будет пустой файл robots.txt):
User-agent: *
Disallow:
Пример 2. Запрещаем индексировать все страницы сайта всем поисковикам:
User-agent: *
Disallow: /
Пример 3. Разрешаем индексировать всем кроме Яндекса:
User-agent: Yandex
Disallow: /
Пример 4. Запрещаем индексировать всем поисковикам кроме Яндекса (примечание: обратите внимание на обязательную пустую строку между двумя инструкциями, без нее файл не будет воспринят правильно)
User-agent: Yandex
Disallow:
User-agent: *
Disallow: /
Пример 5. Яндексу запрещаем индексировать папки cgi и images, а Апорту файлы myfile1.htm и myfile2.htm в директории dir
User-agent: Yandex
Disallow: /cgi/
Disallow: /images/
User-agent: Aport
Disallow: /dir/myfile1.htm
Disallow: /dir/myfile2.htm
Пример 6. Весьма актуальная проблема. Запрещаем индексировать динамические ссылки, пример (?sl=…) всем поисковикам:
User-agent: *
Disallow: /*?sl* #Запрет индексации динамических ссылок
Пример 7. Указание значения для Disallow без открывающего слеша приведет к тому, что робот пропустит не только папки с таким именем, но и файлы. В следующем примере, роботы не будут индексировать папку с именем myfile, а также все файлы, имеющие данное имя например myfile.php.
User-agent: *
Disallow: myfile
Пример 8. Итоговый пример файла robots.txt
User-agent: * #Запрет индексации папок cgi и images для всех поисковиков
Disallow: /cgi/
Disallow: /images/
User-agent: Google #Запрет индексации файлов myfile1.htm и myfile2.htm для Google
Disallow: /myfile1.htm
Disallow: /myfile2.htm
User-agent: * #Запрет индексации файлов spisok.php и vsakaya-fignya.php для всех поисковиков
Disallow: /spisok.php
Disallow: /vsakaya-fignya.php
User-agent: *
Disallow: /*?sl* #Запрет индексации динамических ссылок с переменной sl
Анализ и проверка правильности составления robots.txt.
При правильном использовании robots.txt у вас не должно возникнуть проблем с поисковиками, но могут возникнуть сложности со слишком любопытными посетителями. Дело в том, что они спокойно могут просмотреть содержимое файла, введя в адресную строку http://имя сайта/robots.txt. Увидев, какие файлы и папки вы скрываете, они решат обратить свой взор именно на эти части сайта, заинтересовавшись, что же вы там хотели спрятать. Поэтому если вы указываете какую-то папку в robots.txt, то непременно обязаны поместить в нее index.php или (.htm, .phtml, .shtml, .xml, .php, .asp, .pl — кому что больше по душе). Тогда при вводе в адресную строку http://имя_сайта/имя_заветной_папки пользователь получит не список имеющихся в ней файлов, что совсем неприемлемо для безопасности сайта, а ту информацию, которую вы напишите в индекс-файле. К тому же размещение файла index в каждой папке должно быть для вас обязательным пунктом, даже если у вас отсутствует robots.txt.
Очень интересно ваше мнение о директиве host, нужно ли ее употреблять и меняет она что-то или нет?
Андрей, о директиве host можете прочесть http://help.yandex.ru/webmaster/?id=996567#996574
Просто для информации любопытно, а правило:
User-agent: *
Disallow:
аналогично правилу (если такое вообще есть)?:
User-agent: *
Allow: /
нет, только запрет
Скажите, а как запретить от индексации в robots.txt внешние ссылки?
А как запретить индексацию блока на дле {dle-inform}?
Все содержание файла robots.txt приведено ниже. Роботы игнорируют мой robots.txt! Сегодня обнаружил, что Google в картинках проиндексировал даже капчу (посмотреть:
), хотя каталог /comments/, где она и находится, закрыт для индексирования. Также индексируются страницы из папки /v3v/, причем всеми роботами (Yandex, Rambler, Google, Yahoo). Пожалуйста, объясните, в чем может быть причина того, что роботы не слушаются моего robots.txt.
User-Agent: *
Disallow: /comments/
Disallow: /v3v/
Sitemap:
Host: snt.pp.ru
Вот, вот, и мне было бы интересно узнать, что надо и как прописать в robots.txt, чтоб запретить индексацию каких-то определенных внешних ссылок, например: подписаться на RSS, добавить в закладки, ну или отдельные внешние ссылки?
A? Не подскажите?
Вот в чем была ошибка. Надо в robots.txt указывать не названия папок, а пути к ним от корня сайта. Тогда все работает.
Неправильно:
Disallow: /comments/
Правильно:
Disallow: /pages/comments/
(для случая, когда папка comments вложена в папку pages)
———————————————
Татьяне. Запретить роботам переходы по всем ссылкам, расположенным на определенной странице, можно метатегом
А не знаете нужно ли закрывать от индексации разделы? Т.е. например закрывать или нет?
у меня вообще его нет. Плохо?
Если я закрою весь сайт от индексации, но в xml карте сайта нужные мне страницы прописаны. Робот ведь все равно проиндексирует сайт по карте, которая для него первична, игнорируя robots.txt или нет?
Вроде нет robots является самой приоритетной командой для индексации.
Если я напишу такой мета тег meta name=»robots» content=»index, nofollow»
то робот как я понимаю будет индексировать страницу,но по ссылка переходить не будет? я прав скажите пойалуйста!
А как запретить индексацию html страниц?
Когда я перехожу через поисковик к себе на блог вижу такую надпись »
Не найдено Извините, но того, что Вы ищете, тут нет.»
Вот например
За Disallow: /*?sl* — громадное спасибо. На моем сайте нужно было убрать из индекса все страницы с листалкой кроме первой, и я благодаря вам использовал конструкцию /*?count=* — помогло!!
ну только у вас другая переменная sl это пример, /*?переменная* это чтоб всем было понятно
Если я закрою весь сайт от индексации, но в xml карте сайта нужные мне страницы прописаны. Робот ведь все равно проиндексирует сайт по карте, которая для него первична, игнорируя robots.txt или нет?
Ответ: не делай так, весь сайт вылетит из поиска. После исправления будеш ждать недели.
Если я напишу такой мета тег meta name=»robots» content=»index, nofollow»
то робот как я понимаю будет индексировать страницу,но по ссылка переходить не будет? я прав скажите пойалуйста!
Ответ: верно
Роботы лазиют по ссылкам в независимости запрещены они к индексации или нет! Вот будет ли проиндексирована страница на которую робот перейдет это вопрос, если страница не запрещена к индексации в роботс или в мета тегах самой страницы то поисковик может ее проиндексировать.
не все понятно. например как открыть для индексации базовый url страницы, но закрыть пейджер
по типу /info — отрыть
но /info?page=2 и /info?page=3 — закрыть
А какая ошибка здесь — не пойму, ребята: в robots.txt прописано
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
При проверке Яндекс мне пишет:
1: User-agent: * Обнаружена неизвестная директива
2: Disallow: /cgi-bin Перед правилом нет директивы User-agent
Если вам понятно, объясните неразумному. На мой взгляд все правильно.
А возможно ли закрыть через роботс определенную исходящую ссылку с сайта?
Что-то вроде:
User-agent: All
Disallow: .