Пример Файла robots.txt — запрет индексации.


Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt.  Это текстовый файл, находящийся в корневой директории сайта (там же где и главный файл index.), в нем записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации папки или страницы  сайта, указать роботу на главное зеркало сайта, рекомендовать поисковому роботу соблюдать определенный временной интервал индексации сайта и многое другое. Пример файла robots.txt

Чтобы создать файл robotx.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл robots.txt. Важно, чтобы его название и расширение было написано строчными буквами. Как вы уже могли понять, robox.txt содержит инструкции для поисковика — что индексировать, а что нет. Файл состоит из одной или нескольких инструкций, каждая из которых пишется с новой строки. В свою очередь, каждая инструкция должна состоять из двух частей. Первая определяет, кому это относится, то есть какой поисковик должен следовать данной инструкции, вторая — что именно нельзя индексировать. Первая часть называется, User-agent. Если вы хотите обратиться ко всем поисковикам, то можете писать User-agent: *. Вторая часть Disallow, (запретить). Если вы хотите запретить индексацию всех страниц сайта, то нужно написать Disallow: /, если же разрешаете обрабатывать сайт полностью, то после Disallow должна следовать пустота Disallow: . Вы можете указать, какие папки (Disallow: /имя папки/) или же файлы (Disallow: имя файла. расширение) не следует индексировать.

Примеры использования файла robots.txt

Символ # используется для обозначения начала комментария (текст, игнорируемый роботом). Например:

User-agent: * #Запрет индексации папки cgi
Disallow: /cgi/

Пример 1. Разрешаем индексировать все страницы сайта всем поисковикам (примечание: эквивалентом данной инструкции будет пустой файл robots.txt):

User-agent: *
Disallow:

Пример 2. Запрещаем индексировать все страницы сайта всем поисковикам:

User-agent: *
Disallow: /

Пример 3. Разрешаем индексировать всем кроме Яндекса:

User-agent: Yandex
Disallow: /

Пример 4. Запрещаем индексировать всем поисковикам кроме Яндекса (примечание: обратите внимание на обязательную пустую строку между двумя инструкциями, без нее файл не будет воспринят правильно)

User-agent: Yandex
Disallow:

User-agent: *
Disallow: /

Пример 5. Яндексу запрещаем индексировать папки cgi и images, а Апорту файлы myfile1.htm и myfile2.htm в директории dir

User-agent: Yandex
Disallow: /cgi/
Disallow: /images/

User-agent: Aport
Disallow: /dir/myfile1.htm
Disallow: /dir/myfile2.htm

Пример 6. Весьма актуальная проблема.  Запрещаем индексировать динамические ссылки, пример (?sl=…) всем поисковикам:

User-agent: *
Disallow: /*?sl* #Запрет индексации динамических ссылок

Пример 7. Указание значения для Disallow без открывающего слеша приведет к тому, что робот пропустит не только папки с таким именем, но и файлы. В следующем примере, роботы не будут индексировать папку с именем myfile, а также все файлы, имеющие данное имя например myfile.php.

User-agent: *
Disallow: myfile

Пример 8. Итоговый пример файла robots.txt

User-agent: * #Запрет индексации папок cgi и images для всех поисковиков
Disallow: /cgi/
Disallow: /images/

User-agent: Google #Запрет индексации файлов myfile1.htm и myfile2.htm для Google
Disallow: /myfile1.htm
Disallow: /myfile2.htm

User-agent: * #Запрет индексации файлов spisok.php и vsakaya-fignya.php для всех поисковиков
Disallow: /spisok.php
Disallow: /vsakaya-fignya.php

User-agent: *
Disallow: /*?sl*
#Запрет индексации динамических ссылок с переменной sl

Анализ и проверка правильности составления robots.txt.

При правильном использовании robots.txt у вас не должно возникнуть проблем с поисковиками, но могут возникнуть сложности со слишком любопытными посетителями. Дело в том, что они спокойно могут просмотреть содержимое файла, введя в адресную строку http://имя сайта/robots.txt. Увидев, какие файлы и папки вы скрываете, они решат обратить свой взор именно на эти части сайта, заинтересовавшись, что же вы там хотели спрятать. Поэтому если вы указываете какую-то папку в robots.txt, то непременно обязаны поместить в нее index.php или (.htm, .phtml, .shtml, .xml, .php, .asp, .pl — кому что больше по душе). Тогда при вводе в адресную строку http://имя_сайта/имя_заветной_папки пользователь получит не список имеющихся в ней файлов, что совсем неприемлемо для безопасности сайта, а ту информацию, которую вы напишите в индекс-файле. К тому же размещение файла index в каждой папке должно быть для вас обязательным пунктом, даже если у вас отсутствует robots.txt.

  1. Очень интересно ваше мнение о директиве host, нужно ли ее употреблять и меняет она что-то или нет?

  2. Дмитрий:

    Андрей, о директиве host можете прочесть http://help.yandex.ru/webmaster/?id=996567#996574

  3. ЛОТОС:

    Просто для информации любопытно, а правило:
    User-agent: *
    Disallow:
    аналогично правилу (если такое вообще есть)?:
    User-agent: *
    Allow: /

  4. нет, только запрет

  5. Антон:

    Скажите, а как запретить от индексации в robots.txt внешние ссылки?

  6. А как запретить индексацию блока на дле {dle-inform}?

  7. Все содержание файла robots.txt приведено ниже. Роботы игнорируют мой robots.txt! Сегодня обнаружил, что Google в картинках проиндексировал даже капчу (посмотреть:
    [ссылка]
    ), хотя каталог /comments/, где она и находится, закрыт для индексирования. Также индексируются страницы из папки /v3v/, причем всеми роботами (Yandex, Rambler, Google, Yahoo). Пожалуйста, объясните, в чем может быть причина того, что роботы не слушаются моего robots.txt.

    User-Agent: *
    Disallow: /comments/
    Disallow: /v3v/
    Sitemap: [ссылка]
    Host: snt.pp.ru

  8. Tatjana:

    Вот, вот, и мне было бы интересно узнать, что надо и как прописать в robots.txt, чтоб запретить индексацию каких-то определенных внешних ссылок, например: подписаться на RSS, добавить в закладки, ну или отдельные внешние ссылки?
    A? Не подскажите?

  9. Вот в чем была ошибка. Надо в robots.txt указывать не названия папок, а пути к ним от корня сайта. Тогда все работает.

    Неправильно:
    Disallow: /comments/

    Правильно:
    Disallow: /pages/comments/

    (для случая, когда папка comments вложена в папку pages)

    ———————————————
    Татьяне. Запретить роботам переходы по всем ссылкам, расположенным на определенной странице, можно метатегом

  10. А не знаете нужно ли закрывать от индексации разделы? Т.е. например [ссылка] закрывать или нет?

  11. Art:

    у меня вообще его нет. Плохо?

  12. Max:

    Если я закрою весь сайт от индексации, но в xml карте сайта нужные мне страницы прописаны. Робот ведь все равно проиндексирует сайт по карте, которая для него первична, игнорируя robots.txt или нет?

  13. Alex:

    Если я напишу такой мета тег meta name=»robots» content=»index, nofollow»
    то робот как я понимаю будет индексировать страницу,но по ссылка переходить не будет? я прав скажите пойалуйста! %)

  14. А как запретить индексацию html страниц?
    Когда я перехожу через поисковик к себе на блог вижу такую надпись »
    Не найдено Извините, но того, что Вы ищете, тут нет.»
    Вот например [ссылка]

  15. За Disallow: /*?sl* — громадное спасибо. На моем сайте нужно было убрать из индекса все страницы с листалкой кроме первой, и я благодаря вам использовал конструкцию /*?count=* — помогло!! 8)

    • admin:

      ну только у вас другая переменная sl это пример, /*?переменная* это чтоб всем было понятно *CRAZY*

  16. Если я закрою весь сайт от индексации, но в xml карте сайта нужные мне страницы прописаны. Робот ведь все равно проиндексирует сайт по карте, которая для него первична, игнорируя robots.txt или нет?
    Ответ: не делай так, весь сайт вылетит из поиска. После исправления будеш ждать недели.

    Если я напишу такой мета тег meta name=»robots» content=»index, nofollow»
    то робот как я понимаю будет индексировать страницу,но по ссылка переходить не будет? я прав скажите пойалуйста!
    Ответ: верно

    • admin:

      Роботы лазиют по ссылкам в независимости запрещены они к индексации или нет! Вот будет ли проиндексирована страница на которую робот перейдет это вопрос, если страница не запрещена к индексации в роботс или в мета тегах самой страницы то поисковик может ее проиндексировать. :P

  17. не все понятно. например как открыть для индексации базовый url страницы, но закрыть пейджер
    по типу /info — отрыть
    но /info?page=2 и /info?page=3 — закрыть

  18. Nina:

    А какая ошибка здесь — не пойму, ребята: в robots.txt прописано
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes

    При проверке Яндекс мне пишет:
    1: User-agent: * Обнаружена неизвестная директива
    2: Disallow: /cgi-bin Перед правилом нет директивы User-agent

    Если вам понятно, объясните неразумному. На мой взгляд все правильно.

  19. А возможно ли закрыть через роботс определенную исходящую ссылку с сайта?

    Что-то вроде:
    User-agent: All
    Disallow: [ссылка].


etxt.ru    

Спонсоры