Robots. txt – это специальный файл указывающий поисковому роботу на открытие страниц (записей) для индексации в поисковой системе, или наоборот о запрещении их индексировать. Большинство CMS уже содержат данный файл, который изменяется с помощью административной панели. Однако если Вы начинаете конструировать свой сайт с нуля, ниже приведена инструкция:
1. Создаётся файл robots с расширением. txt и в него записываются теги для поискового робота:
User-agent: робот (например Googlebot или Yandex) – указывает о допуске определённого робота Disallow: URL-адреса, которые необходимо блокировать – блокирует указанные урл-ссылки Allow: URL-адреса, на которые необходимо обращать внимание -указывает роботу те урл-ссылки, которые обязательно необходимо проиндексировать.
Или проще:
User-agent: * Disallow: /images/
На этом примере звёздочка значит, что индексация разрешена для всех поисковиков, запрещена индексация директории /images/
Для того чтобы научиться работать с файлом вам не нужно специальных знаний, достаточно всего-лишь открыть ваш блокнот, вставить соответствующий шаблон:
1. блокировать весь сайт – косая черта. Disallow: / 2. блокировать каталог и все содержание – после названия каталога косая черта. Disallow: /junkI-directory/ 3. блокировать страницу – укажите эту страницу. Disallow: /privatTe_file. html 4. удалить конкретное изображение из поиска картинок Google – добавьте следующую строку: User-agent: Googlebot-Image Disallow: /kartinki/sobakA. jpg 5. удалить все изображения с вашего сайта из поиска картинок Google – введите такую запись: User-agent: Googlebot-Image Disallow: / 6. заблокировать все файлы определенного типа (например, . gif) – используйте такую запись: User-agent: Googlebot Disallow: /*. gif$ Далее сохраняете файл как Robots. txt и закачиваете на корневую директорию вашего сайта.
Если вы не собираетесь делать ограничения, то данный файл необходимо оставить пустым.