Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Это текстовый файл, находящийся в корневой директории сайта (там же где и главный файл index., для основного домена/сайта, это папка public_html), в нем записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации папки или страницы сайта, указать роботу на главное зеркало сайта, рекомендовать поисковому роботу соблюдать определенный временной интервал индексации сайта и многое другое
Если файла robotx.txt нет в каталоге вашего сайта, тогда вы можете его создать.
Чтобы запретить индексирование сайта через файл robots.txt, используются 2 директивы: User-agent и Disallow.
User-agent: УКАЗАТЬ_ПОИСКОВОГО_БОТА
Disallow: / # будет запрещено индексирование всего сайта
Disallow: /page/ # будет запрещено индексирование директории /page/
Примеры:
1. Запретить индексацию вашего сайта ботом MSNbot
User-agent: MSNBot
Disallow: /
2. Запретить индексацию вашего сайта ботом Yahoo
User-agent: Slurp
Disallow: /
3. Запретить индексацию вашего сайта ботом Yandex
User-agent: Yandex
Disallow: /
4. Запретить индексацию вашего сайта ботом Google
User-agent: Googlebot
Disallow: /
5. Запретить индексацию вашего сайта для всех поисковиков
User-agent: *
Disallow: /
6. Усложняем задачу и например Яндексу запрещаем индексировать папки cgi-bin и images, а Апорту файлы myfile1.htm и myfile2.htm в директории subdir (название папки где расположены файлы myfile1.htm и myfile2.htm)
User-agent: Yandex
Disallow: /cgi-bin/
Disallow: /images/
User-agent: Aport
Disallow: /subdir/myfile1.htm
Disallow: /subdir/myfile2.htm
7. Запрет индексации папок cgi-bin и images для всех поисковиков
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Теперь как разрешить индексировать все страницы сайта всем поисковикам (примечание: эквивалентом данной инструкции будет пустой файл robots.txt):
User-agent: *
Disallow:
P.S. Для различных CMS, в интернете можно найти рекомендации, какие директории лучше закрыть от индексации поисковиками., в большей степени это нужно ради безопасности и уменьшения нагрузки на сервер.