Когда вы занимаетесь SEO для сайт, то часто нужно скрыть какую-либо часть сайта или же целую страницу целиком. В этой записи я расскажу о том как это можно сделать.

Первый способ: meta noindex

Если вам нужно закрыть какую-либо определенную страницу сайта, то можно воспользоваться meta тэгом, который запретить индексацию целой страницы.

Чтобы запретить индексацию страницы для всех ботов, то вы можете воспользоваться HTML кодом ниже.

<meta name="robots" content="noindex">

Если вы нацелены на определенный поисковик (например: Google), то вы можете это сделать как показано ниже.

<meta name="googlebot" content="noindex">

Официального источника можно найти по этой ссылке.

Второй способ: noindex тэг

Если вам нужно спрятать из индексации определенную часть страницы вашего сайта, то вы можете воспользоваться <noindex> тэгом.. Как в примере ниже.

<noindex>
     <p>Боты не будут этого считывать</p>
</noindex>

Все что указано внутри noindex остается вне видимости бота. В целом, информация внутри все равно читается им, но остается проигнорирована при поиске какой-либо информации через поисковик.

Третий способ: файл robots.txt

robots.txt является самым распространенным видом установки ограничения для просмотра контента ботами. Другими словами, данный файл устанавливает инструкции для ботов (что можно смотреть, а что нет).

Идеального варианта этого файла не существует. Для каждого проекта должен иметься свой собственный robots.txt файл, который правильно настроен и скрывает нежелательные папки/разделы сайта.

Имейте ввиду, что не все боты будут следовать этому файлу. Есть множество других плохих и хороших ботов, которые просто путешествуют по вебу, собирают информацию и тд.

Что я точно вам могу сказать: robots.txt не будет проигнорирован известными поисковыми системами.

Некоторые из примеров я использовал с этого источника. Если кому интересно, зайдите и посмотрите (достаточно не плохой ресурс).

Пример 1

Данный пример имеет два свойства.

User-agent — которое говорит роботу, что любой тип может посетить страницу
Disallow — запрещает индексировать какие-либо страницы на сайте, который установит этот robots.txt

User-agent: *
Disallow: /

А вот этот пример (ниже), разрешить посещать любые страницы сайта.

User-agent: *
Disallow:

Пример 2

Пример ниже запрещает ботам посещать папку cgi-bin и tmp в корне сайта. Вы можете прописывать сколько захотите Disallow, чтобы полностью расписать инструкции для бота.

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/

Пример 3

Данный пример использует два разных правила.

Первое — это устанавливает правила только для User-agent: Google бота. И разрешает ему анализировать любые страницы сайта.

Второе — это все остальные боты User-agent: *, которые не могут смотреть никакие страницы сайта.

User-agent: Google
Disallow:

User-agent: *
Disallow: /

Чтобы запретить индексаю для определенного файла, можно просто прописать полный путь до файла, от корня сайта. Например, у вас есть файл main.hml, который находится в /src/ папку, то ваш robots будет выглядеть как на примере ниже: