Когда вы занимаетесь SEO для сайт, то часто нужно скрыть какую-либо часть сайта или же целую страницу целиком. В этой записи я расскажу о том как это можно сделать.
Первый способ: meta noindex
Если вам нужно закрыть какую-либо определенную страницу сайта, то можно воспользоваться meta тэгом, который запретить индексацию целой страницы.
Чтобы запретить индексацию страницы для всех ботов, то вы можете воспользоваться HTML кодом ниже.
<meta name="robots" content="noindex">
Если вы нацелены на определенный поисковик (например: Google), то вы можете это сделать как показано ниже.
<meta name="googlebot" content="noindex">
Официального источника можно найти по этой ссылке.
Второй способ: noindex тэг
Если вам нужно спрятать из индексации определенную часть страницы вашего сайта, то вы можете воспользоваться <noindex>
тэгом.. Как в примере ниже.
<noindex> <p>Боты не будут этого считывать</p> </noindex>
Все что указано внутри noindex остается вне видимости бота. В целом, информация внутри все равно читается им, но остается проигнорирована при поиске какой-либо информации через поисковик.
Третий способ: файл robots.txt
robots.txt
является самым распространенным видом установки ограничения для просмотра контента ботами. Другими словами, данный файл устанавливает инструкции для ботов (что можно смотреть, а что нет).
Идеального варианта этого файла не существует. Для каждого проекта должен иметься свой собственный robots.txt
файл, который правильно настроен и скрывает нежелательные папки/разделы сайта.
Имейте ввиду, что не все боты будут следовать этому файлу. Есть множество других плохих и хороших ботов, которые просто путешествуют по вебу, собирают информацию и тд.
Что я точно вам могу сказать: robots.txt
не будет проигнорирован известными поисковыми системами.
Некоторые из примеров я использовал с этого источника. Если кому интересно, зайдите и посмотрите (достаточно не плохой ресурс).
Пример 1
Данный пример имеет два свойства.
User-agent
— которое говорит роботу, что любой тип может посетить страницуDisallow
— запрещает индексировать какие-либо страницы на сайте, который установит этотrobots.txt
User-agent: * Disallow: /
А вот этот пример (ниже), разрешить посещать любые страницы сайта.
User-agent: * Disallow:
Пример 2
Пример ниже запрещает ботам посещать папку cgi-bin
и tmp
в корне сайта. Вы можете прописывать сколько захотите Disallow
, чтобы полностью расписать инструкции для бота.
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/
Пример 3
Данный пример использует два разных правила.
Первое — это устанавливает правила только для User-agent: Google
бота. И разрешает ему анализировать любые страницы сайта.
Второе — это все остальные боты User-agent: *
, которые не могут смотреть никакие страницы сайта.
User-agent: Google Disallow: User-agent: * Disallow: /
Чтобы запретить индексаю для определенного файла, можно просто прописать полный путь до файла, от корня сайта. Например, у вас есть файл main.hml, который находится в /src/ папку, то ваш robots будет выглядеть как на примере ниже:
User-agent: * Disallow: /src/main.html