Google змінив правила файла robots.txt

На цьому тижні популярна пошукова система Гугл змінила правила для файлу роботс.

Пошукові і інші боти сканують цей файл, щоб знати, до яких адрес у них є доступ, а до яких немає. Файл відомий уже 25 років, але він досі не затверджений офіційно. У файлу є власний протокол, він називається Robots Exclusion Protocol.

Найбільш помітною знімою стало те, що Гугл видалив протокол noindex , який, до речі, тільки він сам і підтримував.

Google вирішив офіційно затвердити протокол REP, і подав офіційну заявку в IETF.

Ось список того, що зміниться в правилах robots.txt:

  1. Тепер директиви можна використати не тільки до протоколів HTTP/HTTPS , а й до FTP / CoAP
  2. Пошукові павуки мають сканувати перші 512 кБ файлу, все інше не сканується і не приймається до уваги.
  3. Директиви в файлі будуть кешуватись. Звичайний кеш становитиме 24 години, витавити інший час кешу можна через заголовок Cache-Control
  4. Якщо файл перестане бути доступним для завантаження, директиви будуть використовуватись з попередньо завантаженого файлу роботс.тхт

Правила, які не будуть опубліковані в офіційній специфікації – не будуть підтримуватись Google. Саме це сталося з директивою noindex , вона перестане підтримуватись з 1.09.2019 року.

Якщо ви користувались цією директивою, вам слід замінити її на інші способи.

Відомо три способи замінити robots.txt noindex:

  1. <meta name=”robots” content=”noindex”>
  2. HTTP header X-Robots-Tag: noindex
  3. Код відповіді сервера 404 або 410

При цьому ваша сторінка гарантовано не буде індексуватись.

Картинка - гугл і робот
1 Star2 Stars3 Stars4 Stars5 Stars (Еще нет оценки, будьте первым)
Loading...
стрілка

Понравилась статья? Подпишись на обновления блога, и получай самую свежую информацию на свой e-mail!

Свежая информация в сфере SEO:

Один коментар для “Google змінив правила файла robots.txt”

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *