Ukázky souborů robots.txt pro vaše webové stránky

Soubor robots.txt uložený v kořenovém adresáři vašich webových stránek informuje webové roboty, jako jsou pavouci vyhledávačů, o tom, jaké adresáře a soubory mají procházet. Je snadné používat soubor robots.txt, ale některé věci byste si měli pamatovat:

  1. Webové roboty černého klobouku ignorují váš soubor robots.txt. Nejčastějšími typy jsou roboty malwaru a roboty, kteří hledají e-mailové adresy pro sklizeň.
  2. Někteří noví programátoři budou psát roboty, které ignorují soubor robots.txt. To se obvykle děje omylem.
  1. Každý soubor vašeho souboru robots.txt se může zobrazit. Jsou vždy nazývány robots.txt a jsou vždy uloženy v kořenovém adresáři webu.
  2. Konečně, pokud někdo odkazuje na soubor nebo adresář, který je vyloučen ze souboru robots.txt ze stránky, která není vyloučena jejich souborem robots.txt, vyhledávače ho mohou najít stejně.

Nepoužívejte soubory robots.txt k tomu, abyste skryli něco důležitého. Místo toho byste měli zadat důležité informace za zabezpečená hesla nebo je zcela nechat mimo web.

Jak používat tyto ukázkové soubory

Zkopírujte text ze vzorku, který je nejblíže tomu, co chcete udělat, a vložte jej do souboru robots.txt. Změňte názvy robotů, adresářů a souborů tak, aby odpovídaly vaší preferované konfiguraci.

Dva základní soubory Robots.txt

Uživatelský agent: *
Zakázat: /

Tento soubor říká, že každý robot (User-Agent: *), který k němu přistupuje, by měl ignorovat každou stránku na webu (Disallow: /).

Uživatelský agent: *
Zakázat:

Tento soubor říká, že každý robot (User-agent: *), který k němu přistupuje, je oprávněn prohlížet každou stránku na webu (Disallow:).

Také můžete provést tím, že soubor robots.txt zůstane prázdný nebo vůbec nemáte na svém webu žádný.

Chraňte konkrétní adresáře od robotů

Uživatelský agent: *
Zakázat: / cgi-bin /
Zakázat: / temp /

Tento soubor říká, že každý robot (User-agent: *), který k němu přistupuje, by měl ignorovat adresáře / cgi-bin / a / temp / (Disallow: / cgi-bin / Disallow: / temp /).

Chraňte konkrétní stránky od robotů

Uživatelský agent: *
Zakázat: /jenns-stuff.htm
Zakázat: /private.php

Tento soubor říká, že každý robot (User-Agent: *), který k němu přistupuje, by měl ignorovat soubory /jenns-stuff.htm a /private.php (Disallow: /jenns-stuff.htm Disallow: /private.php).

Zabraňte tomu, aby konkrétní robot mohl přistupovat k vašemu webu

Uživatelský agent: Lycos / xx
Zakázat: /

Tento soubor říká, že bot Lycos (User-agent: Lycos / xx) nemá přístup nikam na webu (Disallow: /).

Povolit pouze jeden specifický přístup k robotům

Uživatelský agent: *
Zakázat: /
Uživatelský agent: Googlebot
Zakázat:

Tento soubor nejprve zakáže všechny roboty, jako jsme učinili výše, a poté explicitně nechává Googlebot (uživatelský agent: Googlebot) přístup ke všemu (Disallow:).

Kombinujte více řádků, abyste získali přesně ty výjimky, které chcete

Zatímco je lepší používat řadu uživatelů včetně agenta User-Agent: *, můžete být tak konkrétní, jak se vám líbí. Pamatujte si, že roboty čte soubor v pořádku. Takže pokud první řádky říkají, že všichni roboté jsou zablokováni od všeho a pak později v souboru říká, že všem robotům je povolen přístup ke všemu, mají roboty přístup ke všemu.

Pokud si nejste jisti, zda jste správně napsali soubor robots.txt, můžete pomocí nástroje pro webmastery Google zkontrolovat soubor robots.txt nebo napsat nový.