Jak generovat soubor Robots.txt

Pracuji na tomto webu Dealsin.us a nástroj pro webmastery Google ukazuje, že soubor robots.txt blokuje více než 9800 adres URL. Zde si můžete prohlédnout soubor robots.txt. Zablokoval jsem některé adresáře, které nejsou určeny pro uživatele a pouze pro zaměstnance za webem. Jsem opravdu zmatený a ocenil bych jakoukoli pomoc v tomto ohledu.

Nástroje pro webmastery vám zobrazovaly všechny adresy URL, které jste zablokovali robots.txt (v části Chyby procházení) se však zdá, že tato funkce již neexistuje. Existuje pouze část Crawler Access, která uvádí, kolik adres URL je blokováno.

Pokud se vaše stránky ve výsledcích vyhledávání zobrazují bez problémů (rychle site: vyhledávání ukazuje, že tomu tak je), pak se pravděpodobně nemusíte bát. Pravděpodobně to někde vychází z některých dalších parametrů adresy URL, například pokud vaše stránka „odeslání“ obsahuje parametr pro každou kategorii, pak se všechny tyto zobrazí jako blokované.

Při pohledu na soubor robots.txt si však všimnu několika věcí. Za prvé, pokud se nemýlím s řádkem „povolit“ přepíše řádky nad ním! Jak poznamenal Ilmari v komentářích, nepřepíše jiná pravidla, ale je prostě nadbytečný. Tento řádek byste měli odebrat, protože ve výchozím nastavení je vše procházeno.

Za druhé, řádek „sitemap“ by měl být oddělen od zbytku, tj. Mít za ním prázdný řádek. A * zástupný znak po /engine/ nedělá nic, protože soubor robots.txt se stejně shoduje pouze od začátku adresy URL.

  • The Allow řádek je prostě nadbytečný: při analýze Allow Pravidla jsou poněkud nestandardizovaná, téměř všechny analyzátory robots.txt, které je vůbec podporují, se budou řídit buď a) prvním nebo b) nejkonkrétnějším pravidlem shody. Jako Allow: / pravidlo je jak poslední, tak nejméně konkrétní a také se rovná výchozímu (což je umožnění všech adres URL), nemá žádný účinek. Přesto, vzhledem k tomu, že je nadbytečný, doporučil bych jej odebrat, i když jen pro zkrácení souboru o několik bajtů.
  • @Ilmari ano, vypadá to, že tomu tak je. To ukazuje, jak šetrně by měl být použit soubor robots.txt. Chcete-li zakázat adresář, ale povolit podadresář, pravděpodobně bude možné vylepšit strukturu webu.
  • Stále čelím problému, Google stále zobrazuje 7500+ blokovaných adres URL, což poškozuje provoz na mých webových stránkách.
  • @Vijay, jak poškozují váš provoz? Pokud jsou blokovány složky, odeberte je ze souboru robots.txt.

Pracoval pro vás: Charles Robertson | Chcete nás kontaktovat?