Snažím se pomocí httrack zrcadlit svůj blog, který je aktuálně hostován na bloggeru. Problém: navzdory souboru robots.txt se httrack pokusí stáhnout vše v podadresáři / search. To vede k nekonečnému regresu vyhledávání na vyhledávání.

Tady je soubor robots.txt (nahradil jsem název svého blogu názvem „myblog“):

User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Allow: / Sitemap: http://myblog.blogspot.com/feeds/posts/default?orderby=updated 

Mohu omezit procházení na hloubku 3 nebo 4, ale v zrcadleném adresáři stále dostávám spoustu souborů hledání * .html a search / label / *. Html.

httrack tvrdí, že sleduje robots.txt. Proč to tady nefunguje? Co mohu udělat, abych to napravil?

  • 1 Jen proto, že jste to nezmínili: Ujistili jste se, že jste pro projekt nevypnuli následující pravidla robotů a nezapomněli jste? Je na kartě Pavouci možností.
  • Dobrá otázka. Právě jsem spustil httrack pomocí výchozího nastavení plus -r4 k omezení hloubky rekurze.

Nevím jistě, ale možná httrack čte vaše pravidlo „Povolit“, které přepíše pravidlo „Zakázat“.

Pravidlo „Povolit“ byste měli odebrat bez ohledu na to, protože je zbytečné. Uživatelští agenti budou ve výchozím nastavení procházet vše. Zablokovali jste adresář vyhledávání, to je vše, co je požadováno.

  • Dobrý návrh. V tomto případě nemám kontrolu nad obsahem souboru robots.txt, takže nemohu soubor upravit.

Pracoval pro vás: Charles Robertson | Chcete nás kontaktovat?