Komentovat s'occuper de la filtrace de ta piscine coque?

Moje aplikace Heroku (Bamboo) získává spoustu zásahů od škrabky, která se označuje jako GSLFBot. Googling pro toto jméno vytváří různé výsledky lidí, kteří došli k závěru, že nerešpektuje soubor robots.txt (např. Http://www.0sw.com/archives/96).

Zvažuji aktualizaci své aplikace tak, aby měla seznam zakázaných uživatelských agentů, a obsluhování všech požadavků od těchto uživatelských agentů 400 nebo podobných a přidání GSLFBot do tohoto seznamu. Je to účinná technika, a pokud ne, co mám místo toho dělat?

(Jako vedlejší poznámku se zdá divné mít hrubý škrabák s výrazným uživatelským agentem.)

  • 2 Jedinou věcí, kterou by bylo možné obejít vaše omezení, by byla změna řetězce user-agent robota.
  • Je to pravda, ale na druhou stranu to lze interpretovat jako míru lenivosti nebo alespoň nezájmu ze strany těch, kteří škrabku vytvořili. Zde není žádná ideální volba, ale pokud je řetězec identifikátoru agenta hlavní identifikační informací, která je k dispozici, pak je třeba alespoň pro tuto chvíli použít.
  • Vím, že s tímto příkladem kódu se zabývá alespoň jedna další otázka. Jen to musím najít.
  • @JohnConde Vidím, že otázky mají stejná témata, ale duplicitní otázka na to sotva dodává kanonickou odpověď - určitě můžeme a měli bychom udělat lépe, to je velký problém pro některé webmastery.
  • Zdá se, že se mě ptají na stejnou otázku. Pokud druhá otázka nemá skvělou odpověď, musíme k ní přidat jednu (za předpokladu, že někdo může). Ale ponecháním tohoto otevřeného nic nedosáhnete a umístíte informace na dvě různá místa, což StackExchange nechce.

Perisable press má dobrý přístup k práci se škrabkami obsahu, stejně jako Chris Coyer z CSS Tricks obecný názor je nedělat nic a využít to tam, kde můžete. Shrnutí dobrých rad z tisku podléhajícího rychlé zkáze níže ...

Jak se vypořádat se škrabkami obsahu

Jaká je tedy nejlepší strategie pro zacházení s mrzouty na škrábání obsahu? Moje osobní třístupňová strategie zahrnuje následující úrovně akce:

  • Nedělat nic.
  • Vždy zahrňte spoustu interních odkazů
  • Zastavte je dobře umístěným plátkem htaccess

Toto jsou nástroje, které používám při práci se škrabkami obsahu. U větších webů, jako je DigWP.com, souhlasím s Chrisem, že ve skutečnosti není nutná žádná akce. Pokud do svých příspěvků aktivně vkládáte spoustu interních odkazů, škrábaný obsah se rovná odkazům zpět na vaše stránky. Například získání odkazu v článku Smashing Magazine okamžitě poskytuje stovky zpětných odkazů díky všem zlodějům a pijavicím, kteří kradli obsah Smashing Mag. Posypání několika interních odkazů v rámci vašich příspěvků vám přináší výhody několika fantastickými způsoby:

  • Poskytuje odkazy zpět na váš web z odcizeného / poškrábaného obsahu
  • Pomáhá vašim čtenářům najít nové a související stránky / obsah na vašem webu
  • Usnadňuje vyhledávačům hluboké procházení na váš web

Takže nedělejte nic, pokud si můžete dovolit, abyste si s tím nedělali starosti; jinak si zvykněte přidávat spoustu interních odkazů, abyste využili výhody šťávy z odkazů zdarma. Tato strategie funguje skvěle, pokud se nezačnete škrábat na některých zlověstnějších webech. V jakém případě..

Síť stohů je městem pro škrábání obsahu, takže by bylo zajímavé vyslechnout rady některých vysoce postavených správců k tomuto tématu ...

  • škrábané zpětné odkazy jsou bezcenné

Pracoval pro vás: Charles Robertson | Chcete nás kontaktovat?

užitečné informace