Secrets: Building Super Fast Sites // Vlog # 21

Pracuji na výzkumném projektu a mám otázku.

Řekněme, že bych chtěl procházet všechny stránky daného webu. V případě, že je mému robotu blokován přístup k určité části webu, udělal bych potřebuji vědět jistě že byl zablokován a že existuje alespoň jedna část webu, která nebyla procházena. Je to technicky proveditelné podle současného protokolu? Jinými slovy, nechci, aby byl můj bot blokován podvodným způsobem, což by mě vedlo k domněnce, že byl prolezen celý web, i když ve skutečnosti tomu tak není.

Já bych potřebuji vědět jistě že byl zablokován .... nechci, aby byl můj bot blokován podvodným způsobem ....

Není skutečně možné „na jistotu“ (tj. 100%) zjistit, zda byl váš robot zablokován, pokud byl zablokován „klamným způsobem“.

Stránka by teoreticky mohla vrátit stav 200 OK a to, co vypadá jako platné tělo odpovědi, přesto jste stále byli „zablokováni“ v zobrazení zamýšleného obsahu. Za účelem detekce tohoto typu „bloku“ byste mohli porovnat odpověď, kterou dostanete, s „známým“ platný odpověď „na„ neblokovaný "požadavek. Jak ale zjistíte, že„ je znám platný odpověď “a co když má očekávaná reakce dynamický charakter?

Google musí při určování „maskovaných“ odpovědí něco takového udělat (když je Googlebotovi doručeno něco jiného, ​​než co vidí běžný uživatel) - ale velmi pochybuji, že je to 100%.

Pokud je použit .htaccess ...

Proč zmínka o .htaccess? Myslel bych si, že přesná metoda použitá k zablokování robota není relevantní? Ale stejně můžete robota „klamně“ zablokovat .htaccess sama.

Pracoval pro vás: Charles Robertson | Chcete nás kontaktovat?