International Journal of Mobile Human Computer Interaction

Google si v poslední době stěžuje na určité stránky a říká:

Indexed, though blocked by robots.txt 

Jsem zmaten touto chybou. Ano, stránka je blokována souborem robots.txt a vždy byla. Nic nového se nestalo a Nechci, aby to bylo procházeno nebo indexováno. Proč google indexuje stránku, když jí to výslovně říkám? Uvědomuji si, že mohu přidat metaznačku jako <meta name='robots' content='noindex'> ale proč by to mělo být nutné?

Google vaši stránku neprochází, ale indexuje adresu URL. Nejde o indexování obsahu stránky, pouze o samotnou adresu URL, případně spolu s ukotveným textem odkazů, které na ni odkazují. Google říká:

Robotizovanou stránku lze stále indexovat, pokud na ni odkazujete z jiných webů I když Google nebude procházet ani indexovat obsah blokovaný souborem robots.txt, stále můžeme najít a indexovat nepovolenou adresu URL, pokud je propojena z jiných míst na webu. Výsledkem je, že se adresa URL a případně další veřejně dostupné informace, například text ukotvení v odkazech na stránku, mohou stále zobrazovat ve výsledcích vyhledávání Google. Chcete-li zabránit tomu, aby se vaše URL zobrazovala ve výsledcích Vyhledávání Google, měli byste soubory na serveru chránit heslem nebo použít metaznačku noindex nebo záhlaví odpovědi (nebo stránku zcela odstranit).

Důvodem je to, že některé důležité weby neumožňují žádné procházení. Jedním z takových stránek je (nebo byl) kalifornský DMV. Je důležité, aby uživatelé mohli vyhledávat kalifornské DMV, i když Google nemůže procházet stránky. Matt Cutts z Googlu zveřejnil o tomto problému v roce 2006.

Když Google indexuje stránku blokovanou souborem robots.txt, obvykle se ve výsledcích vyhledávání objeví něco podobného (zdroj obrázku):

Pokud stránku vůbec nechcete indexovat, musíte ji nechat Google procházet a použít <meta name='robots' content='noindex'> štítek. Pamatujte, že pokud stránku zablokuje soubor robots.txt, Google tuto značku nikdy neuvidí a adresa URL bude stále indexována.

Druhou „experimentální“ možností by bylo použít Noindex: spíše než Disallow: v souboru robots.txt. Podívejte se, jak funguje „Noindex:“ v souboru robots.txt? Jedinou nevýhodou je, že Google říká, že ji může kdykoli přestat podporovat. Jiné vyhledávače nebudou vědět, co s touto směrnicí dělat, takže byste ji museli umístit do sekce robots.txt specifické pro Google. V roce 2019 Google oznámil, že již nepodporuje a noindex: směrnice v souboru robots.txt.

  • Děkuji Stephenovi za podrobnou odpověď a vaše postřehy - existuje nějaký způsob, jak Googlu říct, aby neindexoval nebo procházet stránku? Prostě úplně ignorujete určité adresy URL? Například dotyčná adresa URL je cílem formuláře na mé domovské stránce, který nastavuje jazykový soubor cookie. Nemá téměř smysl mít indexování a bylo by divné zahrnout a <meta> označte tam, protože to je určeno pouze ke zpracování proměnné relace. Stránka ve skutečnosti nikdy nic nevykreslí, ale pouze nastaví soubor cookie a přesměruje zpět na místo, kde byla dříve - takže si nejsem jistý, jak bych mohl tuto metaznačku dokonce nastavit.
  • 1 Nechal bych Google procházet tuto stránku. Googlebotovi nic neublíží, když narazí na adresu URL, ale Google neindexuje přesměrování, takže problém by se o sebe postaral sám.
  • 1 Věci můžete implementovat způsobem, který Google odrazuje od objevování a procházení adresy URL. např. Google obvykle nenásleduje formuláře založené na POST nebo kliknutí na stránky založené na JavaScriptu (tj. Č
  • 1 Nezapomeňte také, že existuje X-Robots-Tag noindex Záhlaví HTTP, které můžete použít, pokud byste raději neměnili označení.
  • Metoda záhlaví HTTP je užitečná také v případě souborů PDF, kde nemůžete přidat metaznačku

Chladný...! Podle mé analýzy chcete implementovat noindex & disallow pro konkrétní stránky nebo kategorii nebo značky.

Noindex: Když implementujete noindex pro stránku; tyto stránky nejsou indexovány na SERP, ale robot může tyto stránky stále procházet.

Disallow: Když implementujete disallow pro soubor / stránku / adresář, tyto stránky nebudou roboty procházeny, ale zobrazí se ve výsledcích vyhledávání. Pokud je to tak, musíte nejprve nastavit noindex pro tyto stránky. Po procházení webu musíte implementovat disallow v souboru robots.txt.

Doufám, že rozumíte mým věcem.

Je to běžný problém, ale stane se to, když zablokujeme interní nebo externí odkazované stránky. Tyto odkazy můžete odebrat nebo můžete počkat, až se to automaticky vyřeší. Jak jste uvedli, že tyto příspěvky jsou již indexovány, musíte je implementovat značka noindex a odstranit zakázat ze souboru robots.txt

Pracoval pro vás: Charles Robertson | Chcete nás kontaktovat?

užitečné informace