Tipy pro webový hacking # 4 s @SushiHack Adamem Bacchusem

Můj web běží několik let bez problémů, ale nedávno jsem si všiml, že moje kořenová adresa URL na Google nezobrazuje žádný popis / název.

Nástroj pro webmastery hlásí tuto chybu:

Procházení povoleno?

 Ne: blokováno souborem robots.txt Načtení stránky  Selhalo: Blokováno souborem robots.txt

Tady je můj robots.txt, který je docela jednoduchý a umožňuje všechny požadavky:

User-agent: * Allow: / 

Potvrdil jsem, že nemám žádnou značku HTML blokující index, moje meta roboti jsou <meta name='robots' content='index, follow' />

Nejste si jisti, proč se mi zobrazuje tato chybová zpráva. Tester robots.txt (https://www.google.com/webmasters/tools/robots-testing-tool) nehlásí žádnou chybu, ale přesto se mi tento problém zobrazuje už> 3 týdny.

Také kořenová adresa URL vrací HTTP 200

HTTP/1.1 200 OK Date: Sat, 15 Sep 2018 18:41:34 GMT Content-Type: text/html Connection: keep-alive Last-Modified: Sat, 15 Sep 2018 18:20:13 GMT Expect-CT: max-age=604800, report-uri='https://report-uri.cloudflare.com/cdn-cgi/beacon/expect-ct' Server: cloudflare CF-RAY: 45ad3a6cab3192d6-SJC 

Napadá vás, v čem by mohl být problém? To se děje pouze u mé kořenové adresy URL.

  • 1 Těžko říct, co to je, aniž bych zvlášť znal adresu URL webu, ale aktualizoval bych vaši syntaxi z Allow: / na Disallow: (tj. nic nepovolit) a zjistěte, zda se tím něco změní při příštím procházení vašeho webu. Také se ujistěte, že nikde na vašem webu není konfliktní soubor robots.txt, který by mohl být vygenerován nějakým pluginem nebo jiným.
  • 1 Říká Google Search Console, kdy bylo datum posledního procházení? Možná to nebylo prolezeno od poslední aktualizace souboru robots.txt.
  • Nezměnil jsem roboty a vlastně jsem se pokusil úplně odstranit Disallow a ponechat pouze Allow, stejný problém. Pokud jde o druhou otázku, Google se každý den pokoušel načíst moji kořenovou adresu URL (poslední procházení 17. září 2018, 16:20:04).

Může to být z následujících důvodů:

  1. Ukládání do mezipaměti (Váš web nebo DNS ukládá do mezipaměti váš web a Google nedokáže přečíst váš aktualizovaný soubor robots.txt.)

  2. Změňte syntaxi souboru robots.txt na:

    User-agent: * Disallow: 
  • Soubor robots.txt již byl před pár dny změněn tak, aby úplně odstranil Disallow, stejný problém. Pokud jde o ukládání do mezipaměti, nic jsem nezměnil (moji roboti jsou stejní několik měsíců)
  • Používáte CloudFlare nebo nějaký plugin pro ukládání do mezipaměti?
  • Ano, používám CloudFlare. Nic se však nezměnilo. Ověřil jsem, že nemám žádný seznam zakázaných WAF / IP / Blacklist uživatelských agentů a vynucené vyčištění mezipaměti, stále štěstí. Také jsem se pokusil použít „starou“ konzolu Google Webmaster a „Fetch and Render“ jako google a fungovalo to

Pracoval pro vás: Charles Robertson | Chcete nás kontaktovat?