Nedávno jsem povolil všem svým serverům zobrazovat vše přes HTTP a HTTPS. Uživatelé mohou přistupovat k jakýmkoli stránkám prostřednictvím stránek http://www.example.com nebo https://www.example.com. Všechny stránky jsou mezi verzemi stejné, takže http://www.example.com/about.php je stejný jako https://www.example.com/about.php a tak dále.

Adresy URL jsou relativní, takže protokol až na jednu výjimku nezmiňují. Jinými slovy, pokud je stránka načtena pomocí protokolu HTTP, bude odkazovat na jiné stránky, obrázky, CSS, Javascript přes HTTP a to samé s HTTPS, aby se předešlo smíšenému varování obsahu.

Nyní o té výjimce. Je v souboru robots.txt:

Sitemap: http://www.example.com/sitemap.php 

Tato adresa URL musí být zjevně absolutní.

Nyní vidím problém, když zjistí, že když Google přečte https://www.example.com/robots.txt, získá soubor Sitemap pro HTTP! Dokumentace na robots.org říká, že lze určit více souborů Sitemap, ale pokud si nejsem jistý, že uvedení jak souboru Sitemap pro HTTP, tak HTTPS je dobrý nápad, protože každá bude obsahovat seznam identických stránek (jedna s HTTP a druhá s HTTPS). .

Jak by měl být zpracován soubor Sitemap v souboru robots.txt pro weby, které přijímají HTTP a HTTPS?

Některé nápady, které mi přišly na mysl:

  • Zadejte oba soubory Sitemap (jak je uvedeno výše). Bojí se, že by to způsobilo problémy s duplicitním obsahem.
  • Určete pouze soubor Sitemap pro HTTPS. To stejně poskytuje přístup ke všem jedinečným stránkám.
  • Najděte magický (Apache) způsob, jak odeslat jiný soubor robots.txt přes HTTP a HTTPS. Je to vůbec možné? Mohlo by to způsobit problémy?

  • Google používá soubory Sitemap jako jeden ze způsobů, jak určit, které z vašich adres URL jsou kanonické. Do svého souboru Sitemap tedy vložte verzi, do které má Google odesílat provoz. Viz mapa stránek Paraox
  • Nějaký konkrétní důvod, proč explicitně nenastavujete HTTPS jako kanonický a přesměrování?
  • @DocRoot - to přináší několik otázek! Kanonické látky používám již dlouho (na stránkách, které je potřebují), ale existuje někdy důvod, proč kanonické látky používat a přesměrovat?
  • Značka kanonického odkazu je silnou radou pro vyhledávač, na kterou stránku chcete indexovat výsledek vyhledávání. Pokud si myslíte, že můžete indexovat obě verze pro stejnou stránku, pak to není pravda. Když zadáte obě verze, bude Google procházet obě stránky, což znamená plýtvání šířkou pásma a Google může zpozdit indexování i vašich dalších důležitých stránek. Google bot přichází na váš web s omezeným rozpočtem procházení. Přečtěte si 3. nejčastější dotazy.

Mapa stránek na http://www.example.com/sitemap.php může obsahovat pouze adresy URL z http://www.example.com/systém a hostitel musí být stejný.

Pokud tedy chcete 1) poskytnout soubory Sitemap pro oba protokoly a 2) propojit oba soubory Sitemap prostřednictvím Sitemap v souboru robots.txt, musíte zadat samostatné soubory robots.txt pro HTTP a HTTPS:

# http://www.example.com/robots.txt Sitemap: http://www.example.com/sitemap.php 
# https://www.example.com/robots.txt Sitemap: https://www.example.com/sitemap.php 

(Mělo by to být snadné dosáhnout pomocí Apache, viz například odpovědi na Existuje způsob, jak zakázat procházení pouze HTTPS v souboru robots.txt?)

Možná však budete chtít poskytnout soubor Sitemap pouze pro kanonickou variantu (např. Pouze pro HTTPS), protože nemá smysl nechat vyhledávače analyzovat soubor Sitemap pro nekanonickou variantu, protože obvykle by nechtěly indexovat některou z jeho adres URL. Pokud by tedy HTTPS měl být kanonický:

  1. Na každé stránce HTTP propojte její verzi HTTPS s canonical typ odkazu.
  2. Poskytujte soubor Sitemap pouze na HTTPS, uvádějte pouze adresy URL HTTPS.
  3. Propojte soubor Sitemap (ideálně pouze) ze souboru HTTPS robots.txt.

¹ S výjimkou případů, kdy jsou použity křížové zadání.

  • Vynikající a velmi komplexní.
http://www.example.com/about/ http://www.example.com/about http://example.com/about/ http://example.com/about https://www.example.com/about/ https://www.example.com/about 

Tento druh duplicitního obsahu, který Google zpracovává již před mnoha lety. Nejprve si tedy nedělejte starosti s duplicitním obsahem.

Je naprosto v pořádku obsluhovat verzi webu HTTP a HTTPS ve stejnou dobu, zvláště když migrujete svůj web z HTTP na HTTPS, Stackoverflow to také udělal v minulosti.

Google zde bude indexovat pouze jednu verzi vaší webové stránky, to znamená, že nebude indexovat obě verze http://www.example.com/about.php a https://www.example.com/about.php. Ve většině případů ve výchozím nastavení zvolí HTTPS

A opět není nutné přidávat soubor sitemap do souboru robots.txt. Zvláště když myslíte na Google (není to ask.com), protože nám dává možnost odeslat náš soubor Sitemap do nástroje pro webmastery. Vytvořte tedy dvě vlastnosti do vyhledávací konzoly jako http://www.example.com a https://www.example.com a odeslat tam individuální soubor Sitemap.

Nevím, proč to myslíte se souborem sitemap, robots.txt a všemi věcmi tak vážně. Google může procházet a indexovat jakoukoli webovou stránku bez souboru Sitemap, například wikipedia nemá žádný soubor Sitemap, ale procházení probíhá často, protože mají dobrou strukturu interních odkazů.

  • Google doporučuje odesílat soubory Sitemap a soubor robots.txt slouží užitečným účelům, takže je nechci odstranit, pokud k tomu není závažný důvod.
  • Google to nikdy nedoporučuje. Říká se, že můžeme zachytit i váš soubor Sitemap ze souboru robots.txt, ale pokud jste již odeslali do vyhledávací konzoly, pak je to v pořádku. Pokud je váš soubor Sitemap veřejný, může kdokoli odebrat data z vašeho webu. Pokud je vaším hlavním zájmem Google, pak právě teď přemýšlíte.
  • Skvělý odkaz. Jeden z nejjasnějších textů, který Google zveřejnil! OK. Teď jsem odeslal soubor Sitemap pro HTTPS, protože ten druhý tam už byl. Počkám asi týden, než uvidím, co se stane.

Pracoval pro vás: Charles Robertson | Chcete nás kontaktovat?