Wikipedia MWdumper

Chtěl bych mít možnost každý týden vytvářet offline verzi stránek MediaWiki.

Rozšíření DumpHTML vlastně dělá, co chci, protože vypíše všechny články a mediální soubory, ale nevidím žádný index všech článků, které má vypuštěné, takže nemohu procházet na výpisu.

Při čtení o funkci výpisu XML, kterou MediaWiki má, mě zajímá, zda by bylo možné tyto soubory zobrazit pomocí programu nebo je převést na html?

Nebo existují jiné způsoby, jak vytvořit offline verzi stránky MediaWiki?

  • Opravdu potřebujete index? Stačí začít v Main Page a sledujte odkazy odtamtud.
  • Tady jsou pokyny Cam Webba k vytvoření statické verze webu MediaWiki. Tady jsou moje vlastní, pro případ, že by někomu pomohli. Oba dávají odkazy na statický výsledek (můj zde).

Můžete použít nástroj webcrawler, který uloží web jako soubory HTML. Všechny odkazy budou převedeny, takže můžete otevřít hlavní stránku, řekněme, a poté kliknout na odkazy a dostat se na celý web.

Existuje celá řada těchto nástrojů. Používám wget, který je založen na příkazovém řádku a má tisíce možností, takže není příliš přátelský. Je však docela silný.

Zde je například příkazový řádek, který jsem použil k výpisu vlastního webu mediawiki. Navrhuji, abyste pochopili každou možnost, než ji sami použijete:

'c:\program files\wget\wget' -k -p -r -R '*Special*' -R '*Help*' -E http://example.com/wiki 

Můžete si vzít -pages-articles.xml.bz2 ze stránek skládek Wikimedia a zpracovat je pomocí WikiTaxi (ke stažení v levém horním rohu). Nástroj pro import Wikitaxi vytvoří soubor .taxi(kolem 15 Gb pro Wikipedii) soubor z .bz2 soubor. Tento soubor použije program WikiTaxi k prohledávání článků. Zkušenost je velmi podobná jako v prohlížeči.

Nebo můžete použít Kiwix, rychlejší k nastavení, protože také poskytuje již zpracované skládky (.zim soubory). Jak uvedete v komentáři, abyste mohli převzít další stránky MediaWiki pro kiwix mwoffliner lze použít, nemusí fungovat se všemi, protože mohou mít vlastní rozdíly, ale je to jediná varianta, na kterou jsem narazil.

Vezmeme si Wikimedia wget není dobrá praxe. Pokud by to udělalo příliš mnoho lidí, mohlo by to zaplavit stránky požadavky.


Později upravte pro případ, že chcete také obrázky offline:

Projekt XOWA

Pokud chcete kompletní zrcadlo Wikipedie (včetně obrázků) s plným formátováním HTML neporušené, které se stáhne přibližně za 30 hodin, měli byste použít:

Anglická Wikipedia má spoustu dat. K dispozici je 13,9 milionu stránek s 20,0+ GB textu a 3,7 milionu miniatur.

XOWA:

Nastavení všeho na vašem počítači nebude rychlý proces ... Samotný import bude vyžadovat 80 GB místa na disku a pět hodin času na zpracování textové verze. Pokud chcete také obrázky, počet se zvýší na 100 GB místa na disku a 30 hodin doby zpracování. Až však budete hotovi, budete mít kompletní nejnovější kopii anglické Wikipedie s obrázky, které se vejdou na 128GB SD kartu.

Ale offline verze je velmi podobná online verzi, obsahuje fotografie atd.: (Níže uvedený článek jsem testoval úplně offline)


Později upravte, pokud neplatí nic z výše uvedeného:

Pokud wiki není součástí Wikimedia nebo nemá výpis, existuje projekt na github, který tuto wiki stáhne pomocí svého API:

WikiTeam - Archivujeme wiki, od Wikipedie po nejmenší wiki

  • 1 V případě vyřazení vlastní instalace mediawiki je XOWA toho celkem schopná (mohou existovat určité problémy), následující článek xowa.org/home/wiki/App/Wiki_types/Wikia.com je docela užitečný. Využití Kiwixu s vlastními wiki je ještě třeba otestovat (je třeba nejprve vypustit wiki pomocí github.com/kiwix/mwoffliner nebo nějakého jiného nástroje)

Pracoval pro vás: Charles Robertson | Chcete nás kontaktovat?