我希望能够每周制作一个MediaWiki网站的脱机版本。

DumpHTML扩展实际上可以实现我想要的功能,因为它可以转储所有文章和媒体文件,但是我可以。没有看到它已转储的所有文章的任何索引,因此我无法在转储中导航。

在阅读MediaWiki具有的XML转储功能时,我想知道是否可以使用程序来查看这些文件或将它们转换为html?

或者还有其他方法可以制作MediaWiki网站的脱机版本吗?

评论

您真的需要索引吗?只需从主页开始,然后点击那里的链接即可。

这是Cam Webb制作MediaWiki网站静态版本的说明。这是我自己的东西,以防他们帮助任何人。两者都提供了指向静态结果的链接(这里是我的)。

#1 楼

您可以使用网络爬虫工具将网站另存为HTML文件。所有链接都将被转换,因此您可以打开主页,然后单击链接并访问所有站点。

有许多可用的工具。我使用wget,它是基于命令行的,具有数千个选项,因此不是很友好。但是它非常强大。

例如,这是我用来转储自己的mediawiki网站的命令行。我建议您在自己使用每个选项之前先了解它们:

"c:\program files\wget\wget" -k -p -r -R '*Special*' -R '*Help*' -E http://example.com/wiki


#2 楼

您可以从Wikimedia转储站点上获取-pages-articles.xml.bz2并使用WikiTaxi处理(在左上角下载)。 Wikitaxi导入工具将从.taxi文件中创建一个.bz2(对于Wikipedia而言约为15Gb)文件。 WikiTaxi程序将使用该文件搜索文章。体验与浏览器体验非常相似。

您也可以更快地使用Kiwix进行设置,因为它还提供了已处理的转储(.zim文件)。正如注释中指定的那样,以便可以将其他MediaWiki网站用作kiwix mwoffliner,它可能无法全部使用,因为它们可能具有自定义差异,但这是我遇到的唯一变体。

wget接受Wikimedia的东西不是一个好习惯。如果太多的人愿意这样做,可能会使请求泛滥成灾。



对于以后还需要将图像脱机的情况,请进行以下编辑:XOWA Project

如果您想要完整的Wikipedia镜像(包括图像)完整的HTML格式(可在aprox 30小时内下载),请使用:

英语Wikipedia包含大量数据。一共有13.9+百万个页面,其中20.0+ GB的文本以及3.7+百万个缩略图。

XOWA:


在计算机上进行所有设置将不是一个快速的过程...
导入本身将需要80GB的磁盘空间和五个小时的文本版本处理时间。如果还需要图像,则
数字将增加到100GB的磁盘空间和30小时的处理时间。但是,完成后,您将拥有完整的英文Wikipedia最新副本,其图像可容纳在128GB SD卡中。


但是脱机版本是非常类似于在线版本,包括照片等:
(我完全在离线状态下测试了波纹管文章)




以后进行编辑,如果没有以上适用:

如果Wiki不属于Wikimedia或没有转储,则github上会有一个项目使用其API下载该Wiki:


评论


在转储自定义mediawiki安装的情况下,XOWA可以做到这一点(可能存在一些问题),在xowa.org/home/wiki/App/Wiki_types/Wikia.com之后的文章非常有用。 Kiwix与自定义Wiki的结合使用尚待测试(首先需要使用github.com/kiwix/mwoffliner或其他工具来丢弃Wiki)

–自动扶梯
17年2月2日,9:55