DumpHTML扩展实际上可以实现我想要的功能,因为它可以转储所有文章和媒体文件,但是我可以。没有看到它已转储的所有文章的任何索引,因此我无法在转储中导航。
在阅读MediaWiki具有的XML转储功能时,我想知道是否可以使用程序来查看这些文件或将它们转换为html?
或者还有其他方法可以制作MediaWiki网站的脱机版本吗?
#1 楼
您可以使用网络爬虫工具将网站另存为HTML文件。所有链接都将被转换,因此您可以打开主页,然后单击链接并访问所有站点。有许多可用的工具。我使用wget,它是基于命令行的,具有数千个选项,因此不是很友好。但是它非常强大。
例如,这是我用来转储自己的mediawiki网站的命令行。我建议您在自己使用每个选项之前先了解它们:
"c:\program files\wget\wget" -k -p -r -R '*Special*' -R '*Help*' -E http://example.com/wiki
#2 楼
您可以从Wikimedia转储站点上获取-pages-articles.xml.bz2
并使用WikiTaxi处理(在左上角下载)。 Wikitaxi导入工具将从.taxi
文件中创建一个.bz2
(对于Wikipedia而言约为15Gb)文件。 WikiTaxi程序将使用该文件搜索文章。体验与浏览器体验非常相似。您也可以更快地使用Kiwix进行设置,因为它还提供了已处理的转储(
.zim
文件)。正如注释中指定的那样,以便可以将其他MediaWiki网站用作kiwix mwoffliner
,它可能无法全部使用,因为它们可能具有自定义差异,但这是我遇到的唯一变体。 用
wget
接受Wikimedia的东西不是一个好习惯。如果太多的人愿意这样做,可能会使请求泛滥成灾。对于以后还需要将图像脱机的情况,请进行以下编辑:XOWA Project
如果您想要完整的Wikipedia镜像(包括图像)完整的HTML格式(可在aprox 30小时内下载),请使用:
英语Wikipedia包含大量数据。一共有13.9+百万个页面,其中20.0+ GB的文本以及3.7+百万个缩略图。
XOWA:
在计算机上进行所有设置将不是一个快速的过程...
导入本身将需要80GB的磁盘空间和五个小时的文本版本处理时间。如果还需要图像,则
数字将增加到100GB的磁盘空间和30小时的处理时间。但是,完成后,您将拥有完整的英文Wikipedia最新副本,其图像可容纳在128GB SD卡中。
但是脱机版本是非常类似于在线版本,包括照片等:
(我完全在离线状态下测试了波纹管文章)
以后进行编辑,如果没有以上适用:
如果Wiki不属于Wikimedia或没有转储,则github上会有一个项目使用其API下载该Wiki:
评论
在转储自定义mediawiki安装的情况下,XOWA可以做到这一点(可能存在一些问题),在xowa.org/home/wiki/App/Wiki_types/Wikia.com之后的文章非常有用。 Kiwix与自定义Wiki的结合使用尚待测试(首先需要使用github.com/kiwix/mwoffliner或其他工具来丢弃Wiki)
–自动扶梯
17年2月2日,9:55
评论
您真的需要索引吗?只需从主页开始,然后点击那里的链接即可。这是Cam Webb制作MediaWiki网站静态版本的说明。这是我自己的东西,以防他们帮助任何人。两者都提供了指向静态结果的链接(这里是我的)。