我有一个很大的旧站点,实际上有成千上万个PDF,这些PDF有时在数据库中占了比重,但通常只是页面上的链接,并存储在该站点的大多数目录中。
我写了一个php crawler来跟踪我网站上的所有链接,然后将其与目录结构的转储进行比较,但是有什么更简单的方法吗?
#1 楼
我用过Xenu的Link Sleuth。它运行良好,只是请确保不要自己使用DOS!评论
选中选项中的“孤立文件”选项,它将提示您通过ftp登录到您的站点。
–茎
2010年7月9日在10:27
这样是否也可以处理您必须登录才能访问该页面的网站?
– Dony V.
2010年7月18日在20:49
@Jim如何查看断开链接所在的页面?
–Rob
2012年7月24日12:58
抓取完成后,将有一个报告将告诉您相关信息。根据站点的大小和断开的链接的数量,可能很难解析。我通常会在抓取之前调整报告选项,然后将报告作为文本文件打开(因为它是.htm),并删除与使报告更易于管理无关的内容。希望这可以帮助。
– plntxt
2012年7月24日13:54
#2 楼
如果使用Windows 7,最好的工具是IIS7的SEO Toolkit 1.0。它是免费的,您可以免费下载。该工具将扫描任何站点,并告诉您所有无效链接在哪里,需要长时间加载的页面,缺少标题的页面,重复的标题,与关键字和描述相同的标题,以及哪些页面破坏了HTML。
评论
我个人使用了它,它非常适合扫描,当然也适合SEO,但是Xenu中的FTP检查只是解决了这一问题。
–克里斯特先生
2010年7月10日在16:10
#3 楼
尝试使用W3C的开源工具Link Checker。您可以在线使用它或在本地安装#4 楼
如果您有unix命令行(我在linux,MacOS和FreeBSD上使用过),我非常喜欢linklint来检查大型静态站点。有关安装说明,请参见其网站。安装后,我将创建一个名为check.ll
的文件并执行以下操作:linklint @check.ll
这是我的check.ll文件的样子。
# linklint
-doc .
-delay 0
-http
-htmlonly
-limit 4000
-net
-host www.example.com
-timeout 10
进行
www.example.com
的爬网,并生成带有交叉引用报告的HTML文件,以查找损坏,丢失等情况。#5 楼
Microsys有多种产品,特别是它们的A1 Sitemap Generator和A1网站分析器,它们可以抓取您的网站并报告您可能会想到的所有内容。其中包括断开的链接,还包括表格的表格视图所有页面,因此您可以比较相同的
评论
另请参阅webmasters.stackexchange.com/questions/13310/…,后者也询问拼写检查。