我正在工作的网站上有几百个PDF。我认为我从未见过他们中的任何人在搜索中回来,但它们直接链接到外部站点。它们也充满了关键字,因为它们是产品文档。

要让Google或其他搜索引擎抓取它们,我们需要做些特别的事情吗?

有没有制作PDF以帮助Google更喜欢Google的硬性和快速规则?例如,我是否应该通过ghostscript来运行它们,以清除Adobe在生成过程中创建的损坏的PDF标签?

评论

添加到您的xml站点地图以确保他们知道它们吗?

#1 楼

Google绝对会为PDF文件建立索引,您可以通过在搜索查询中添加filetype:pdf(例如)来仅搜索PDF文件。

我想说,优化PDF的主要步骤是使PDF易于索引是:


给它一个有意义的文件名
完成所有文档元数据属性(标题,作者,关键字等)
确保您的PDF由实际文本和未扫描的图像
确保正确使用标题就可以保证您拥有良好的内容,就像HTML文档一样。

有关更多提示,请阅读优化PDF文档和为搜索引擎优化PDF的十一个提示

评论


链接labs.justsearching.co.uk/optimizing-pdf-documents-621.html不再起作用

–user6901
2012年6月23日14:40



@Christofian谢谢-我已经更新了链接。我将它留给读者,以感谢一家SEO公司在不进行任何301重定向的情况下重命名其链接的讽刺意味!

– Dan Diplo
2012年6月24日11:05



关于PDF文件的SEO,@ DanDiplo我建议在适用时在内容中添加一个链接。

– Anagio
2012年6月24日13:03

#2 楼

我不确定其他搜索引擎,但就Google而言,主要规则是不要通过robots.txt排除它们。

这是他们最初支持PDF搜索的公告。

#3 楼

就像使网站符合您的SEO一样,使您的PDF可访问也不会受到伤害。 Adobe内置的辅助功能检查器远非完美,但是至少要解决这些问题才能使您入门。

我大概每4或5分钟就花5分钟,这些文本大多数是我们在线发布的PDF。时间平均取决于页面数以及这些页面的复杂程度。

假设您具有Adobe Acrobat Pro进行编辑:


运行可访问性全面检查。 (快速检查对我来说毫无意义)
更新文档属性中的元信息(关键字,主题,语言等)
确保添加了标签
确保将文本标记为文本,图像作为图像,背景材料作为背景
将无用的绒毛(例如装饰或设计)标记为背景
在图像中添加良好的替代文字
请确保按阅读顺序排列,正确排序
在内容工具栏中,确保文本不重复或翻译错误严重
在扫描的页面上使用OCR扫描器

进行更高级的编辑,例如表格和真正的奇数球Adobe错误,我们使用一个名为CommonLook的插件。 CommonLook可以完成工作,但我几乎讨厌它,就像讨厌Adobe工具一样。

熟悉Touch Up Reading Order工具,Tags工具栏,Reading Order工具栏和Content工具栏。 。我的工作需要完全兼容的文档,然后才能上网,但是任何人都可以从一些简单的标记和文档属性中受益。

评论


我们的网站有5,000多个PDF,我们必须回溯并完全符合508标准。学习花了一段时间,Adobe建议的培训师没有任何帮助,但是一旦您了解了它,便可以将它们真正拉开。

–克里斯特先生
2010年7月23日在18:31