我们很难让Google为我们站点中的PDF文件编制索引。大约有50个PDF,大小范围为20 KB,甚至不到2兆。它们不受保护,可以匿名读取,并且可以在PDF Reader中搜索文档。

它们在SiteMap.xml中列出。我什至可以查看IIS日志并看到Googlebot读取PDF文件,但是除了五个文件外,它们从未包含在搜索结果中。

如果我执行filetye:pdf,则仅显示五个PDF。如果我搜索我知道在PDF内的文本,则这些PDF永远都不会显示(除了被索引的五个PDF)。

有人知道为什么超过45个以上的PDF文档不存在吗?即使它们已包含在站点地图中并且Googlebot正在读取它们,仍包含在索引中?

评论

您要为Google指定内容类型吗?

#1 楼

所有pdf都位于同一位置吗?曾经有个问题,我的pdf位置之一在robots.txt排除的文件夹内。将您的站点地图直接提交到google-webmaster工具站点,您可能会获得有关未出现pdf的原因的有价值的信息。在我的情况下,谷歌告诉我:“嘿,这54个pdf文档在您的站点地图上,但是由于robots.txt的限制,我们无法为它们编制索引”。所以这很有帮助。但请注意评论者所说的话,可能需要一段时间才能显示此信息。

评论


我只补充说Google Webmaster Tools不能实时提供所有信息。但是,它仍然是至关重要的资源。

–利亚姆
09年2月11日上午10:39

不,PDF文件位于站点中的多个不同位置。我已经检查过了,它们都没有被robots.txt阻止。我一直在使用网站站长工具并提交站点地图,并将继续这样做。感谢您的反馈。吉姆

–匿名
09年2月11日在18:44

#2 楼

Google最初读取您的内容与将其显示在索引之间可能会有很大的滞后。我们最近重新启动了一个网站,并在发布时向Google提交了站点地图,新页面大约需要3周的时间才能开始出现在搜索结果中。

您多久以前通过提交这些PDF您的站点地图?


(被索引的五个除外)


听起来您的PDF正在被索引,但这需要一些时间。假设未索引的PDF的生成方式没有区别,那么我怀疑只是索引需要花费一些时间来更新。

稍​​有切线,这是我有用的工具建议您注册使用Google网站站长-它会向您显示抓取速度,您的网站问题,站点地图和在Googlebot访问您网站后的一天之内建立索引的信息。它可以节省您浏览IIS日志的时间。

评论


自我们首次提交站点地图以来,已经过去了大约四个星期。我只是注意到昨天晚上他们又索引了四个索引。所以也许我只需要继续等待:)

–匿名
09年2月11日在18:46

重新启动网站时,如果新页面要花3周才能开始显示在搜索结果中,这是否意味着3星期内搜索返回的结果将返回到您网站中不再存在的页面?这不是导致很多“找不到页面”的情况吗?

–匿名
09年2月11日在19:10

在我们的情况下,重新启动与新部分的启动同时进行,旧链接仍然有效-3周是新部分开始显示的时间。随机的等待时间可能会令人沮丧!

– ConroyP
09年2月11日在21:07

#3 楼

您的PDF文件是否经过OCR扫描,以便可以选择和搜索文本?还是在没有OCR的情况下扫描PDF文件,在这种情况下,文本将被存储为大图像?如果PDF包含所有图像,我认为Google不能将它编入索引。还是Google现已找到您的页面?

#4 楼

您可以手动将其提交给Google,这有时会加快过程。