内联网爬虫和搜索引擎

我正在寻找用于实现Intranet网络搜索引擎的任何真正免费的替代方法。

我知道Google Search Appliance（GSA）可能是最好的选择，但它的成本非常高，我确实希望能够抓取数以百万计的页面。

我尝试使用SearchBlox，除了我发现它的文档记录不充分和违反直觉的事实外，它还具有25.000个文档的限制，与该级别相比几乎没有什么我想将其缩放到。也许是更好的选择，但我会考虑升级到商业许可证，但根据经验，我不会为此付费。

所以，现在我正在寻找其他方法

你看过狮身人面像吗？

有什么特殊要求吗？请参阅此meta，以了解什么是好问题。

您想从哪些来源进行爬网？ CMIS？ WebDAV（网络共享驱动器）？本地磁盘？ Intranet网站？

#1 楼

Solr可以做到这一点。使用它，您可以定义一个数据源以对其进行爬网，并解释数据。 Solr是免费的并且是开源的。

Solr具有非常快速的搜索引擎（Lucene），可以导入很多数据。它针对XML，JSON或HTML之类的“像字段一样”的数据进行了优化，但是有包含文本的所有内容的转换器（例如Word，PDF等）。

如果您只需要一些Intranet网站（ <100.000）进行索引并且您可以访问数据库，您只需设置Data Import Handler即可为您完成工作。

否则，您将需要编写一些自己的东西，将数据发送到服务器。

请记住，这是一个development tool，而不是最终用户program。您将需要创建一些界面。（根据我的经验，这很容易）

如果将信息存储在各个字段中（例如meta，title，url，content，language，filetype ...），则可以专门搜索此字段，这有可能缩小您的搜索范围。例如，如果Intranet中的所有站点都有一个作者，并且您可以访问该字段并为其编制索引，则可以搜索该作者的所有文档，但忽略与他有关的所有文档。它还支持fuzzy search（“搜索”找到“搜索”）

我在一个项目（以及许多搜索引擎Lucene）中使用了Solr，对此印象深刻。数据处理引擎的高度灵活性令人难以置信。搜索部分是如此之快，以至于我有一天将其列在列表中，以了解其工作原理:)

如果您只需要搜索搜寻器和搜索界面，那么Solr的配置开销可能就不是您需要的。但是，如果您需要一种可以检查30.000.000文档的工具，那么可以使用该工具。在我使用的项目中（具有上述文档数量），与Solr搜索时间相比，我们在网络延迟方面遇到了更多麻烦。您可以复制索引，并使用将搜索请求分配到其他请求的负载平衡Solr实例。并且和和...此工具的不同优化数量惊人。当然，它附带了一些可能不太直观的必要配置。

如上所暗示，Solr是Lucene的包装，因此，如果您已经有CMS可以在那里为您创建网站可能已经是您可以使用的Lucene plugin。

您有Solr / Lucene的经验吗？关心详细吗？

–奥利
2014年2月12日下午13:34

@Olli是的。我更新了答案。感谢您的提醒：）

–安吉洛·福克斯（Angelo Fuchs）
2014年2月12日17:59

#2 楼

Duckduckgo是Internet爬虫和搜索引擎。

这是其源代码：https://github.com/duckduckgo

您可以对其进行编译，将其配置为仅进行爬网您的Intranet网站，并将其托管在您的Intranet中的服务器上。

话虽如此，对Web界面进行爬网并不是非常有效，如果可以进行反向访问，则可以做得更好（例如，使用Solr）内容的实际存储位置。这还将使您可以向具有不同访问权限的人员显示不同的结果（例如，只有HR人员可以搜索简历）。

是你做的吗？你用过吗？你的经验是什么？您能告诉我们更多吗？（我不知道您可以用Duckduckgo做到这一点，所以我很感兴趣）

–安吉洛·福克斯（Angelo Fuchs）
2014年2月12日上午11:35

指向将简要记录如何安装您自己的实例的文章的链接会更有帮助。那里的存储库太多，以至于无法知道从哪里开始评估它作为Intranet搜索引擎。

–索林
2015年1月6日13:12

#3 楼

Sphider或（更好的）Sphider Plus

到目前为止，我发现它们都很棒。它们几乎相同，只是Sphider Plus的性能要好上千倍-将原始版本视为“精简版”。这确实是个记录。 Sphider plus，这是我主要要讨论的功能集。

需要PHP 5或6。
数据库（MySQL-IIRC还可以使用其他一些数据库引擎）

满足您要求的功能：

没有最大数量的文件可索引
对HTML进行索引，并且通过内置的转换器可以对PDF进行索引，DOCX，XLSX，ODT，ODS，CSV和XLS文件。
价格合理（25欧元）
强大的管理界面
有点自动化（即通过CRON等自动重新索引等功能）。）

它可以索引HTML吗？操作人员正在寻找索引他的Intranet的内容。

–安吉洛·福克斯（Angelo Fuchs）
2014年2月12日在11:34

是的，这就是它的设计目的。看来我没有明确指出。

–尼克·迪金森·威尔德
2014年2月12日15:49

抱歉，但最新版本是一年多以前的，该网站看起来像是90年代制造的...

–索林
2015年1月6日在13:05

@sorin：我必须同意该网站有点难看。但是，今天有一个Sphider Plus发行版-正如我所说的，这是我一直在谈论的版本/分支。

–尼克·迪金森·威尔德
2015年1月6日15:34

#4 楼

听起来您还需要对可用站点进行爬网？我设置的一个免费的网络爬虫是Heritrix。它是开源的，是Internet存档的“ Wayback Machine”运行的平台。

https://webarchive.jira.com/wiki/display/Heritrix/Heritrix

然后，您需要我假设需要将其与类似Solr的东西结合起来以对搜索进行实际索引。

编程黑洞网

内联网爬虫和搜索引擎

评论

#1 楼

评论

#2 楼

评论

#3 楼

评论

#4 楼