我知道Google Search Appliance(GSA)可能是最好的选择,但它的成本非常高,我确实希望能够抓取数以百万计的页面。
我尝试使用SearchBlox,除了我发现它的文档记录不充分和违反直觉的事实外,它还具有25.000个文档的限制,与该级别相比几乎没有什么我想将其缩放到。也许是更好的选择,但我会考虑升级到商业许可证,但根据经验,我不会为此付费。
所以,现在我正在寻找其他方法
#1 楼
Solr可以做到这一点。使用它,您可以定义一个数据源以对其进行爬网,并解释数据。 Solr是免费的并且是开源的。Solr具有非常快速的搜索引擎(Lucene),可以导入很多数据。它针对
XML
,JSON
或HTML
之类的“像字段一样”的数据进行了优化,但是有包含文本的所有内容的转换器(例如Word,PDF等)。如果您只需要一些Intranet网站( <100.000)进行索引并且您可以访问数据库,您只需设置
Data Import Handler
即可为您完成工作。否则,您将需要编写一些自己的东西,将数据发送到服务器。
请记住,这是一个
development tool
,而不是最终用户program
。您将需要创建一些界面。 (根据我的经验,这很容易)如果将信息存储在各个字段中(例如
meta
,title
,url
,content
,language
,filetype
...),则可以专门搜索此字段,这有可能缩小您的搜索范围。例如,如果Intranet中的所有站点都有一个作者,并且您可以访问该字段并为其编制索引,则可以搜索该作者的所有文档,但忽略与他有关的所有文档。它还支持fuzzy search
(“搜索”找到“搜索”)我在一个项目(以及许多搜索引擎Lucene)中使用了Solr,对此印象深刻。数据处理引擎的高度灵活性令人难以置信。搜索部分是如此之快,以至于我有一天将其列在列表中,以了解其工作原理:)
如果您只需要搜索搜寻器和搜索界面,那么Solr的配置开销可能就不是您需要的。但是,如果您需要一种可以检查30.000.000文档的工具,那么可以使用该工具。在我使用的项目中(具有上述文档数量),与Solr搜索时间相比,我们在网络延迟方面遇到了更多麻烦。您可以复制索引,并使用将搜索请求分配到其他请求的负载平衡Solr实例。并且和和...此工具的不同优化数量惊人。当然,它附带了一些可能不太直观的必要配置。
如上所暗示,
Solr
是Lucene
的包装,因此,如果您已经有CMS
可以在那里为您创建网站可能已经是您可以使用的Lucene plugin
。评论
您有Solr / Lucene的经验吗?关心详细吗?
–奥利
2014年2月12日下午13:34
@Olli是的。我更新了答案。感谢您的提醒 :)
–安吉洛·福克斯(Angelo Fuchs)
2014年2月12日17:59
#2 楼
Duckduckgo是Internet爬虫和搜索引擎。这是其源代码:https://github.com/duckduckgo
您可以对其进行编译,将其配置为仅进行爬网您的Intranet网站,并将其托管在您的Intranet中的服务器上。
话虽如此,对Web界面进行爬网并不是非常有效,如果可以进行反向访问,则可以做得更好(例如,使用Solr)内容的实际存储位置。这还将使您可以向具有不同访问权限的人员显示不同的结果(例如,只有HR人员可以搜索简历)。
评论
是你做的吗?你用过吗?你的经验是什么?您能告诉我们更多吗? (我不知道您可以用Duckduckgo做到这一点,所以我很感兴趣)
–安吉洛·福克斯(Angelo Fuchs)
2014年2月12日上午11:35
指向将简要记录如何安装您自己的实例的文章的链接会更有帮助。那里的存储库太多,以至于无法知道从哪里开始评估它作为Intranet搜索引擎。
–索林
2015年1月6日13:12
#3 楼
Sphider或(更好的)Sphider Plus到目前为止,我发现它们都很棒。它们几乎相同,只是Sphider Plus的性能要好上千倍-将原始版本视为“精简版”。这确实是个记录。 Sphider plus,这是我主要要讨论的功能集。
需要PHP 5或6。
数据库(MySQL-IIRC还可以使用其他一些数据库引擎)
满足您要求的功能:
没有最大数量的文件可索引
对HTML进行索引,并且通过内置的转换器可以对PDF进行索引,DOCX,XLSX,ODT,ODS,CSV和XLS文件。
价格合理(25欧元)
强大的管理界面
有点自动化(即通过CRON等自动重新索引等功能)。 )
评论
它可以索引HTML吗?操作人员正在寻找索引他的Intranet的内容。
–安吉洛·福克斯(Angelo Fuchs)
2014年2月12日在11:34
是的,这就是它的设计目的。看来我没有明确指出。
–尼克·迪金森·威尔德
2014年2月12日15:49
抱歉,但最新版本是一年多以前的,该网站看起来像是90年代制造的...
–索林
2015年1月6日在13:05
@sorin:我必须同意该网站有点难看。但是,今天有一个Sphider Plus发行版-正如我所说的,这是我一直在谈论的版本/分支。
–尼克·迪金森·威尔德
2015年1月6日15:34
#4 楼
听起来您还需要对可用站点进行爬网?我设置的一个免费的网络爬虫是Heritrix。它是开源的,是Internet存档的“ Wayback Machine”运行的平台。https://webarchive.jira.com/wiki/display/Heritrix/Heritrix
然后,您需要我假设需要将其与类似Solr的东西结合起来以对搜索进行实际索引。
评论
你看过狮身人面像吗?有什么特殊要求吗?请参阅此meta,以了解什么是好问题。
您想从哪些来源进行爬网? CMIS? WebDAV(网络共享驱动器)?本地磁盘? Intranet网站?