我想使用curl来从Google获取结果,以检测潜在的重复内容。
是否有被Google禁止的高风险?

#1 楼

当您超过一定数量的请求时,Google最终将阻止您的IP。

评论


上次查看它时,我使用的是API通过Google搜索。如果我没记错的话,该限制为每天2.500个请求。

– Severin
2014年3月26日在12:14

从法律上讲不可能,但是您可以在envatocodecanyon.net/item/google-search-scraper/…中尝试使用此小工具。

–ambit.albus
18年6月11日在11:34

使用serphouse.com来获取Google和Bing搜索API,它还提供400个请求的免费试用版以及按需定制计划

– Mehul V.
19年11月6日在6:10

#2 楼

Google禁止在其TOS中进行自动访问,因此,如果您接受他们的条款,则会破坏它们。
这就是说,我知道Google不会对刮板提起诉讼。
即使Microsoft刮破了Google,他们也会为搜索提供动力引擎必应。他们在2011年被捕到了红手:)
有两种选择来抓取Google结果:
1)使用其API

UPDATE 2020:Google已经弃用了先前的API(再次)并具有新的价格和新的限制。现在
(https://developers.google.com/custom-search/v1/overview),您每天可以
以每月1,500 USD的价格查询多达1万个结果,还不止于此
不允许,结果也不是正常搜索结果中显示的结果。




您每小时可以发出40个左右的请求,但仅限于

/>他们给您,如果您想跟踪排名
或真实用户将看到的内容,它并不是真正有用的。那是您
不允许收集的东西。


如果您想要大量的API请求,则需要付费。




2)在正常结果页面上刮一下

这里来了棘手的部分。可以抓取正常的结果页面。
Google不允许这样做。
如果抓取速度高于每小时8个关键字请求(从15个更新),则可能会被检测到,大于10 / h(从20更新)会使您无法访问我的体验。
通过使用多个IP,您可以提高速率,因此,使用100个IP地址,您每小时可以抓取多达1000个请求。 (每天24k)(已更新)

在http://scraping.compunect.com上有一个用PHP编写的开源搜索引擎抓取工具,它可以可靠地抓取Google,解析结果正确并管理IP地址,延迟等。
因此,如果您可以使用PHP,这将是一个不错的启动之门,否则该代码对于了解其实现方法仍然很有用。

3)另一种选择是使用抓取服务(已更新)

最近,我的一个客户对搜索引擎的抓取要求很高,但并不是“持续进行”,更像是每月进行一次大刷新。 >在这种情况下,我找不到一个经济的自制解决方案。
我在http://scraping.services上使用了该服务。
它们还提供了开源代码,到目前为止,运行良好(刷新期间每小时每小时有数千个结果页)
缺点是这种服务意味着您的解决方案“绑定”到了一个专业供应商,好处是它比其他选择便宜得多评估(在我们的案例中更快)
减少对一家公司的依赖的一种方法是同时采用两种方法。将抓取服务用作主要数据源,并在需要时退回基于代理的解决方案,如2)中所述。


评论


我对这种解释的问题是,即使是少数几个共享相同IP的人,每小时也将大大超过20个请求。如果这是全部故事,那么Google基本上将阻止所有定期大量使用计算机的小型企业。接受的答案将有相同的问题。

– krowe
2014年3月28日在21:35



实际上,Google确实会定期验证码来阻止NAT IP,我已经在多家公司工作过,并且验证码的案例也出现了好几次。我还应该澄清一下,我的意思是20个使用不同关键字的请求,只要您坚持使用相同的关键字,您就可以继续浏览结果页面。一小时后,该封锁也不会发生,您实际上可以使Google爆裂,但是如果您继续以更高的速度击中它,您将被送至Captcha-land。 Google对于突发事件似乎很友善,但如果您继续前进,那可不是。只需尝试一下:)

–约翰
2014年3月28日在21:39



我已经在多个项目中使用了它(搜索引擎的抓取工具和建议的抓取工具)。它工作得非常好。一年左右一次,由于Google的更改,它停止工作,通常会在几天内进行更新。

–约翰
2015年2月17日在0:29



我正在尝试相同的方法,但我的机器人未找到验证码求解器,而是遇到了403错误页面http://ipv4.google.com/sorry/index?continue=http://www.google.com/search%3Fq%3Dnewabc% 26start%3D0%26safe%3Dactive&q = CGMSBA6L2YoYzdHXwAUiGQDxp4NLtUqumgC0PtvCwbAP0mNmHfOShXQ哪里有另一个显示验证码的页面,但我不明白为什么它没有击中验证码页面。如果有人想要帮助,我想发布代码

– Sagar Kar
16-10-30在12:41



@Joozty:google.com/intl/zh-CN/policies/terms“请勿滥用我们的服务。例如,请勿干扰我们的服务或尝试使用界面和我们提供的说明以外的方法来访问它们。” “如果您不遵守我们的条款或政策,或者我们正在调查可疑的不当行为,我们可能会暂停或停止向您提供服务。”我不确定是否还涉及其他TOS。根据服务条款,如果您违反规则,他们保留停止为您服务的权利。这也是我唯一知道的结果。

–约翰
17-10-16在22:55

#3 楼

谷歌在全世界的抓取网站上蓬勃发展...因此,如果谷歌“如此非法”,那么即使谷歌也无法生存。.当然,其他答案也提到了缓解谷歌IP封锁的方法。探索避免人机验证的另一种方法可能是在随机时间抓取(尝试一下)。此外,我有一种感觉,如果我们提供新颖性或一些重要的数据处理,那么至少对我来说听起来不错...如果我们只是复制一个网站..或以某种方式阻碍其业务/品牌...那么那是不好的,应该避免..最重要的是...如果您是一家创业公司,那么没人会在那里与您抗争是没有好处的。.但是,即使您有资金,但如果您的整个前提都是报废,那么您应该考虑更复杂的方法...替代API ..最终。.而且Google会不断发布(或描述)其API字段,所以您现在想报废的可能是新版Google API的路线图。.