有一个臭名昭著的网站,称为“肮脏”,已完全反映了我的网站,现在使用我的内容在Google网站上的链接显示在第一名。我检查了我的日志文件,发现该站点已经爬行了一段时间,并且从其站点到我的链接也有10,000个。作为对Google的网络垃圾邮件。我也拒绝了该域。完全消除此类问题的步骤是什么?

UPDATE 8/28/2014:

我想我会提供最新信息,因为我有更多信息现在。因此,肮脏使他们的子域指向我的IP,这使他们的子域看起来像我的网站。

几天来这没什么大不了,因为使用htaccess,我将所有不是我域的主机重定向到我的域,这基本上意味着我正在Google上获得他们的子域流量链接。几天后,肮脏的行为改变了他们的子域,使其指向他们的网站,这样我就再也无法从中受益了。现在将这些链接指向他们的网站,以吸引更多访问量。

这是一个肮脏网站的肮脏策略。我希望Google惩罚这种行为。

评论

我编辑掉了您质疑他们动机的部分,因为这里没有主题。但是,否则问题很好。

网站克隆似乎是一个新技巧,目前许多网站被滥用。 Heise(德国)有关于此主题的新闻。常见的解决方案(除了报告假站点)似乎是将特殊内容提供给爬虫的IP地址,因此它们将例如显示指向您的真实站点的链接。

鉴于Google对垃圾邮件采取了如此严厉的立场,对未来的另一个担忧是,竞争对手会故意将我的内容发布在信誉不佳的网站上,从而损害我的声誉。或会在我不知情的情况下发布指向我网站的垃圾博客。

@Jarrod Roberson:并不是真的,有人知道诉讼,但是有多少技术解决方案呢?!

@JarrodRoberson然而,这是网站管理员专门面对的一个问题,因此对于本网站来说是非常热门的话题,因为在这里进行询问会得到那些也必须对此进行处理的人的答复。似乎人们也已经提交了一些技术解决方案以及法律解决方案。

#1 楼

如果他们只是通过通过代理脚本提供网站内容或重新定义HTML verbatum来镜像您的网站,则可以向页面添加规范的URL。这将使Google知道您的内容是原始内容,并在搜索结果中显示您的URL,而不是其内容。

将DMCA请求提交给Google。它们的使用速度有些慢,但是最终它们会从索引中删除这些页面。

删除链接是一个明智的选择。用户是有帮助的。也许在他们的页面顶部放置一条消息,让他们知道您是原始网站,而另一个则是欺诈,这可能是一个更好的解决方案。

评论


规范URL并不总是有用。反映我的网站的脚本也将规范的URL更改为也指向假网站。所以这毫无意义。

– CaptainCodeman
2014年9月1日于1:17

#2 楼

您可以提出数字千年版权法案(DMCA)投诉,如果您在美国,也可以提起版权民事诉讼。 br />
您是否必须在美国提起DMCA投诉?在提交DMCA投诉之前,需要复制多少内容?停止信。给他们10天(真实的天数而不是工作日,尽管也可以工作日)以删除内容。您希望捕获有问题的站点的快照以作为证据,也希望捕获您的站点的快照。如果您要查看是否已删除某个页面,请直接检查该站点而不是搜索结果。

如果该页面在这段时间内没有被删除,则可以提起联邦民事诉讼,至少要花费10,000美元来捍卫自己,几乎不花任何代价。您将坐在驾驶员座位上。可能至少需要支付10,000美元甚至更多才能达成和解。您也可以收回成本。重要的是提供一种免费的方法来纠正问题,从而终止并终止信函。此后,您显然可以对被告提起诉讼,不承担任何责任。搜索流量的损失就是损害。在这里,您将与您的律师合作,收集可说明流量损失的指标,并且需要将流量的价值货币化。当然,即使转换率为%100,您也可以在此处假设较高的数字。为了以防万一,我将使用Google Analytics(分析)和您的日志文件分析软件来收集当今和未来的流量损失指标。

请注意,提起诉讼并不困难或非常昂贵,尤其是与您现在和将来遭受的损失相比。版权侵权行为最近一直在下降,但是如今很少有人侵犯版权。我们需要制止这些人,唯一真正的方法是在商业策略中加入成本因素,使版权侵权无利可图。

评论


您要避开的整个问题是,几乎不可能发现站点背后的人。我的意思是,他们必须是白痴,才能轻松地将网站追溯到实际的个人。

– David Mulder
2014年8月22日在18:20

@DavidMulder没有回避。律师可以传唤公司以获取他们所需的信息。即使是一封善意的信也足够。如果未提供信息,则律师可以要求法官出庭,如果没有出庭,则应判处徒刑,或提供所要求的信息。在美国,无论是在法律上还是在其他方面都没有躲藏。除某些例外,这在国际上仍然有效。

– closetnoc
2014年8月22日在18:39



@closetnoc:公司可能不希望自由提供信息,甚至不愿自由提供信息。不能确定法院会发出传票,还是要追究其管辖权。您可能会发现自己与第三方(甚至可能不知道犯罪者的真实姓名)处于非常昂贵且漫长的法律斗争中。从您的详尽回答来看,您无疑会意识到这些障碍,但是我不得不支持David Mulder:我认为您低估了将站点追溯到个人的难度。

–马克斯·托马斯(Marcks Thomas)
2014年8月23日19:26在

@closetnoc:是的,除了托管提供商没有正确的信息。付款可能是通过预付信用卡或其他预付卡,信用卡被盗,比特币或其他无法追踪的交易机制完成的。哦,托管服务提供商甚至可能根本不在美国。无论是否喜欢,它都被称为互联网。

– David Mulder
2014年8月23日在22:09

@DavidMulder我很欣赏你在说什么。我从事安全行业,尤其​​是在研究如何找到坏人方面。您所谈论的主要是中文,俄语或波兰语。仍然存在通过模式等来确定这些人是谁的方法。他们放弃自己。这就是我要做的。你得试试。您不能只是翻身。一位出色的互联网律师了解像我这样的人以及如何获取信息。我只需要一个线程就可以了。但这可能是真正的努力。但这是最坏的情况。

– closetnoc
2014年8月24日在2:22

#3 楼

您可以跟踪他们的IP,并返回完全不同的内容供他们镜像-随便您如何。这样,您就可以腾出空间来刊登广告,并且可以利用他们在Google中的优势来发挥自己的优势。域。您还可以发布一个简单的HTTP重定向标头。

评论


出于某种原因,我实际上觉得这很有趣。 +1

–user541686
2014年8月23日在8:55

它们可能不会克隆HTTP标头,但是您可以向它们发送javascript动画和有趣的Marquee样式横幅,并大喊“这是偷窃”和不错的旧动画gif:

–弗洛里安·菲达(Florian Fida)
14年8月23日在21:59

还可以使用元标记和javascript重定向,这三者之一几乎肯定可以正常工作。在任何情况下,这都不是一个稳定的解决方案,只有在他们找到并开始反对该解决方案之前,它才会起作用。 @Mehrdad,我想这很有趣,因为它很hacky :)

– Igor R
14年8月24日在11:58

在我看来,这很有趣,因为攻击者实际上是在通过允许受害者进入(攻击者)游乐场而向自己开放一个漏洞,即使他随时可以阻止它。这使攻击者看起来很愚蠢。

– Igor R
2014年8月25日上午9:10

他们在Google中的高位置正在取代原始网站的高位置,因此它并不是真正的“免费广告”。

– CaptainCodeman
2014年9月1日,下午1:22

#4 楼

对您来说有点晚了,但是保护您的网站(将来)的最好的主意是:
https://www.youtube.com/watch?v=I3pNLB3Cq24(defcon 21,按数字防御)
伪造返回码,以便用户可以看到内容,但是漫游器会丢弃内容


将内容丢弃
爬行
停止工作

其他可能的想法-确保您的用户看不到以下任何内容:


让他们保存GB的信息(而服务器上只有几KB) br />使机器人通过虚假链接充斥自己的记忆
发送虚假内容(100%boolsh * t-您需要写东西-如
“奥巴马怀孕”,“蜘蛛侠5-下一个夏天”,...以便您的盗贼可以托管
...)
发送假文件(例如42.zip,如果他们不检查复制的内容,则用户会很开心-> AV工具会显示出问题->用户将被p * ss * d ...)
让他们等待更多数据(文件大小= 1-10 MB,并发送随机的cr * p 1 Byte / s或更少)

其他想法:


受Javascript保护的链接(旧的,不再使用了吗?但如果用户保持不变,则会(一段时间)将用户发送给您)
动态垃圾(使用注释或不可见的项目使机器人下载用户看不到的东西-好的机器人不会为此而掉队)
阻止ip地址下载过多/速度过快/错误的方式(机器人的行为不像人类1)每个页面上的每个链接2)选择下一个链接的方式存在某种模式或完全混乱( s))
如果文件不是由服务器托管,则使用Javascript重定向到您的服务器(对盗窃没有帮助,但小偷必须将其删除,否则他们的用户将不会留在他们的页面上-您可以对其进行编码放入不同的例程(例如内容解密))


评论


我有自己的代码,仍然需要调整一些阻止蜘蛛的代码。我将研究您的想法,因为我就是那种人! ;-)很棒的提示!

– closetnoc
2014年8月22日15:50

阻止蜘蛛和机器人的问题是您可能不希望它们全部被阻止。 Google的网站非常重要,例如,如果您希望人们能够找到您的网站。 (并且由于Google在缓存中保存了您的网站,因此网络抓取工具实际上不需要抓取您的网站来进行复制)。

– trlkly
2014年8月22日19:29

如果您要故意给他们一些替代方法-我更喜欢Igor的回答,使它对您有利(重定向/说错了/托管广告),而不是进行反击。

– OJFord
2014年8月22日20:42

#5 楼

这被称为Google Proxy Hack,它也发生在我身上。

第一件事:


向Web主机提交DMCA投诉。使用此链接可以创建格式正确的投诉,并将其发送给主持人的支持或滥用电子邮件。如果主持人在美国,则必须关闭该站点。即使他们不在美国,也可以选择撤下该网站。 (这曾经发生在我身上。)
使用Google DMCA工具请求从其搜索结果中删除镜像的URL。
使用Google的Scraper报告来报告Google的算法失败。

从根本上来说,这是Google的失败。尽管他们所说的关于基于“优质原始内容”进行排名的所有内容,但这都是一个荒谬的简单反例,坦率地说只是令人尴尬。

希望如果有足够的人抱怨它,最终Google会采取行动,并编写10行代码,以检查该站点是否与以前建立的站点完全相同。

此外,请注意,在这种情况下,使用规范URL并不总是有效。这些代理脚本中的许多脚本都会更改规范URL来指向镜像站点,从而使它们无用。排名。 (这也发生在我身上。)

如果您进行一些搜索和创造性思考,就有一些反击的方法。我真的不认为在此处发布完整列表不是一个好主意,因为这只会使黑客的生活更轻松。

#6 楼

就像其他人提到的那样,提起数字千年版权法案(DMCA)投诉和版权民事诉讼可能是最好的选择。 ,Facebook等)。记录的时间戳可能是您首先编写的一个公平的指示,以防万一您必须证明它。通过Google网站站长工具,您可以强制执行一项设置,以使Googlebot经常抓取您的网站。假设,流行的搜索引擎会定期将您的网页编入索引(使用网站运营商site:example.com进行查找),可以将缓存副本中的日期用作内容发布时间的大致指标。 >
对于您发布的新内容,您也可以在图像中嵌入水印,并在JS文件中添加注释,以表明您是这些文件的原始所有者。

评论


如果有一个自动程序复制内容,他可以在页面中简单地包含作者信息,因此复制的内容将包含诸如“这是由Foo创建,保留所有权利”之类的内容,这使情况非常清楚(例如,可以隐藏(在acrostic中,但作为一个漫游器,它将以纯文本形式运行,并使您的案例更强大)。

–Ángel
2014年8月24日在20:34