我正在为一个11岁的父母建立一个Wordpress网站,该网站想要一些东西来纪念她女儿的运动,学业和个人成就。该网站包括她和朋友的照片和视频,传记信息和博客文章。该域名以我公司的名义进行了私下注册,我没有将它们添加到Google控制台中,并且将其他SEO保持在最低限度。没有姓氏或实际地址。我想尽可能多地保护网络安全,以免刮擦器抓到她的照片等,窥视他人的眼睛。我可能很偏执,并且像我所有的网站一样,它认为它可能会获得比实际更多的访问量,但我认为这是值得调查,也值得给我点赞。孩子的网站品味极佳,父母很扎实,她了解互联网等...

我有什么可靠的方法可以提高这11年的网络安全和她的网站?

评论

这是一个开始:webmasters.stackexchange.com/questions/77031/…我将总体上考虑该站点的其他想法。顺便说一句-非常适合您承担这项任务!这是一个艰难的过程。但是值得付出努力!!我曾经做过免费的慈善托管以及付费托管,到目前为止,崇高的事业一直是我的最爱。这些是我记得的!

您确实意识到什么都不做会使它100%不可见...所要做的就是某人在Facebook或Tumblr上发布指向它的链接,并且该网站将在那里...最好的事情是父母监督/批准孩子发布的所有内容,并就他们需要注意的事项进行教育

内容正确的robots.txt文件可以阻止所有合法的bot。困难的部分是其余部分。如果很难找到该站点的地址,则可以将其中许多保留。

除了已经说过的所有内容之外,请注意Wordpress保留图像EXIF数据完整无缺...

这需要一个网站吗?如果您不希望其大量传播并被错误使用,为什么要将其发布到互联网上?您能不能在她的记忆中再做些其他事情,然后再交给有关的父母/家人/人?

#1 楼


我可能很偏执


也许我很偏执,但这听起来应该是一个完全私人的博客/网站。即。密码保护。目标受众究竟是谁?

除了安全性方面(防止无良的发现和使用内容),这种内容听起来像是可以被其他学校“朋友”欺凌了。 。起初可能不错的内容-直到11岁-可能几年后就会变得令人尴尬。


我没有将它们添加到Google控制台中


这似乎是落后的?从Google隐藏内容(即“好”机器人)的方式是使用robots元标记(或X-Robots-Tag标头),也可能使用robots.txt。从Google Search Console忽略它在这方面无济于事。

至少如果将其添加到Google Search Console中,则可以监视诸如反向链接,检查robots.txt等内容。如果确实需要,公开。

评论


这确实是唯一理智的解决方案。 +1

–MonkeyZeus
2015年11月9日下午13:23

简要说明-不将网站添加到Google Search Console意味着不直接将网站告知Google。这意味着您不会竭尽全力让Google注意到您。但是,这并不意味着Google不会注意到您-您会按照w3d的建议使用robots文件。此外,对网站进行密码保护将意味着Google最多可以索引的页面将是登录页面。

–杰克
2015年11月9日15:11

“您从Google隐藏内容的方式”是首先不要将其放在互联网上。

–轨道轻赛
2015年11月9日在16:28

我认为保护目录的密码可以消除妈妈想要网站的原因,在这种情况下,我们只需要写一个doc新闻简讯并将其通过电子邮件发送出去即可。女儿想开博客。妈妈们并不傻,她正在筛选和编辑内容。我不相信他们在这里做任何不负责任的事情。对于这个问题,这是极好的反馈。

–rhill45
2015年11月9日在16:40

在WP中保护站点的密码与保护媒体无关。

–blankip
2015年11月9日在23:24

#2 楼

唯一合适的答案是用密码保护整个事情。 HTTP BASIC_AUTH可能是最简单的设置,因为它不会以任何方式与WordPress交互。它本身足以阻止所有抓取工具,但是如果您想要适当的安全性,则还应该使用HTTPS。

(旁注:在许多系统中,HTTP页面将重定向到HTTPS。但是, HTTP BASIC_AUTH,可以在提示输入密码后进行重定向,然后HTTPS页面将再次提示输入密码,这意味着您的密码已输入两次,一次是明文输入,一次是通过安全通道输入。 HTTP和HTTPS版本具有不同的密码,或者HTTP版本没有密码:仅将其重定向到HTTPS版本,然后要求您输入密码。设置的难易程度取决于您使用的工具用于管理您的网站托管首选项。或者,只需确保始终绕过不安全的版本直接导航到HTTPS页面。如果您使用的不是HTTP BASIC_AUTH密码系统,那么本说明不适用。)

评论


如果您要使用受密码保护的路线,因为这是一个WordPress网站,只需使用WordPress来处理所有操作就容易得多了:codex.wordpress.org/Content_Visibility#Private_Content

–道尔·刘易斯
2015年11月9日14:19

@DoyleLewis。这样可以保护静态资产,例如上传的图像吗?诚然,爬网程序不太可能找到它们(只要您具有Option -Indexes)。

– TRiG
2015年11月9日在16:40

我考虑过https,但唯一的问题是成本。我希望我可以找到一种方法来在我的公司ssl下运行她的网站,但是当然不可能

–rhill45
2015年11月9日在16:42

letsencrypt.org @ rhill45。

– TRiG
2015年11月9日在16:49



@TRiG如果某人拥有指向静态媒体文件的URL,则不会,它不会对此提供保护。但是,任何爬虫都无法使用它,因为它们将无法获取链接到文件的内容。

–道尔·刘易斯
2015年11月9日17:12

#3 楼

首先,我将向所有专业的网站管理员致以诚挚的歉意,但是对于此OP,我有一个绝妙的建议:

违反搜索引擎指南

我意思是要做到这一点,即重要内容使用复杂的javascript,而机器人可以抓取的内容则使用不正确的HTML。这包括不正确的描述标签,不正确的标题标签等。哎呀,可能将整个内容变成仅用Flash制作的视频,或者将整个内容仅显示为一张图像。

我将以示例方式在代码中进行展示:

这里是一种索引内容的方法:

<!DOCTYPE html>
<html>
<head>
<title>Web page</title>
<meta name="description" content="This is a wonderful web page">
</head>
<body>
<h1>A wonderful web page</h1>
<h2>By John Smith</h2>
<p>This is a wonderful page. ya de ya de ya de ya de ya de ya de</p>
<p>This is wonderful. ya de ya de ya de ya de ya de ya de</p>
</body>
</html>


好吧,我承认文字并不完美,但是您明白我的意思了。

现在,如果您想对爬虫隐藏它并执行一种简单的方法,您可以尝试以下操作:

<!DOCTYPE html>
<html>
<head>
<title>Private</title>
</head>
<body>
<img src="mywebsite.jpg" width=1024 height=768>
</body>
</html>


,然后创建一个名为mywebsite.jpg的图像,并包含其中的所有文本,而不是上面显示的html。然后,您需要通过为未经授权查看实物的用户制作水印版本来保护mywebsite.jpg。只需将用户代理字符串或ip地址与您允许/禁止使用的图像进行比较。可以使用一些重写规则在.htaccess中完成此类操作。例如,要强制googlebot查看带有水印的图像而不是真实的图像,请使用以下规则:

RewriteCond %{HTTP_USER_AGENT} ^googlebot$ [NC]
RewriteRule ^mywebsite.jpg$ specialrobotimage.jpg [L]


我在这里假设mywebsite.jpg是作为图像的您的真实网站,而specialrobotimage.jpg是作为水印或作为消息的图像,指出仅允许真实用户查看信息。此外,规则假定所有内容都在同一文件夹中。

评论


确实,JS可能是其中很多方法。虽然某些机器人确实运行JS,但刮板和其他通常不运行的刮板。这意味着当JS运行时,可以将各种HTML DOM对象设置为真实内容。我不建议依赖用户代理,因为这通常是由刮板伪造的。考虑安装ModSecurity,让它为您完成大部分工作。

– closetnoc
2015年11月9日,下午3:17

这确实是一个糟糕的建议。这是很多工作,没有真正的好处。如今,大量的机器人都在运行JavaScript。视频或图像中的内容不容易维护(而且两者仍定期索引)。甚至Flash中的内容也已被索引多年。

–布拉德
2015年11月9日在22:16

好的,我确实忘记提及没有索引应应用于图像和视频。我知道它们不容易维护,但至少不能轻易地修改文本。另一方面,如果页面上仅包含原始文本,则爬虫可以获取该文本块,对其进行修改,向其中添加模板,然后从中构建另一个网站。我怀疑搜寻器是否具有从图像或视频中提取文本的功能。

–迈克-不再在这里
2015年11月10日下午4:15

#4 楼

首先,这确实是一个WP问题。我已经写了20多个网站来满足您的需求,所以这很容易。
1您使每个人都可以登录以查看每个页面。
2您可以通过脚本和.htaccess锁定上载文件夹。有些脚本会在允许用户查看媒体之前检查用户登录。
如果您要在此过程中进行任何操作并让您的网站完全开放-这是很多工作。最简单的方法是拥有两个上载文件夹-一个具有安全性的文件夹,另一个用于其他所有文件的文件夹,如果您想让某些页面向公众开放,而另一些则不开放。
关于其他人对内容的评价-可以如果您的页面被锁定,找不到它……那不是真的。我有机器人脚本,这些脚本会在文件夹中搜索废话以获取文件名。
所有与Google和机器人的对话都是胡说八道。这些东西只有在您想半点刺的时候才重要。如果您愿意,请从上面提出的一些问题中寻求建议。