CDN源站屏蔽搜索引擎爬虫

佚名 2022-07-29

前言

自从全站使用阿里云CDN之后,网站访问速度明显提高,阿里云CDN稳定性也很好。但最近发现百度和谷歌的爬虫开始爬我的源站。这有点麻烦。如果不赶紧解决,主站降权就不好了。

思路

因为蜘蛛爬不该爬的东西,解决办法自然是限制蜘蛛爬。

大约有三种方法可以限制蜘蛛的抓取:1.robots.txt文件

robots该文件用于限制搜索引擎蜘蛛的行为,主要用于限制蜘蛛在同一程序下捕获不同域名。但是robots.txt该文件不能限制域名相关参数,只能限制蜘蛛对当前域名下文件的捕获,这条路是不可能的。2.设置META标签

当访问者访问的域名不是主站域名时,在网页上在标签中植入限制蜘蛛活动的内容相对简单。只需修改模板中的内容header文件即可。3.识别蜘蛛UA,限制网站程序

获取访客的User-Agent,如果是搜索引擎蜘蛛UA,跳到主站。还有一个问题,就是上网收集搜索引擎蜘蛛UA,想着就累。

人懒,选择设置META标签法。

实践

第一步是在程序中获取访问者访问的域名。这一步就不多介绍了,不同的语言和环境有不同的获取方法,PHP访问者当前访问的域名可以通过以下句子获得:

$_SERVER[‘SERVER_NAME’];

第二步,如果不是主站域名,则输出HEAD中的META标签限制蜘蛛活动:

if ($_SERVER['SERVER_NAME']!= 'www.kungg.com'{

echo '';


版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权本站发表,未经许可,不得转载。

分享:

扫一扫在手机阅读、分享本文