我如何设置一个网站被禁止被爬虫收录?
网站建好之后,当然希望搜索引擎收录的页面越多越好,但是有时候我们也会遇到网站不需要被搜索引擎收录的情况。
比如启用一个新域名作为镜像网站,主要用于PPC的推广,这时候就要想办法阻止搜索引擎蜘蛛对我们镜像网站的所有页面进行抓取和索引。因为如果镜像网站也被搜索引擎收录,很可能会影响官网在搜索引擎中的权重。
下面列举几种阻止主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的思路。注:全网站屏蔽,尽可能屏蔽主流搜索引擎的所有爬虫(蜘蛛)。
1.被robots.txt文件阻止
可以说robots.txt文件是最重要的渠道(可以和搜索引擎建立直接对话),给出以下建议:
用户代理:Baiduspider
不允许:/
用户代理:Googlebot
不允许:/
用户代理:谷歌机器人手机
不允许:/
用户代理:谷歌机器人图像
不允许:/
用户代理:Mediapartners-Google
不允许:/
用户代理:Adsbot-Google
不允许:/
用户代理:Feedfetcher-Google
不允许:/
用户代理:雅虎!大声地吃
不允许:/
用户代理:雅虎!啜饮中国
不允许:/
用户代理:雅虎!-广告爬虫
不允许:/
用户代理:有道机器人
不允许:/
用户代理:Sosospider
不允许:/
用户代理:搜狗蜘蛛
不允许:/
用户代理:搜狗网络蜘蛛
不允许:/
用户代理:MSNBot
不允许:/
用户代理:ia_archiver
不允许:/
用户代理:番茄机器人
不允许:/
用户代理:*
不允许:/
2.按元标签屏蔽
将以下语句添加到所有网页头文件中:
& ltmeta name = & quot机器人& quotcontent = & quotnoindex,nofollow & quot& gt
3.通过服务器的配置文件来设置(比如Linux/nginx)
直接过滤蜘蛛/机器人的IP段。
注意:第一、二项措施只对“君子”有效,第三项措施要用来防“小人”(“君子”和“小人”一般分别指遵守robots.txt协议的蜘蛛/机器人)。所以网站上线后,需要跟踪分析日志,筛选出这些badbot的ip,然后进行屏蔽。
什么网页爬虫爬不到?
被引擎K过的网站,爬虫是不会去爬的,因为已经进了黑名单 还有一个就是还没被蜘蛛发现未被收录的网站,也是爬不到的
如何吸引搜索引擎蜘蛛抓取我们的网站_?
做网站优化的的目的,就是为了在搜索引擎中,拥有一个良好的排名,从而获得大量的流量。想要在搜索引擎中获得良好的排名,就必须要提升搜索引擎蜘蛛对网站的抓取速度。如果搜索引擎对网站抓取的频率低,就会直接影响到网站的排名、流量以及权重的评级。
那么,如何提升搜索引擎蜘蛛对网站的抓取速度呢?
1、主动提交网站链接
当更新网站页面或者一些页面没被搜索引擎收录的时候,就可以把链接整理后,提交到搜索引擎中,这样可以加快网站页面被搜索引擎蜘蛛抓取的速度。
2、优质的内容
搜索引擎蜘蛛是非常喜欢网站优质的内容,如果网站长时间不更新优质的内容,那么搜索引擎蜘蛛就会逐渐降低对网站的抓取率,从而影响网站排名以及流量。所以网站必须要定时定量的更新优质内容,这样才能吸引搜索引擎蜘蛛的抓取,从而提升排名和流量。
3、网站地图
网站地图可以清晰的把网站内所有的链接展现出来,而搜索引擎蜘蛛可以顺着网站地图中的链接进入到每个页面中进行抓取,从而提升网站排名。
4、外链建设
高质量外链对提升网站排名有很大作用,搜索引擎蜘蛛会顺着链接进入到网站中,从而提升抓取网站的速度。如果外链质量太差,也会影响搜索引擎蜘蛛的抓取速度。
总之,只要提升搜索引擎蜘蛛对网站的抓取速度,网站就能在搜索引擎中获得良好排名,从而获得大量流量。