如何禁止搜索引擎爬虫抓取网站页面
下面是一些阻止主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的思路。注:全网站屏蔽,尽可能屏蔽主流搜索引擎的所有爬虫(蜘蛛)。
1.被robots.txt文件阻止
可以说robots.txt文件是最重要的渠道(可以和搜索引擎建立直接对话),给出以下建议:
用户代理:Baiduspider
不允许:/
用户代理:Googlebot
不允许:/
用户代理:谷歌机器人手机
不允许:/
用户代理:谷歌机器人图像
不允许:/
用户代理:Mediapartners-Google
不允许:/
用户代理:Adsbot-Google
不允许:/
用户代理:Feedfetcher-Google
不允许:/
用户代理:雅虎!大声地吃
不允许:/
用户代理:雅虎!啜饮中国
不允许:/
用户代理:雅虎!-广告爬虫
不允许:/
用户代理:有道机器人
不允许:/
用户代理:Sosospider
不允许:/
用户代理:搜狗蜘蛛
不允许:/
用户代理:搜狗网络蜘蛛
不允许:/
用户代理:MSNBot
不允许:/
用户代理:ia_archiver
不允许:/
用户代理:番茄机器人
不允许:/
用户代理:*
不允许:/
2.按元标签屏蔽
将以下语句添加到所有网页头文件中:
& ltmeta name = & quot机器人& quotcontent = & quotnoindex,nofollow & quot& gt
3.通过服务器的配置文件来设置(比如Linux/nginx)
直接过滤蜘蛛/机器人的IP段。
SEO优化图片有哪些方法?
图片优化要做上alt属性
图片大小要统一
图片的水印处理
要上传清晰的图片
没有必要优化你网站上的所有的图片。比如模板中使用的图片、导航中的图片还有背景图片等等,我们不用为这些图片添加ALT标签,我们可以把这些图片放在一个单独的文件夹里。并通过设置robots文件设置来阻止蜘蛛抓取这些图片。