首页 › 后端 › 正文

信息屏蔽蜘蛛

如何屏蔽蜘蛛抓取（如何屏蔽蜘蛛抓取信息）

风君子后端 2024-03-14 19

如何禁止搜索引擎爬虫抓取网站页面

下面是一些阻止主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的思路。注:全网站屏蔽，尽可能屏蔽主流搜索引擎的所有爬虫(蜘蛛)。

1.被robots.txt文件阻止

可以说robots.txt文件是最重要的渠道(可以和搜索引擎建立直接对话)，给出以下建议:

用户代理:Baiduspider

不允许:/

用户代理:Googlebot

不允许:/

用户代理:谷歌机器人手机

不允许:/

用户代理:谷歌机器人图像

不允许:/

用户代理:Mediapartners-Google

不允许:/

用户代理:Adsbot-Google

不允许:/

用户代理:Feedfetcher-Google

不允许:/

用户代理:雅虎！大声地吃

不允许:/

用户代理:雅虎！啜饮中国

不允许:/

用户代理:雅虎！-广告爬虫

不允许:/

用户代理:有道机器人

不允许:/

用户代理:Sosospider

不允许:/

用户代理:搜狗蜘蛛

不允许:/

用户代理:搜狗网络蜘蛛

不允许:/

用户代理:MSNBot

不允许:/

用户代理:ia_archiver

不允许:/

用户代理:番茄机器人

不允许:/

用户代理:*

不允许:/

2.按元标签屏蔽

将以下语句添加到所有网页头文件中:

& ltmeta name = & quot机器人& quotcontent = & quotnoindex，nofollow & quot& gt

3.通过服务器的配置文件来设置(比如Linux/nginx)

直接过滤蜘蛛/机器人的IP段。

SEO优化图片有哪些方法？

图片优化要做上alt属性

图片大小要统一

图片的水印处理

要上传清晰的图片

没有必要优化你网站上的所有的图片。比如模板中使用的图片、导航中的图片还有背景图片等等，我们不用为这些图片添加ALT标签，我们可以把这些图片放在一个单独的文件夹里。并通过设置robots文件设置来阻止蜘蛛抓取这些图片。

ml域名如何转发到主机屋（主机屋的域名转入）

arm移植linux系统（arm 移植linux）