seo如何正确识别百度蜘蛛
一、如何正确识别Baiduspider手机ua
新的移动ua:
Mozilla/5.0(Linux;u;安卓4 . 2 . 2;zh-cn;)AppleWebKit/534.46 (KHTML,像壁虎一样)版本/5.1手机Safari/10600.6.3(兼容;baiduspider/2.0;
)
PC ua:
Mozilla/5.0(兼容;baiduspider/2.0;
)
之前用“
”标识的网站请注意!您需要修改识别方法。识别Baiduspider的移动ua的新的正确方法如下:
1.通过关键词“安卓”或“移动”识别,判断为移动接入或抓取。
2.通过关键词“Baiduspider/2.0”判断为百度爬虫。
另外需要强调的是,对于要禁用的机器人,如果禁用的代理是Baiduspider,那么在PC端和移动端都会生效。也就是PC和移动Baiduspider都不会抓取被禁对象。之所以要强调这一点,是因为我发现了一些代码适配站点(同一个url,PC ua打开时是PC页面,移动ua打开时是移动页面),想通过设置机器人的代理禁令,只让移动Baiduspider抓取。但是由于PC端和移动端Baiduspider的代理都是百度蜘蛛,所以这种方式非常不可取。
二、如何识别百度蜘蛛
百度蜘蛛可谓是站长的座上宾,但我们曾经遇到过这样提问的站长:我们如何判断疯狂抓取我们网站内容的蜘蛛是不是百度的?其实站长可以通过DNS查IP来判断一个蜘蛛是否来自百度搜索引擎。根据linux/windows/os等不同平台上验证方法的不同,验证方法如下:
1.在linux平台下,可以使用host ip命令解密ip,判断是否来自Baiduspider。Baiduspider的主机名以*.baidu.com或*.baidu.jp的格式命名,如果不是*.baidu.com或* .baidu.jp,就是冒名顶替。
2.在windows平台或IBM OS/2平台下,可以使用nslookup ip命令来逆向ip解决方案,以确定它是否来自Baiduspider。打开命令处理器,输入nslookupxxx.xxx.xxx (ip地址)解析ip,从而确定是否被Baiduspider抓取。Baiduspider的主机名以*.baidu.com或者*.baidu.jp的格式命名,如果不是*.baidu.com或者* .baidu.jp就是冒名顶替。
3.在mac os平台下,可以使用dig命令解析ip来判断是否来自Baiduspider。打开命令处理器,输入dig xxx.xxx.xxx.xxx(ip地址)解析ip,确定是否被Baiduspider抓取。Baiduspider的主机名以*.baidu.com或者*.baidu.jp的格式命名,如果不是*.baidu.com或者* .baidu.jp就是冒名顶替。
3.什么是Baiduspider IP?
很多站长即使知道如何判断百度蜘蛛,还是会不停的问“百度蜘蛛IP多少钱”。我们理解站长的意思,就是想把百度蜘蛛的IP加入白名单,只允许白名单下的IP抓取网站,避免被收录。
但是我们不建议站长这么做。虽然百度蜘蛛确实有切换真实IP的IP池,但我们不能保证整个IP池不变。所以我们建议站长经常阅读日志,发现恶意蜘蛛后将其列入黑名单,保证百度的正常抓取。
同时我们再次强调,通过IP来区分百度蜘蛛的属性是很可笑的。所谓的“沙盒蜘蛛”和“降权蜘蛛”从来就不存在。
搜索引擎蜘蛛是怎样抓取网页的呢?
搜索引擎用来爬行和访问页面的程序被称为蜘蛛,也叫爬虫。搜索引擎命令它到互联网上浏览网页,从而得到互联网的大部分数据(因为还有一部分暗网,他是很难抓取到的)然后把这些数据存到搜索引擎自己的数据库中。自己发帖或者外推产生的URL如果没有搜索引擎蜘蛛爬行,那么该搜索引擎就不会收录该页面,更不用说排名了。r 而蜘蛛池程序的原理,就是将进入变量模板生成大量的网页内容,从而吸大批的蜘蛛,让其不停地在这些页面中抓取,而将我们需要收录的URL添加在蜘蛛站开发的一个特定版块中。这样就能使用我们需要收录的URL有大量的蜘蛛抓取爬行,大大提升了页面收录的可能性。所谓日发百万外链就是这样来的,一个普通的蜘蛛池也需要至少数百个域名。而据我所知高酷蜘蛛池大概有2000个独立域名,日均蜘蛛200W。是比较庞大的一个蜘蛛池了。r 以上就是蜘蛛池的原理,那么如何搭建蜘蛛池?1.多IP的VPS或服务器(根据要求而定)r 多IP服务器,建议美国服务器,最好是高配配,配置方面(具体看域名数量)不推荐使用香港服务器,带宽小 ,容易被蜘蛛爬满。重要的是服务器内存一定要大,之前我们就遇到过,前期刚做的时候,用的内存比较小,蜘蛛量一大的话,立马就崩了。r 2.一定数量的域名(根据数量而定)r 可购买闲置的二手的域名,域名便宜的就好,好点的蜘蛛池,至少准备1000个域名吧,蜘蛛池目的为吸引蜘蛛,建议使用后缀为CN COM NET 之类的域名,域名计费以年为计费,成本不算太大,域名根据效果以及您的链接数量逐渐增加,效果会翻倍增长。也可在之前购买的域名上解析一部分域名出来,继续增加网站,扩大池子,增加蜘蛛量。r 3.变量模版程序 (成本一般千元左右)r 可自己开发,如果不会的,也可在市场上购买程序变量模版, 灵活文章以及完整的网站元素引外链,CSS/JS/超链接等独特的技巧吸引蜘蛛爬取! 让每个域名下内容都变的不一样!都知道百度对于网站重复内容的打击态度,所以必须保持每个站的内容不要出现重复,所以变量程序就显得尤为重要。r 4.程序员(实力稍好点的)r 需满足,网站内容的采集以及自动生成,我们前期采集了不少词条,自动组合文章,前期阶段,一天五十万文章的生成量,所以对服务器是一个很大的压力。最好程序员要懂服务器管理维护之类的知识,很重要。r 可以看出,蜘蛛池的成本其实不算低,数千个域名,大的服务器,程序员,对于一般站长来说,搭建蜘蛛池成本偏高,性价比不高。建议租用蜘蛛池服务,网上也有高酷蜘蛛池、超级蜘蛛池等在线的蜘蛛池。SEO、外推、个人站长可以关注一下。r 蜘蛛池的作用?1.蜘蛛池的效果有哪些r 答:可以快速让你的站的连接得到搜索引擎的爬行r 2.蜘蛛池可以提高网站权重吗?r 答:本身搜索引擎爬行和给予权重需要N天,因为第一个的原因,他可以快速的给予带回数据中心,也就是说本来应该需要N天爬行的页面,现在快速爬行了。但是是否会接着进行计算要看很多因素,比如 你网站自身权重、页面质量、页面推荐……r 3.蜘蛛池的效果增加新站收录吗r 答:一定程度上抓取的页面多了,收录会有一定比例的增加。r