登录百度下载博客

#coding:utf8#Author = yyobin@gmail.com#Create = 20120517
import cookielib, urllib2, urllibimport os, sys,socket ,re
#解析有多少页博客pageStr = “””allCount : ‘(d+)’,s+pageSize : ‘(d+)'”””pageObj = re .compile(pageStr, re .DOTALL)
#获取登陆tokenlogin_tokenStr = ”’bdPass.api.params.login_token='(.*?)’;”’login_tokenObj = re .compile(login_tokenStr,re .DOTALL)
#获取博客标题和urlblogStr = r”'<div class=”hide q-username”><a href=”.*?” class=a-normal target=_blank>.*?</a></div><a href=”(.*?)” class=”a-incontent a-title cs-contentblock-hoverlink” target=_blank>(.*?)</a></div><div class=”item-content cs-contentblock-detailcontent”>”’blogObj = re .compile(blogStr,re .DOTALL)
class Baidu(object ):    def __init__(self ,user = ” , psw = ” , blog = ” ):        self .user = user#暂未考虑中文 ID        self .psw = psw        self .blog = blog

        if not os.path .exists( self.user ):            os .mkdir( self.user )
        self .cookiename = ‘baidu%s.coockie’ % ( self.user )        self .token = ”
        self .allCount = 0        self .pageSize = 10        self .totalpage = 0
        self .logined = False        self .cj = cookielib.LWPCookieJar ()        try:            self .cj. revert(self .cookiename)            self .logined = True            print “OK”        except Exception,e:            print e
        self .opener = urllib2.build_opener(urllib2.HTTPCookieProcessor (self. cj))        self .opener. addheaders = [(‘User-agent’,‘Opera/9.23’)]        urllib2 .install_opener(self.opener )
        socket .setdefaulttimeout(30)
    #登陆百度    def login(self ):        #如果没有获取到cookie，就模拟登陆一下        if not self.logined :            print “need logon”            #第一次访问一下，目的是为了先保存一个 cookie下来            qurl = ”’https://passport.baidu.com/v2/api/?getapi&class=login&tpl=mn&tangram=false”’            r = self. opener.open (qurl)            self .cj. save(self .cookiename)
            #第二次访问，目的是为了获取 token            qurl = ”’https://passport.baidu.com/v2/api/?getapi&class=login&tpl=mn&tangram=false”’            r = self. opener.open (qurl)            rsp = r. read()            self .cj. save(self .cookiename)
            #通过正则表达式获取token            matched_objs = login_tokenObj.findall(rsp )            if matched_objs:                self .token = matched_objs[0 ]                print self. token                #然后用token 模拟登陆                post_data = urllib.urlencode({‘username’ :self. user,                                              ‘password’:self .psw,                                              ‘token’:self .token,                                              ‘charset’:‘UTF-8’ ,                                              ‘callback’:‘parent.bd12Pass.api.login._postCallback’ ,                                              ‘index’:‘0’ ,                                              ‘isPhone’:‘false’ ,                                              ‘mem_pass’:‘on’ ,                                              ‘loginType’:‘1’ ,                                              ‘safeflg’:‘0’ ,                                              ‘staticpage’:‘ https://passport.baidu.com/v2Jump.html‘,                                              ‘tpl’:‘mn’ ,                                              ‘u’:‘ http://www.baidu.com/‘,                                              ‘verifycode’:” ,                                            })                #path = ‘http://passport.baidu.com/?login ‘                path = ‘ http://passport.baidu.com/v2/api/?login‘                self .opener = urllib2.build_opener(urllib2.HTTPCookieProcessor (self. cj))                self .opener. addheaders = [(‘User-agent’,‘Opera/9.23’)]                urllib2 .install_opener(self.opener )                headers = {                  “Accept”: “image/gif, */*”,                  “Referer”: “https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F“ ,                  “Accept-Language”: “zh-cn”,                  “Content-Type”: “application/x-www-form-urlencoded” ,                  “Accept-Encoding”: “gzip, deflate”,                  “User-Agent”: “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)”,                  “Host”: “passport.baidu.com”,                  “Connection”: “Keep-Alive”,                  “Cache-Control”: “no-cache”                }                req = urllib2.Request(path ,                                post_data ,                                headers =headers,                                )                rsp = self. opener.open (req). read()                #如果觉得有必要的话，在这里自己读一下 rsp判断一下是否登陆OK，我打印过登陆没问题                self .cj. save(self .cookiename)            else:                print “Login Fail”                sys .exit( 0)
    #获取博客一共有多少页，如果有私有博客的话，登陆和不登陆获取的是不一样的    def getTotalPage(self ):        #获取博客的总页数        req2 = urllib2.Request(self .blog)        rsp = urllib2.urlopen(req2 ).read()        if rsp:            rsp = rsp. replace(” ,”). replace(‘
‘ ,”). replace(‘ ‘ ,”)            matched_objs = pageObj.findall(rsp )            if matched_objs:                obj0 ,obj1 = matched_objs[0 ]                self .allCount = int(obj0 )                self .pageSize = int(obj1 )                self .totalpage = (self .allCount / self.pageSize ) + 1                print self. allCount,self .pageSize,self.totalpage
    #获取每一页里的博客链接    def fetchPage(self ,url):        req = urllib2.Request(url )        rsp = urllib2.urlopen(req ).read()        if rsp:            rsp = rsp. replace(” ,”). replace(‘
‘ ,”). replace(‘ ‘ ,”)            matched_objs = blogObj.findall(rsp )            if matched_objs:                for obj in matched_objs:                    #这里可以用多线程改写一下 ,单线程太慢                    self .download(obj[0 ],obj[ 1])
    def downloadBywinget(self ,url, title):        pass#比如使用 wget之类的第三方工具，自己填参数写
    #下载博客    def download(self ,url, title):        path = ‘%s/%s.html’ % (self .user, title.decode (‘utf-8’))
        url = ‘ http://hi.baidu.com%s‘ % (url)        print “Download url %s” % (url )
        nFail = 0        while nFail < 5:            try:                sock = urllib.urlopen(url )                htmlSource = sock. read()                myfile = file( path,‘w’ )                myfile .write( htmlSource)                myfile .close()                sock .close()                return            except:                nFail += 1        print ‘download blog fail:%s’ % (url )
    def dlownloadall(self ):        for page in range(1 ,self. totalpage+1 ):            url = “%s?page=%d” % (self .blog, page)            #这里可以用多线程改写一下 ,单线程太慢            self .fetchPage(url)
def main ():    user = ‘yourname‘       #你的百度登录名    psw = ‘password‘ # 你的百度登陆密码 ,不输入用户名和密码，得不到私有的文章    blog = “http://hi.baidu.com/yourname “ #你自己的百度博客链接
    baidu = Baidu (user, psw,blog )    baidu.login ()    baidu.getTotalPage ()    baidu.dlownloadall ()
if __name__ == ‘__main__’:    main()

来自为知笔记(Wiz)

登录百度下载博客

python自由变量指的是什么

win10提示无法打开这个应用怎么解决

赞助商推荐

最新文章

山灵推出 EH1 桌面解码耳放，10 月 21 日全网首发价 1298 元

堡垒机的作用和原理是什么(堡垒机的作用和原理图片)

网络爬虫是什么意思(c++和python先学哪个)

eclipse如何导入一个项目(eclipse如何导入一个项目为啥爆红)

数据库引擎是什么意思(数据库引擎有哪些,有什么区别)

打印机状态错误怎么解决(打印机错误无法打印怎么处理)

jython和python的区别(python和java的区别及应用领域)

vip的域名是不是不如com好做seo(vip域名可以备案吗怎么备案)

阮一峰事件（阮一峰被ddos）

报送中央备案（报党中央备案）

标签

点击排行

谷歌请求法院暂停执行Epic诉讼判决，称其危及Android安全

qq快捷键截图保存在哪里(qq快捷键截屏后,保存在哪里)

个人域名和企业域名的区别(企业域名和个人域名有什么区别和联系)

192核心领先至强6近40％! AMD Zen5 EPYC处理器首发测评

工信部：大力发展人形机器人、脑机接口、6G 等新领域新赛道

登录百度下载博客

python自由变量指的是什么

win10提示无法打开这个应用怎么解决

赞助商推荐

最新文章

山灵推出 EH1 桌面解码耳放，10 月 21 日全网首发价 1298 元

标签

点击排行

谷歌请求法院暂停执行Epic诉讼判决，称其危及Android安全

qq快捷键截图保存在哪里(qq快捷键截屏后,保存在哪里)

个人域名和企业域名的区别(企业域名和个人域名有什么区别和联系)

192核心领先至强6近40％! AMD Zen5 EPYC处理器首发测评

工信部：大力发展人形机器人、脑机接口、6G 等新领域新赛道

关注我们的公众号