概述
问题描述
利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地。
注意点
搜狗微信获取的地址为临时链接,具有时效性。
公众号为动态网页(JavaScript渲染),使用requests.get()获取的内容是不含推送消息的,这里使用selenium+PhantomJS处理
代码
参考输出
Terminal输出
Finder
分析
链接获取
首先进入搜狗的微信搜索页面,在地址栏中提取需要的部分链接,字符串连接公众号名称,即可生成请求链接
针对静态网页,利用requests获取html文件,再用BeautifulSoup选择需要的内容
针对动态网页,利用selenium+PhantomJS获取html文件,再用BeautifulSoup选择需要的内容
遇到验证码(CAPTCHA),输出提示。此版本代码没有对验证码做实际处理,需要人为访问后,再跑程序,才能避开验证码。
文件写入
使用os.path.join()构造存储路径可以提高通用性。比如Windows路径分隔符使用back slash(), 而OS X 和 Linux使用forward slash(/),通过该函数能根据平台进行自动转换。
open()使用b(binary mode)参数同样为了提高通用性(适应Windows)
使用datetime.now()获取当前时间进行命名,并通过strftime()格式化时间(函数名中的f代表format),
以上这篇python爬虫_微信公众号推送信息爬取的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持服务器之家。
原文链接:http://www.cnblogs.com/chasechoi/p/7710839.html
最后
以上就是坚强乌龟为你收集整理的python爬虫公众号_python爬虫_微信公众号推送信息爬取的实例的全部内容,希望文章能够帮你解决python爬虫公众号_python爬虫_微信公众号推送信息爬取的实例所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复