python爬虫公众号_python爬虫_微信公众号推送信息爬取的实例

345 阅读 0 评论 228 点赞

问题描述

利用搜狗的微信搜索抓取指定公众号的最新一条推送，并保存相应的网页至本地。

注意点

搜狗微信获取的地址为临时链接，具有时效性。

公众号为动态网页(JavaScript渲染)，使用requests.get()获取的内容是不含推送消息的，这里使用selenium+PhantomJS处理

代码

参考输出

Terminal输出

Finder

分析

链接获取

首先进入搜狗的微信搜索页面，在地址栏中提取需要的部分链接，字符串连接公众号名称，即可生成请求链接

针对静态网页，利用requests获取html文件，再用BeautifulSoup选择需要的内容

针对动态网页，利用selenium+PhantomJS获取html文件，再用BeautifulSoup选择需要的内容

遇到验证码(CAPTCHA)，输出提示。此版本代码没有对验证码做实际处理，需要人为访问后，再跑程序，才能避开验证码。

文件写入

使用os.path.join()构造存储路径可以提高通用性。比如Windows路径分隔符使用back slash()，而OS X 和 Linux使用forward slash(/)，通过该函数能根据平台进行自动转换。

open()使用b(binary mode)参数同样为了提高通用性(适应Windows)

使用datetime.now()获取当前时间进行命名，并通过strftime()格式化时间(函数名中的f代表format)，

以上这篇python爬虫_微信公众号推送信息爬取的实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持服务器之家。

原文链接：http://www.cnblogs.com/chasechoi/p/7710839.html

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。