新闻平台聚合之腾讯新闻爬虫发布

303 阅读 0 评论 200 点赞

我是靠谱客的博主曾经毛衣，这篇文章主要介绍新闻平台聚合之腾讯新闻爬虫发布，现在分享给大家，希望可以做个参考。

对于 web 开发者而言，目前各大新闻门户网站，新浪新闻，百度新闻，腾讯新闻，澎湃新闻，头条新闻并没有提供稳定可用的 feed api。
对于 nlper，缺乏足够的新闻语料数据集来供训练。
对于新闻传播/社会学/心理学等从业者，缺乏获取新闻数据的简单易用途径来供分析。
如果上面三点是某见识所限，其实并不存在的话，第 4 点，则是某的私心，某以为互联网的记忆太短了，热搜一浪盖过一浪，所以试图定格互联网新闻的某些瞬间，最后会以网站的形式发布出来。

project 的 Github：https://github.com/Python3Spiders/AllNewsSpider

继承自澎湃新闻网站全站新闻爬虫及各大新闻平台聚合爬虫发布
，本篇是新闻系列的第二篇，以腾讯新闻为目标网站

该爬虫实现的主要功能罗列如下：

再说说如何使用（默认读者均有 python3.6+ 环境）

将仓库 tencent文件夹下的 tencent_news_spider.pyd 文件下载到本地，新建项目，把 pyd 文件放进去
项目根目录下新建 runner.py，写入以下代码即可运行并抓取
```
import tencent_news_spider
tencent_news_spider.main()
```

开始运行时会提示输入爬取到哪一页，默认是 20 页

爬取过程中是下面这样的

在这里插入图片描述