概述
idea of startproject
-
对于 web 开发者而言,目前各大新闻门户网站,新浪新闻,百度新闻,腾讯新闻,澎湃新闻,头条新闻并没有提供稳定可用的 feed api。
-
对于 nlper,缺乏足够的新闻语料数据集来供训练。
-
对于新闻传播/社会学/心理学等从业者,缺乏获取新闻数据的简单易用途径来供分析。
-
如果上面三点是某见识所限,其实并不存在的话,第 4 点,则是某的私心,某以为互联网的记忆太短了,热搜一浪盖过一浪,所以试图定格互联网新闻的某些瞬间,最后会以网站的形式发布出来。
project 的 Github:https://github.com/Python3Spiders/AllNewsSpider
继承自 澎湃新闻网站全站新闻爬虫及各大新闻平台聚合爬虫发布
,本篇是新闻系列的第二篇,以腾讯新闻为目标网站
腾讯新闻爬虫
该爬虫实现的主要功能罗列如下:
- 全自动爬取腾讯新闻全站新闻内容,包括 娱乐、军事、科技、财经 四大 category。
- 可以自定义输入爬取的最大页码,默认是 20 页
- 字段信息齐全,如下表格
字段名 | 字段含义 |
---|---|
recode_time | 该条新闻被抓取的时间 |
news_title | 新闻标题 |
news_summary | 新闻概括 |
news_url | 新闻链接 |
news_author | 新闻作者 |
news_keywords | 新闻关键词,以 ;分隔 |
news_time | 新闻发布的时间 |
news_content | 新闻具体内容 |
news_view_count | 新闻浏览量 |
news_comment_count | 新闻评论数 |
再说说如何使用(默认读者均有 python3.6+ 环境)
-
将仓库 tencent文件夹下的 tencent_news_spider.pyd 文件下载到本地,新建项目,把 pyd 文件放进去
-
项目根目录下新建 runner.py,写入以下代码即可运行并抓取
import tencent_news_spider tencent_news_spider.main()
开始运行时会提示输入爬取到哪一页,默认是 20 页
爬取过程中是下面这样的
爬取结束了,会在当前目录下生成一个 腾讯新闻.xlsx
文件,里面保持了四个 category 的所有网站上可浏览的文本新闻,一个 category 对应一个 sheet_name。
预告
1、新浪新闻爬虫
2、nytimes 纽约时报爬虫
3、thetimes 泰晤士报爬虫
最后
以上就是曾经毛衣为你收集整理的新闻平台聚合之腾讯新闻爬虫发布的全部内容,希望文章能够帮你解决新闻平台聚合之腾讯新闻爬虫发布所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复