技校新闻爬虫食用方法抓取思路分析正文一、学校新闻抓取二、党群工作新闻抓取三、技能培训新闻抓取四、教学科研新闻抓取五、拼接数据六、保存数据

96 阅读 0 评论 64 点赞

我是靠谱客的博主无语飞机，这篇文章主要介绍技校新闻爬虫食用方法抓取思路分析正文一、学校新闻抓取二、党群工作新闻抓取三、技能培训新闻抓取四、教学科研新闻抓取五、拼接数据六、保存数据，现在分享给大家，希望可以做个参考。

食用方法

代码直接从正文部分开始,想看实现的可以直接跳到后面，前面是思路测试部分；
抓取网站主页http://www.gdnjsxy.com/；
本文章仅供学习和教学使用，请误滥用技术，滥用导致的其他法律问题本人概不负责；
文章使用了python的bs4、requests、re、pandas库，请自行安装和准备运行环境；
本文实现了新闻文章标题、日期、文章内容的批量抓取和新闻分类标签的获取，为后一步的新闻分析提供数据，网站的其他信息可以举一反三；
如有不足欢迎讨论和斧正。

抓取思路分析

找出需要抓取新闻的网页标签特征

复制代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

import requests
from bs4 import BeautifulSoup
import re

url = '''http://www.gdnjsxy.com/Home/Article/lists/category/3.html'''

def get_html(url):
    headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36'}

    response = requests.get(url=url,headers=headers)

    result_str = response.content.decode("utf-8")

    soup = BeautifulSoup(result_str,'lxml')
    return soup

soup = get_html(url)
print(soup.prettify())

在这里插入图片描述

观察发现列表页的文章都在class=f-fl的div中，接下来使用以下代码就可以获取文章地址了。

复制代码

1
2
3
print(soup.find_all("div",attrs={
   "class":re.compile("f-fl")}))

在这里插入图片描述

文章标题都在a标签中，使用以下代码：

复制代码

1
2
3
print(soup.find_all("a",attrs={
   "class":"atitle"}))

在这里插入图片描述

复制代码

1
2
3
4
5
6
# 列表页中每篇文章标题
title_texts = [i.get_text() for i in soup.find_all("a",attrs={
   "class":"atitle"})]

title_texts

在这里插入图片描述

通过列表页就可以获取所有文章地址了，代码如下：

复制代码

1
2
3
4
5
6
7
8
9
# 每篇文章地址
urls_texts = [i.get_text() for i in soup.find_all("a",attrs={
   "class":"atitle"})]

links = ["http://www.gdnjsxy.com{}".format(i.attrs["href"] )
         for i in  soup.find_all("a",attrs={
   "class":"atitle"})]
links

在这里插入图片描述

正文

步骤

获取所有学校新闻列表页地址
通过学校新闻列表页获得所有详情页地址
在详情页中通过h2标签获得标题
在详情页中通过span标签获得文章内容。
获取各分类文章地址
给各类别文章地址打上分类标签
通过标签配对学校新闻地址
合并所有分类数据。

列表页地址：

http://www.gdnjsxy.com/home/article/lists/category/3/p/1.html
http://www.gdnjsxy.com/home/article/lists/category/3/p/2.html

详情地址：

http://www.gdnjsxy.com/home/article/detail/id/427.html
http://www.gdnjsxy.com/home/article/detail/id/409.html
观察发现仅最后部分页码不同，构建相应地址就可以开始了。

一、学校新闻抓取

复制代码

1
2
3
4
5
6
#构建学校新闻列表页地址
pagesize = 16
urls = ['http://www.gdnjsxy.com/home/article/lists/category/3/p/{}.html/'.format(i) for i in range(1,pagesize+1)]
for i in range(0,16):
    print(urls[i])

在这里插入图片描述

1. 抓取详情页地址

复制代码

1
2
3
4
5
6
7
8

import requests
from bs4 import BeautifulSoup
import re
# 获取页面    
def get_html(url):
    headers = {

最后

以上就是无语飞机最近收集整理的关于技校新闻爬虫食用方法抓取思路分析正文一、学校新闻抓取二、党群工作新闻抓取三、技能培训新闻抓取四、教学科研新闻抓取五、拼接数据六、保存数据的全部内容，更多相关技校新闻爬虫食用方法抓取思路分析正文一、学校新闻抓取二、党群工作新闻抓取三、技能培训新闻抓取四、教学科研新闻抓取五、内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：数据分析
浏览次数：96 次浏览
发布日期：2024-07-03 13:55:02
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_7_o_22_f4_13_z_26_2.html

UnicodeDammit

python beautiful soup库的超详细用法1. Beautiful Soup 简介2. Beautiful Soup 安装3. 创建 Beautiful Soup 对象4. 四大对象种类5. 遍历文档树6.搜索文档树7. CSS选择器

Beautiful Soup4.2文档Beautiful Soup 4.2.0 文档快速开始安装 Beautiful Soup如何使用对象的种类遍历文档树搜索文档树修改文档树输出指定文档解析器编码解析部分文档常见问题Beautiful Soup 3

Beautiful Soup（五）--其他相关输出指定文档解析器编码Unicode, dammit! (靠!)矛盾的编码解析部分文档常见问题Beautiful Soup 3

技校新闻爬虫食用方法抓取思路分析正文一、学校新闻抓取二、党群工作新闻抓取三、技能培训新闻抓取四、教学科研新闻抓取五、拼接数据六、保存数据

python爬取网易新闻_Python 爬虫实例（4）—— 爬取网易新闻

Beautiful Soup 4.2.0 文档 Beautiful Soup 4.2.0 文档快速开始安装 Beautiful Soup 如何使用对象的种类遍历文档树搜索文档树修改文档树输出指定文档解析器编码解析部分文档常见问题 Beautiful Soup 3

BeautifulSoupu’b’u’boldest’{u’class’: u’boldest’}u’Extremely bold’ No longer bold u’[document]’u’Hey, buddy. Want to buy a used parser’ The Dormouse’s storyThe Dormouse’s storyThe Dormouse’s storyElsie[Elsie,Lacie,Tillie]The Dormouse’s storyThe

技校新闻爬虫食用方法抓取思路分析正文一、学校新闻抓取二、党群工作新闻抓取三、技能培训新闻抓取四、教学科研新闻抓取五、拼接数据六、保存数据

食用方法

抓取思路分析

正文

一、学校新闻抓取

1. 抓取详情页地址

最后

评论列表共有 0 条评论

发表评论取消回复

技校新闻爬虫食用方法抓取思路分析正文一、学校新闻抓取二、党群工作新闻抓取三、技能培训新闻抓取四、教学科研新闻抓取五、 拼接数据六、保存数据

食用方法

抓取思路分析

正文

一、学校新闻抓取

1. 抓取详情页地址

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

微信扫一扫：分享

技校新闻爬虫食用方法抓取思路分析正文一、学校新闻抓取二、党群工作新闻抓取三、技能培训新闻抓取四、教学科研新闻抓取五、拼接数据六、保存数据

发表评论取消回复