我是靠谱客的博主 自然柜子,最近开发中收集的这篇文章主要介绍Python爬虫实战:爬取首都医科大学文章概述步骤代码结果,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者:人厨子

 

概述

爬虫项目实践
目标:首都医科大学官网新发文章

 

 

步骤

  1. 请求网址
  2. 通过正则表达式提取数据
  3. 分析数据

代码

# 导入模块
# 用于请求网址
import requests
# 用于解析网页源代码
from bs4 import BeautifulSoup
# 用于正则
import re

# 目标网址
# 设置页数,提取10页的数据
page=['']
for i in range(1,10,1):
    page.append(i)
# 保存文件
with open(r'ccmu.csv','a',encoding='utf-8') as f:
    for i in page:
        url= 'http://www.ccmu.edu.cn/zxkylw_12912/index'+str(i)+'.htm'
        # 必要时添加header请求头,防止反爬拦截
        headers={
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:79.0) Gecko/20100101 Firefox/79.0'
        }
        # 目标网址请求方式为get
        resp=requests.get(url)
        html = resp.content.decode('utf-8')
        # 解析html
        soup = BeautifulSoup(html,'html.parser')

        # 找到最近发表的sci论文
        # 使用find和find_all 函数
        infos=soup.find('ul',{'class':'list03'}).find_all('li')
        for info in infos:
            time=info.find('span').get_text()
            ajt= info.find('a').get_text()
            # 写入文件
            f.write("{},{}n".format(time,ajt))

结果

 

PS:如有需要Python学习资料的小伙伴可以加下方的群去找免费管理员领取

 

可以免费领取源码项目实战视频PDF文件

最后

以上就是自然柜子为你收集整理的Python爬虫实战:爬取首都医科大学文章概述步骤代码结果的全部内容,希望文章能够帮你解决Python爬虫实战:爬取首都医科大学文章概述步骤代码结果所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(62)

评论列表共有 0 条评论

立即
投稿
返回
顶部