我是靠谱客的博主 儒雅蓝天,最近开发中收集的这篇文章主要介绍零基础Python爬取网页文章和图片详细教学(内附源码、教学视频),觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

Python爬虫,这个我相信对于很多人来说都不陌生!

今天小编给大家提供一份零基础Python爬取网页图片以及小说的代码并且详细的和大家讲解一下!


开发环境: 版本Python3.6.2!(2版本会在20年的时候停止更新库,建议大家现在想学习的话可以学习3版本,但是不建议用3.7,还存在很多库不支持)

编译器: PyCharm!(新手的话pycharm比较适合)

使用的库:

在Python2.x中使用 import.urllib

在Python3.x中使用 importurllib.request

(这是在Python2和3中最直接区别)


OK!进入正题!想要完成到最后一步下载小说,之前我们应该完成什么操作呢?

1.获取主页面源代码

2.获取章节超链接

3.获取章节源代码

4.获取内容

5.下载小说

第一步:定义函数(驼峰命名法,对于刚接触编程的小伙伴来说,养成良好的习惯很重要,还有就是注释)

def getNovelContent():

pass

第二步:获取页面源代码

这里需要注意的点就在于,需要调整获取的编码,不然会形成乱码

html = html.decode('gbk')

将编码格式切换为gbk!!!

第三步:获取章节超链接

需要用到库:正则表达式

import re

第四步:获取章节源代码

同样,跟之前获取主页源代码一样,需要统一格式!

第五步:获取内容

同样使用正则表达式!

第六步:下载小说

代码运行到这里基本上就已经结束了,可以看到小图代码成功运行,正在下载小说

其实这个不仅仅可以爬取免费的小说,收费的按道理也是可以的,但是因为不能侵犯别人的版权等!最好是不要去这么做!


今天就分享到这里了,感谢各位大大关注!转发哦!有什么不对的可以在评论里面直接写出来的!

需要中文软件,案例源码,讲解视频可以加QQ群:838197940!进群备注“掘金资料”!​​​​

转载于:https://juejin.im/post/5b643f0cf265da0f8a14bb6f

最后

以上就是儒雅蓝天为你收集整理的零基础Python爬取网页文章和图片详细教学(内附源码、教学视频)的全部内容,希望文章能够帮你解决零基础Python爬取网页文章和图片详细教学(内附源码、教学视频)所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(74)

评论列表共有 0 条评论

立即
投稿
返回
顶部