概述
Python爬虫,这个我相信对于很多人来说都不陌生!
今天小编给大家提供一份零基础Python爬取网页图片以及小说的代码并且详细的和大家讲解一下!
开发环境: 版本Python3.6.2!(2版本会在20年的时候停止更新库,建议大家现在想学习的话可以学习3版本,但是不建议用3.7,还存在很多库不支持)
编译器: PyCharm!(新手的话pycharm比较适合)
使用的库:
在Python2.x中使用 import.urllib
在Python3.x中使用 importurllib.request
(这是在Python2和3中最直接区别)
OK!进入正题!想要完成到最后一步下载小说,之前我们应该完成什么操作呢?
1.获取主页面源代码
2.获取章节超链接
3.获取章节源代码
4.获取内容
5.下载小说
第一步:定义函数(驼峰命名法,对于刚接触编程的小伙伴来说,养成良好的习惯很重要,还有就是注释)
def getNovelContent():
pass
第二步:获取页面源代码
这里需要注意的点就在于,需要调整获取的编码,不然会形成乱码
html = html.decode('gbk')
将编码格式切换为gbk!!!
第三步:获取章节超链接
需要用到库:正则表达式
import re
第四步:获取章节源代码
同样,跟之前获取主页源代码一样,需要统一格式!
第五步:获取内容
同样使用正则表达式!
第六步:下载小说
代码运行到这里基本上就已经结束了,可以看到小图代码成功运行,正在下载小说
其实这个不仅仅可以爬取免费的小说,收费的按道理也是可以的,但是因为不能侵犯别人的版权等!最好是不要去这么做!
今天就分享到这里了,感谢各位大大关注!转发哦!有什么不对的可以在评论里面直接写出来的!
需要中文软件,案例源码,讲解视频可以加QQ群:838197940!进群备注“掘金资料”!
转载于:https://juejin.im/post/5b643f0cf265da0f8a14bb6f
最后
以上就是儒雅蓝天为你收集整理的零基础Python爬取网页文章和图片详细教学(内附源码、教学视频)的全部内容,希望文章能够帮你解决零基础Python爬取网页文章和图片详细教学(内附源码、教学视频)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复