我是靠谱客的博主 娇气小土豆,最近开发中收集的这篇文章主要介绍路飞学城—Python—爬虫实战密训班 第一章,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1、心得、体会:

第一天听了佩奇老师的拉钩,大概梳理了一下 爬虫的基本原理

#1、发起请求
使用http库向目标站点发起请求,即发送一个Request
Request包含:请求头、请求体等

#2、获取响应内容
如果服务器能正常响应,则会得到一个Response
Response包含:html,json,图片,视频等

#3、解析内容
解析html数据:正则表达式,第三方解析库如Beautifulsoup,pyquery等
解析json数据:json模块
解析二进制数据:以b的方式写入文件

#4、保存数据
数据库
文件


2、知识点总结
拉钩网主要是登录的时候 一定要注意在页面上存在auth_code 这都是老师经验传授,如果没有老师 自己找怎么办?
所以每次请求 都要按照顺序去查看,如果无法正常登录或者得到数据,那么根据请求顺序查看传送的数据里是否还存在哪些遗漏 这些才是做好爬虫的重要知识点
理解web知识 理解这段程序是如何提交的 都是做好爬虫的重要的基础工作

# 梳理好请求与响应

总结:
#1、总结爬虫流程:
    爬取--->解析--->存储

#2、爬虫所需工具:
    请求库:requests,selenium
    解析库:正则,beautifulsoup,pyquery
    存储库:文件,MySQL,Mongodb,Redis

#3、爬虫常用框架:
    scrapy



转载于:https://www.cnblogs.com/touchlixiang/p/9270393.html

最后

以上就是娇气小土豆为你收集整理的路飞学城—Python—爬虫实战密训班 第一章的全部内容,希望文章能够帮你解决路飞学城—Python—爬虫实战密训班 第一章所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(36)

评论列表共有 0 条评论

立即
投稿
返回
顶部