概述
标签(空格分隔): 数据挖掘 爬虫
1 爬虫的流程
1、发起请求;
2、获取相应内容;
3、解析网络内容;
4、保存数据(结构化存储);
2 什么是request和response
User -> Server : Request
Server -> User : Response
3 Request内容
1、请求方式:get,post,head,put,delete
2、get和post的区别:请求的参数包含的部分不同;get请求可以直接通过输入访问,post只能由提交表单进行实现。
3、请求url:
4、请求头:浏览器的配置信息;
5、请求体:post内容请求体;
4 response内容
1、响应状态码;
2、响应头;
3、响应体;
5 能抓取什么数据
只要能获取到,都可以抓;
6 解析方式
1、直接处理;
2、json解析;
3、正则表达式;
4、BeautifulSoup提取;
5、pyquery和xpath提取;
7 为什么我抓到的和浏览器中的不一样
微博的话很多用的都是js格式。原生的html代码没有那么多微博的信息的。
8 怎么解决javascript渲染问题
1、分析ajax请求,返回的json字符串;
2、使用webdriver进行加载一个文件
3、splash库进行;
4、用另外的库进行模拟;
9 怎么保存数据
1、文本;
2、关系型数据库;
3、非关系型数据库;
4、二进制文件;
最后
以上就是还单身西装为你收集整理的【爬虫学习】爬虫基本流程1 爬虫的流程2 什么是request和response3 Request内容4 response内容5 能抓取什么数据6 解析方式7 为什么我抓到的和浏览器中的不一样8 怎么解决javascript渲染问题9 怎么保存数据的全部内容,希望文章能够帮你解决【爬虫学习】爬虫基本流程1 爬虫的流程2 什么是request和response3 Request内容4 response内容5 能抓取什么数据6 解析方式7 为什么我抓到的和浏览器中的不一样8 怎么解决javascript渲染问题9 怎么保存数据所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复