我是靠谱客的博主 还单身西装,最近开发中收集的这篇文章主要介绍【爬虫学习】爬虫基本流程1 爬虫的流程2 什么是request和response3 Request内容4 response内容5 能抓取什么数据6 解析方式7 为什么我抓到的和浏览器中的不一样8 怎么解决javascript渲染问题9 怎么保存数据,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

标签(空格分隔): 数据挖掘 爬虫


1 爬虫的流程

1、发起请求;
2、获取相应内容;
3、解析网络内容;
4、保存数据(结构化存储);

2 什么是request和response

User -> Server : Request
Server -> User : Response

3 Request内容

1、请求方式:get,post,head,put,delete
2、get和post的区别:请求的参数包含的部分不同;get请求可以直接通过输入访问,post只能由提交表单进行实现。
3、请求url:
4、请求头:浏览器的配置信息;
5、请求体:post内容请求体;

4 response内容

1、响应状态码;
2、响应头;
3、响应体;

5 能抓取什么数据

只要能获取到,都可以抓;

6 解析方式

1、直接处理;
2、json解析;
3、正则表达式;
4、BeautifulSoup提取;
5、pyquery和xpath提取;

7 为什么我抓到的和浏览器中的不一样

微博的话很多用的都是js格式。原生的html代码没有那么多微博的信息的。

8 怎么解决javascript渲染问题

1、分析ajax请求,返回的json字符串;
2、使用webdriver进行加载一个文件
3、splash库进行;
4、用另外的库进行模拟;

9 怎么保存数据

1、文本;
2、关系型数据库;
3、非关系型数据库;
4、二进制文件;

最后

以上就是还单身西装为你收集整理的【爬虫学习】爬虫基本流程1 爬虫的流程2 什么是request和response3 Request内容4 response内容5 能抓取什么数据6 解析方式7 为什么我抓到的和浏览器中的不一样8 怎么解决javascript渲染问题9 怎么保存数据的全部内容,希望文章能够帮你解决【爬虫学习】爬虫基本流程1 爬虫的流程2 什么是request和response3 Request内容4 response内容5 能抓取什么数据6 解析方式7 为什么我抓到的和浏览器中的不一样8 怎么解决javascript渲染问题9 怎么保存数据所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(104)

评论列表共有 0 条评论

立即
投稿
返回
顶部