概述
获取数据
- 第一步:得到指定的一个URL网页内容
- 第二步:逐一解析页面数据(四种类型)
- Tag:
- NavigableString:
- 拿到一个标签里面所有的属性:
- BeautifulSoup:
- Coment注释:
- 文档的遍历
- contents
- 文档搜素
- find_all()搜素
- 正则表达式搜素
- 方法搜素(了解)
- kwargs参数
- text文本参数
- limit参数
- CSS选择器
第一步:得到指定的一个URL网页内容
之后进行爬取网页:
第二步:逐一解析页面数据(四种类型)
BeautifulSoup4(bs4)
有四种类型:
拿一个简易版百度网页做例子:
结果:
Tag:
获取标签及其内容,只能拿到它所找到的第一个内容
获取title的标签和内容,< title>全部内容< /tit le>
获取a的标签和内容,那么多a标签,默认选出现的第一个a标签和它的内容,< a>全部内容</ a>
获取head的标签和内容,< head>全部内容< /head>
类型:
NavigableString:
只获取标签里面的内容(字符串)
标签里面的东西就是字符串
拿到一个标签里面所有的属性:
利用attrs得到,以键值对的形式打印出来,返回一个字典
BeautifulSoup:
表示整个文档
Coment注释:
输出的内容不包含注释符号
输出的是不带叹号(不带注释的)内容:新闻
文档的遍历
把整个文档里面相似的东西全部找到,再进行下面的处理
contents
返回一个列表,然后用索引来访问即可。
返回一个列表,里面有head标签里面所有的属性,每个属性是其中的一个元素。
文档搜素
find_all()搜素
字符串过滤:会查找与字符串完全匹配的内容
直接查找所有,同样返回一个列表
查找所有的a标签,返回一个列表,列表中的每个元素都是一个a标签
正则表达式搜素
使用search()方法来匹配内容
只要标签里面包含a字母,就把标签即其内容全部都搜素出来
find_all是必须只有a,搜素出来的是跟a完全一样的
方法搜素(了解)
传入一个函数(方法),根据函数的要求来搜素
返回一个列表
列表里面是所有含有name这个属性的标签。
kwargs参数
给指定参数进行搜素
搜素class属性
把含有class属性的输出
如< div>里面有class属性,就把div里面的子内容全部输出来
text文本参数
limit参数
限定获取的个数
CSS选择器
CSS通过页面上的层层嵌套,可以直接定位到某个位置上。
select后面不仅仅可以指定标签,还可以类名,id,属性,子标签,兄弟节点。。。。
兄弟标签:
只要类别mnav里面的兄弟标签bri,get_text()获取文本
最后
以上就是安详白云为你收集整理的Python爬虫和数据可视化——实战4-获取数据第一步:得到指定的一个URL网页内容第二步:逐一解析页面数据(四种类型)文档的遍历文档搜素的全部内容,希望文章能够帮你解决Python爬虫和数据可视化——实战4-获取数据第一步:得到指定的一个URL网页内容第二步:逐一解析页面数据(四种类型)文档的遍历文档搜素所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复