我是靠谱客的博主 安详白云,最近开发中收集的这篇文章主要介绍Python爬虫和数据可视化——实战4-获取数据第一步:得到指定的一个URL网页内容第二步:逐一解析页面数据(四种类型)文档的遍历文档搜素,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

获取数据

  • 第一步:得到指定的一个URL网页内容
  • 第二步:逐一解析页面数据(四种类型)
    • Tag:
    • NavigableString:
      • 拿到一个标签里面所有的属性:
    • BeautifulSoup:
    • Coment注释:
  • 文档的遍历
    • contents
  • 文档搜素
    • find_all()搜素
      • 正则表达式搜素
      • 方法搜素(了解)
    • kwargs参数
    • text文本参数
    • limit参数
    • CSS选择器

第一步:得到指定的一个URL网页内容

在这里插入图片描述
之后进行爬取网页:
在这里插入图片描述

第二步:逐一解析页面数据(四种类型)

BeautifulSoup4(bs4)
有四种类型:
在这里插入图片描述
拿一个简易版百度网页做例子:
在这里插入图片描述
在这里插入图片描述
结果:
在这里插入图片描述

Tag:

获取标签及其内容,只能拿到它所找到的第一个内容
获取title的标签和内容,< title>全部内容< /tit le>
获取a的标签和内容,那么多a标签,默认选出现的第一个a标签和它的内容,< a>全部内容</ a>
获取head的标签和内容,< head>全部内容< /head>
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
类型:在这里插入图片描述

NavigableString:

只获取标签里面的内容(字符串)
标签里面的东西就是字符串

在这里插入图片描述

拿到一个标签里面所有的属性:

利用attrs得到,以键值对的形式打印出来,返回一个字典
在这里插入图片描述
在这里插入图片描述

BeautifulSoup:

表示整个文档
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Coment注释:

输出的内容不包含注释符号
在这里插入图片描述

输出的是不带叹号(不带注释的)内容:新闻
在这里插入图片描述

文档的遍历

把整个文档里面相似的东西全部找到,再进行下面的处理

contents

返回一个列表,然后用索引来访问即可。
在这里插入图片描述
在这里插入图片描述
返回一个列表,里面有head标签里面所有的属性,每个属性是其中的一个元素。

文档搜素

find_all()搜素

字符串过滤:会查找与字符串完全匹配的内容
直接查找所有,同样返回一个列表
在这里插入图片描述

查找所有的a标签,返回一个列表,列表中的每个元素都是一个a标签

正则表达式搜素

使用search()方法来匹配内容
在这里插入图片描述

只要标签里面包含a字母,就把标签即其内容全部都搜素出来
find_all是必须只有a,搜素出来的是跟a完全一样的

方法搜素(了解)

传入一个函数(方法),根据函数的要求来搜素
在这里插入图片描述
返回一个列表
列表里面是所有含有name这个属性的标签。
在这里插入图片描述

在这里插入图片描述

kwargs参数

给指定参数进行搜素
在这里插入图片描述
搜素class属性
把含有class属性的输出
如< div>里面有class属性,就把div里面的子内容全部输出来
在这里插入图片描述

text文本参数

在这里插入图片描述
在这里插入图片描述

limit参数

限定获取的个数
在这里插入图片描述

CSS选择器

CSS通过页面上的层层嵌套,可以直接定位到某个位置上。

select后面不仅仅可以指定标签,还可以类名,id,属性,子标签,兄弟节点。。。。

在这里插入图片描述

兄弟标签:
在这里插入图片描述

只要类别mnav里面的兄弟标签bri,get_text()获取文本
在这里插入图片描述

最后

以上就是安详白云为你收集整理的Python爬虫和数据可视化——实战4-获取数据第一步:得到指定的一个URL网页内容第二步:逐一解析页面数据(四种类型)文档的遍历文档搜素的全部内容,希望文章能够帮你解决Python爬虫和数据可视化——实战4-获取数据第一步:得到指定的一个URL网页内容第二步:逐一解析页面数据(四种类型)文档的遍历文档搜素所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(42)

评论列表共有 0 条评论

立即
投稿
返回
顶部