我是靠谱客的博主 专一曲奇,最近开发中收集的这篇文章主要介绍爬虫基础(beautifulSoup用法),觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1,from bs4 import BeautifulSoup

2,请求头headers;
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36','referer':"www.mmjpg.com" }


解释:

all_url = 'http://www.mmjpg.com/' 

'User-Agent':请求方式  
'referer':从哪个链接跳转进来的

3,建立连接;
start_html = requests.get(all_url,  headers=headers)
解释:
all_url:起始的地址,也就是访问的第一个页面
headers:请求头,告诉服务器是谁来了。
requests.get:一个方法能获取all_url的页面内容并且返回内容。

4,解析获取的页面;
Soup = BeautifulSoup(start_html.text, 'lxml')
解释:
BeautifulSoup:解析页面
lxml:解析器
start_html.text:页面的内容


5,处理获取的页面;
all_a = Soup.find('div', class_='pic').find_all('a')[-2]
解释:
Soup.find()查找某一个
find_all()查找所有的,返回一个列表
.find('img')['src']    :获取img的src链接属性    
class__:获取目标的类名
div/a:类型条件为div/a的
[-2]可以用来去掉最后多匹配的标签,这里表示去掉最后两个a标签

find()和findAll可并列使用:
例子:
all_list = str_res.find("div", {"class":'f14list'}).findAll("a")
查找div,class='f14list'下面所有的a标签

6,获取目标内容;
<a href =# >内容</a>
解释:

a[i]/get_text():获取第i个a标签里面的内容


7、可能用到的其他功能介绍:
1、文件夹创建与切换
os.makedirs(os.path.join("E:name", filename))
#在目录E:name下创建名为filename的文件夹
os.chdir("E:name\" + filename)
#切换工作路径到E:namefilename下


2、文件保存
f = open(name+'.jpg', 'ab')##写入多媒体文件必须要 b 这个参数!
f.write(img.content) ##多媒体文件要是用conctent!
f.close()

最后

以上就是专一曲奇为你收集整理的爬虫基础(beautifulSoup用法)的全部内容,希望文章能够帮你解决爬虫基础(beautifulSoup用法)所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(53)

评论列表共有 0 条评论

立即
投稿
返回
顶部