python学习笔记——爬虫python学习笔记

95 阅读 0 评论 63 点赞

我是靠谱客的博主迅速超短裙，这篇文章主要介绍python学习笔记——爬虫python学习笔记，现在分享给大家，希望可以做个参考。

python学习笔记

爬虫

requests模块

requests模块用于给浏览器发送请求，请求分为get和post两种类型，其中post请求为需要携带信息，例如登录用户名和密码等信息。代码示例如下：

get请求

复制代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import requests,json
url = 'http://baidu.com'
headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
        "cookie": "你的cookie"
}
params = {
    'page' : '1'
} #url携带的参数，可以在F12的Headers中找到
res = requests.get(url,headers=headers,params=params)
res_text = res.text	#返回文本形式
res_json = res.json()	#返回json形式，字典对象
res_content =res.content	#返回二进制形式

post请求

post请求只有参数部分与get请求有差异。

复制代码

1
2
3
4
5
6
data = {
    'username' :'111'
    'key': 'XXXXXX'
} #post携带的参数，可以在F12的Headers中找到
res = requests.post(url,headers=headers,data=data).text

bs4模块

数据解析原理
1. 标签定位
2. 提取标签、标签属性中存储的数据值
实例化BeautifulSoup对象
1. 本地html文档
复制代码import lxml from bs4 import BeautifulSoup fp = open('./test.html','r',encoding='utf-8') soup = BeautifulSoup(fp,'lxml')
```
1
2
3
4
5
import lxml
from bs4 import BeautifulSoup
fp = open('./test.html','r',encoding='utf-8')
soup = BeautifulSoup(fp,'lxml')
```
1. 互联网的页面源码
复制代码page_text = response.text soup = BeautifulSoup(page_text,'lxml')
```
1
2
3
page_text = response.text
soup = BeautifulSoup(page_text,'lxml')
```
直接选择

soup.tagName:返回文档中第一次出现tagName对应的标签

find和findall

soup.find(tagName):返回文档中第一次出现tagName对应的标签

soup.find(tagName,class_/id/attr=‘xxx’):属性定位

soup.find_all(‘tagName’):以列表形式返回符合要求的全部内容

select

select(‘某种选择器(id,class,attr…)’):返回一个列表

层级选择器：

soup.select('.tang>ul>li>a'):表示一个层级，第一个tang代表class属性为tang，最终返回一个列表

soup.select(‘.tang>ul a’):空格表示多个层级

获取标签文本

soup.a.text/string/get_text()

text/get_text():可以获取某一个标签中所有的文本内容
string：只可以获取该标签下面直系的文本内容

获取标签属性

soup.a['href']

bs4代码示例

复制代码

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
#需求：爬取三国演义小说所有的章节标题和章节内容http://www.shicimingju.com/book/sanguoyanyi.html
if __name__ == "__main__":
    #对首页的页面数据进行爬取
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    url = 'http://www.shicimingju.com/book/sanguoyanyi.html'
    page_text = requests.get(url=url,headers=headers).text

#在首页中解析出章节的标题和详情页的url
    #1.实例化BeautifulSoup对象，需要将页面源码数据加载到该对象中
    soup = BeautifulSoup(page_text,'lxml')
    #解析章节标题和详情页的url
    li_list = soup.select('.book-mulu > ul > li')
    fp = open('./sanguo.txt','w',encoding='utf-8')
    for li in li_list:
        title = li.a.string
        detail_url = 'http://www.shicimingju.com'+li.a['href']
        #对详情页发起请求，解析出章节内容
        detail_page_text = requests.get(url=detail_url,headers=headers).text
        #解析出详情页中相关的章节内容
        detail_soup = BeautifulSoup(detail_page_text,'lxml')
        div_tag = detail_soup.find('div',class_='chapter_content')
        #解析到了章节的内容
        content = div_tag.text
        fp.write(title+':'+content+'n')
        print(title,'爬取成功！！！')

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
#!/usr/bin/env python 
# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
#需求：爬取三国演义小说所有的章节标题和章节内容http://www.shicimingju.com/book/sanguoyanyi.html
if __name__ == "__main__":
    #对首页的页面数据进行爬取
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }
    url = 'http://www.shicimingju.com/book/sanguoyanyi.html'
    page_text = requests.get(url=url,headers=headers).text

    #在首页中解析出章节的标题和详情页的url
    #1.实例化BeautifulSoup对象，需要将页面源码数据加载到该对象中
    soup = BeautifulSoup(page_text,'lxml')
    #解析章节标题和详情页的url
    li_list = soup.select('.book-mulu > ul > li')
    fp = open('./sanguo.txt','w',encoding='utf-8')
    for li in li_list:
        title = li.a.string
        detail_url = 'http://www.shicimingju.com'+li.a['href']
        #对详情页发起请求，解析出章节内容
        detail_page_text = requests.get(url=detail_url,headers=headers).text
        #解析出详情页中相关的章节内容
        detail_soup = BeautifulSoup(detail_page_text,'lxml')
        div_tag = detail_soup.find('div',class_='chapter_content')
        #解析到了章节的内容
        content = div_tag.text
        fp.write(title+':'+content+'n')
        print(title,'爬取成功！！！')

xpath解析

实例化etree对象

将本地的html文档中的源码数据加载到etree对象中：etree.parse(filePath)
可以将从互联网上获取的源码数据加载到该对象中etree.HTML('page_text')

xpath表达式
- /:表示的是从根节点开始定位。表示的是一个层级。
- //:表示的是多个层级。可以表示从任意位置开始定位。
- 属性定位：//div[@class='song'] tag[@attrName="attrValue"]
- 索引定位：//div[@class="song"]/p[3]索引是从1开始的。
- 取文本：
  - /text()获取的是标签中直系的文本内容
  - //text()标签中非直系的文本内容（所有的文本内容）
- 取属性：
  /@attrName ==>img/src
xpath代码示例

复制代码

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
#需求：解析下载图片数据
import requests
from lxml import etree
import os
if __name__ == "__main__":
    url = 'http://pic.netbian.com/4kmeinv/'
    headers = {
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
    }
    response = requests.get(url=url,headers=headers)
    #手动设定响应数据的编码格式
    # response.encoding = 'utf-8'
    page_text = response.text

#数据解析：src的属性值  alt属性
    tree = etree.HTML(page_text)
    li_list = tree.xpath('//div[@class="slist"]/ul/li')

#创建一个文件夹
    if not os.path.exists('./picLibs'):
        os.mkdir('./picLibs')

for li in li_list:
        img_src = 'http://pic.netbian.com'+li.xpath('./a/img/@src')[0]
        img_name = li.xpath('./a/img/@alt')[0]+'.jpg'
        #通用处理中文乱码的解决方案
        img_name = img_name.encode('iso-8859-1').decode('gbk')

# print(img_name,img_src)
        #请求图片进行持久化存储
        img_data = requests.get(url=img_src,headers=headers).content
        img_path = 'picLibs/'+img_name
        with open(img_path,'wb') as fp:
            fp.write(img_data)
            print(img_name,'下载成功！！！')

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
#!/usr/bin/env python 
# -*- coding:utf-8 -*-
#需求：解析下载图片数据
import requests
from lxml import etree
import os
if __name__ == "__main__":
    url = 'http://pic.netbian.com/4kmeinv/'
    headers = {
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
    }
    response = requests.get(url=url,headers=headers)
    #手动设定响应数据的编码格式
    # response.encoding = 'utf-8'
    page_text = response.text

    #数据解析：src的属性值  alt属性
    tree = etree.HTML(page_text)
    li_list = tree.xpath('//div[@class="slist"]/ul/li')


    #创建一个文件夹
    if not os.path.exists('./picLibs'):
        os.mkdir('./picLibs')

    for li in li_list:
        img_src = 'http://pic.netbian.com'+li.xpath('./a/img/@src')[0]
        img_name = li.xpath('./a/img/@alt')[0]+'.jpg'
        #通用处理中文乱码的解决方案
        img_name = img_name.encode('iso-8859-1').decode('gbk')

        # print(img_name,img_src)
        #请求图片进行持久化存储
        img_data = requests.get(url=img_src,headers=headers).content
        img_path = 'picLibs/'+img_name
        with open(img_path,'wb') as fp:
            fp.write(img_data)
            print(img_name,'下载成功！！！')

re模块

常用匹配规则

复制代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
w		匹配字母、数字、下划线,等价于[a-zA-Z0-9_] w可以匹配汉字(python),
W		匹配不是字母、数字、下划线的其他字符
s		匹配任意空白字符,等价于(tnrf)
S		匹配任意非空字符
d		匹配数字,等价于[0-9]
D		匹配不是数字的字符
A		匹配字符串开头
Z		匹配字符串结尾的,如果存在换行,只匹配到换行前的结束字符串
z		匹配字符串结尾的,如果存在换行,同时匹配换行符
G		匹配最后完成匹配的位置
n		匹配一个换行符
t		匹配一个制表符(tab)
^		匹配一行字符串的开头
$		匹配一行字符串的结尾
.		匹配任意字符,除了换行符.当re.DOTALL标记被指定时,这可以匹配包括换行符在内的任字符
[…]		用来表示一组字符,比如[abc]表示匹配a或b或c,[a-z],[0-9]
[^…]	匹配不在[]里面的字符,比如[^abc]匹配除a,b,c以外的字符
*		匹配0个或多个字符
+		匹配1个或多个字符
?		匹配0个或1个前面的正则表达式片段,(.*?)表示尽可能少地匹配字符(后面详解)
{n}		精确匹配前面n个前面的表达式,如d{5}表示匹配5个数字
{n,m}	匹配前面的表达式n到m次,贪婪模式
a|b		匹配a或者b
(…)		匹配括号里的表达式,也可以表示一个组
常用组合匹配规则：
.*：匹配0个或多个出换行符以外的任意字符

修饰符

复制代码

1
2
3
4
5
6
7
re.I：使得匹配不区分大小写
re.L：做本地化识别匹配
re.M：多行匹配，对匹配开头^和结尾$有影响
re.S：使得.匹配包括换行符在内的所有字符
re.U：根据Unicode字符集解析字符
re.X：赋予更灵活的格式有助于正则表达式的理解

多线程

Pool模块用于阻塞式进程，map(functionName,paramList)函数实现多进程，functionName函数只能有一个参数，如果本身需要多个参数可以用列表或字典等封装。

复制代码

#多线程

# coding=utf-8
import requests,os,re
from multiprocessing.dummy import Pool
import time
#---------------批量并行下载视频-----------------------
def download(link):
    video_path = './Bilibili'
    print('n开始下载...',link)
    os.system('you-get -o %s %s' % (video_path,link))
    print('n下载完毕',link)

def main():
    if not os.path.exists('./Bilibili'):
        os.mkdir('./Bilibili')
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
        }
    search_name = input('video keyword：')
    pages = 2 #设置爬取的总页数
    video_path = './Bilibili'#视频保存路径
    for page in range(1,pages):#翻页循环
        url = ('https://search.bilibili.com/all?keyword='+search_name+'&single_column=0&page='+str(page)) #翻页循环设定
        res = requests.get(url,headers=headers).text
        links = re.findall(r'<li class="video-item matrix"><a href="(.*?)" title=',res)#使用正则表达式从源码中找到所有视频地址
        links = ['https:'+link for link in links]

pool = Pool(10)
    pool.map(download,links)
    pool.close()
    pool.join()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
#多线程

# coding=utf-8
import requests,os,re
from multiprocessing.dummy import Pool
import time
#---------------批量并行下载视频-----------------------
def download(link):
    video_path = './Bilibili'
    print('n开始下载...',link)
    os.system('you-get -o %s %s' % (video_path,link))
    print('n下载完毕',link)

def main():
    if not os.path.exists('./Bilibili'):
        os.mkdir('./Bilibili')
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
        }
    search_name = input('video keyword：')
    pages = 2 #设置爬取的总页数
    video_path = './Bilibili'#视频保存路径
    for page in range(1,pages):#翻页循环
        url = ('https://search.bilibili.com/all?keyword='+search_name+'&single_column=0&page='+str(page)) #翻页循环设定
        res = requests.get(url,headers=headers).text
        links = re.findall(r'<li class="video-item matrix"><a href="(.*?)" title=',res)#使用正则表达式从源码中找到所有视频地址
        links = ['https:'+link for link in links]

    pool = Pool(10)
    pool.map(download,links)
    pool.close()
    pool.join()