概述
一转眼,我已经工作一个多月了,就想着闲的时候爬取一些视频,网站上的视频有好多种,有的是flv格式的,然后被分成一段一段的,一段大概是3-10秒,通过js动态。(这部分还不会,以后弄成了的话会更新的)
有的是在网站则是比较容易来爬取的,饭一口一口吃,那就先从简单的开始爬取吧。
这类网站的源码里面就有视频的url
爬取的视频网站叫梨视频(大型网站的反扒机制是留给大佬们爬的,我等萌新就先不要去尝试爬取什么别的大型网站了)
顺便吐槽一下,现在是北京时间2018年6月15日14:38:26
B站的python爬取视频的视频我看到的全部都是去年爬取百思不得姐的教学视频,然后今年百思不得姐因为某些原因已经被某部勒令整改了,但是那些视频我还是推荐可以去学习一下的,毕竟网站不在,思路仍在。
吐槽的是最新的视频是18年4月份的吧,然而还是去年的教学视频,只是再剪辑重新发布了一下
Chrome浏览器,右键检查,然后播放,然后点击选取键,对视频源进行固定
src=........,打开一下,看看是不是
成了,确实是视频。好了,视频url已经找到了,那接下来就是爬取了
下面是代码
import requests
import re
import urllib
URL = 'http://www.pearvideo.com/video_1367621'
hd = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
def main():
root = r'd:/自媒体配图/'
html = requests.get(URL,headers = hd).text
#匹配大盒子 视频URL
url_MP4 = re.compile(r'(http://video.*?mp4.*?mp4)',re.S) #正则匹配
url_MP4s = re.findall(url_MP4,html)
print(url_MP4s)
for i in url_MP4s:
print(i)
urllib.request.urlretrieve(i,'haha.mp4')
print('下载成功')
if __name__ == '__main__':
main()
相比较爬取图片来说,比较有新意的就是urllib.request.urlretrieve()方法了吧,这个是下载的方法,两个参数分别为url,要存储的文件名
然后就
文件已出来,可以观看了
下一步要做的就是找到规律,然后大批量的下载了,萌新一枚,写的也是基础文章。
欢迎交流
最后
以上就是缓慢月亮为你收集整理的python爬虫爬取网站视频_python3爬虫爬取视频(一)的全部内容,希望文章能够帮你解决python爬虫爬取网站视频_python3爬虫爬取视频(一)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复