使用Python编写简单网络爬虫抓取视频下载资源

409 阅读 0 评论 270 点赞

我是靠谱客的博主简单溪流，这篇文章主要介绍使用Python编写简单网络爬虫抓取视频下载资源，现在分享给大家，希望可以做个参考。

我第一次接触爬虫这东西是在今年的5月份，当时写了一个博客搜索引擎，所用到的爬虫也挺智能的，起码比电影来了这个站用到的爬虫水平高多了！

回到用Python写爬虫的话题。

Python一直是我主要使用的脚本语言，没有之一。Python的语言简洁灵活，标准库功能强大，平常可以用作计算器，文本编码转换，图片处理，批量下载，批量处理文本等。总之我很喜欢，也越用越上手，这么好用的一个工具，一般人我不告诉他。。。

因为其强大的字符串处理能力，以及urllib2，cookielib，re，threading这些模块的存在，用Python来写爬虫就简直易于反掌了。简单到什么程度呢。我当时跟某同学说，我写电影来了用到的几个爬虫以及数据整理的一堆零零散散的脚本代码行数总共不超过1000行，写电影来了这个网站也只有150来行代码。因为爬虫的代码在另外一台64位的黑苹果上，所以就不列出来，只列一下VPS上网站的代码，tornadoweb框架写的 已上传 3 分钟前, 大小 2 GiB, 上传者 <a class="detDesc" href="/user/paridha/" title="浏览 paridha">paridha</a>
 </td>
 <td align="right">0</td>
 <td align="right">0</td>
</tr>

下面用正则表达式来提取html代码中的内容。对正则表达式不了解的同学，可以去 http://docs.python.org/2/library/re.html 了解一下。

为何要用正则表达式而不用其他一些解析HTML或者DOM树的工具是有原因的。我之前试过用BeautifulSoup3来提取内容，后来发觉速度实在是慢死了啊，一秒钟能够处理100个内容，已经是我电脑的极限了。。。而换了正则表达式，编译后处理内容，速度上直接把它秒杀了！

提取这么多内容，我的正则表达式要如何写呢？

根据我以往的经验，“.*?”或者“.+?”这个东西是很好使的。不过也要注意一些小问题，实际用到的时候就会知道

对于上面的tr标签代码，我首先需要让我的表达式匹配到的符号是

<tr>

表示内容的开始，当然也可以是别的，只要不要错过需要的内容即可。然后我要匹配的内容是下面这个，获取视频分类。

(<a href="/browse/205" title="此目录中更多">电视</a>)

接着我要匹配资源链接了，

再到其他资源信息，

font class="detDesc">已上传 3 分钟前, 大小 2 GiB, 上传者

最后匹配

</tr>

大功告成！

当然，最后的匹配可以不需要在正则表达式里表示出来，只要开始位置定位正确了，后面获取信息的位置也就正确了。

对正则表达式比较了解的朋友，可能知道怎么写了。我Show一下我写的表达式处理过程，

就这么简单，结果出来了，自我感觉挺欢喜的。

当然，这样设计的爬虫是有针对性的，定向爬取某一个站点的内容。也没有任何一个爬虫不会对收集到的链接进行筛选。通常可以使用BFS（宽度优先搜索算法）来爬取一个网站的所有页面链接。

完整的Python爬虫代码，爬取某湾最新的10页视频资源：

# coding: utf8
import urllib2
import re
import pymongo
db = pymongo.Connection().test
url = 'http://某piratebay.se/browse/200/%d/3'
find_re = re.compile(r'<tr>.+?\(.+?">(.+?)</a>.+?class="detLink".+?">(.+?)</a>.+?<a href="(magnet:.+?)" .+?已上传 <b>(.+?)</b>, 大小 (.+?),', re.DOTALL)
# 定向爬去10页最新的视频资源
for i in range(0, 10):
    u = url % (i)
    # 下载数据
    html = urllib2.urlopen(u).read()
    # 找到资源信息
    for x in find_re.findall(html):
        values = dict(
            category = x[0],
            name = x[1],
            magnet = x[2],
            time = x[3],
            size = x[4]
        )
        # 保存到数据库
        db.priate.save(values)
print 'Done!'