Python爬虫开源项目合集

281 阅读 0 评论 186 点赞

我是靠谱客的博主可爱冷风，这篇文章主要介绍Python爬虫开源项目合集，现在分享给大家，希望可以做个参考。

　　scrapy - 最出名的网络爬虫，一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。官方主页,Scrapy 轻松定制网络爬虫 - 教程，Scrapy 中文指南。
　　项目地址：
　　https://github.com/scrapy/scrapy/
　　BeautifulSoup - Beautifu Soup不完全是一套爬虫工具，需要配合urllib使用，而是一套HTML/XML数据分析，清洗和获取工具。
　　项目地址：
　　http://www.crummy.com/software/BeautifulSoup/
　　python-goose - Python-Goose用Python重写，依赖了Beautiful Soup。给定一个文章的URL, 获取文章的标题和内容很方便。
　　项目地址：
　　https://github.com/grangier/python-goose/
　　pyspider - PySpider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器。