我是靠谱客的博主 可爱冷风,最近开发中收集的这篇文章主要介绍Python爬虫开源项目合集,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

  scrapy - 最出名的网络爬虫,一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。官方主页,Scrapy 轻松定制网络爬虫 - 教程,Scrapy 中文指南 。
  项目地址:
  https://github.com/scrapy/scrapy/
  BeautifulSoup - Beautifu Soup不完全是一套爬虫工具,需要配合urllib使用,而是一套HTML/XML数据分析,清洗和获取工具。
  项目地址:
  http://www.crummy.com/software/BeautifulSoup/
  python-goose - Python-Goose用Python重写,依赖了Beautiful Soup。给定一个文章的URL, 获取文章的标题和内容很方便。
  项目地址:
  https://github.com/grangier/python-goose/
  pyspider - PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。

最后

以上就是可爱冷风为你收集整理的Python爬虫开源项目合集的全部内容,希望文章能够帮你解决Python爬虫开源项目合集所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(42)

评论列表共有 0 条评论

立即
投稿
返回
顶部