scrapy爬虫框架结合BeautifulSoup

51 阅读 0 评论 34 点赞

我是靠谱客的博主儒雅诺言，最近开发中收集的这篇文章主要介绍scrapy爬虫框架结合BeautifulSoup，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

参考教程:https://github.com/yidao620c/core-scrapy
①安装scrapy
pip install scrapy
依赖的包 python-lxml python-dev libffi-dev
在指定目录下创建项目：
$ scrapy startproject weather
②定义Item
Item就是要保存的属性对象，定义在Item.py中
Item 是保存爬取到的数据的容器；其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

import scrapy
class BkgscrapyItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
name =scrapy.Field()
pass

③编写spider

import scrapy
from bs4 import BeautifulSoup
from bkgscrapy.items import BkgscrapyItem
class localspider(scrapy.Spider):
name="myspider"
allowed_domains=["meizitu.com/"]
start_urls=['http://www.meizitu.com/']
def parse(self, response):
html_doc = response.body
#html_doc = html_doc.decode('utf-8')
soup = BeautifulSoup(html_doc,'lxml')
item =BkgscrapyItem()
item['name'] = soup.find(id='slider_name')
return item

④配置pipline
pipelines.py文件在创建项目时已经自动被创建好了,我们更改如下

class BkgscrapyPipeline(object):
def __init__(self):
pass
def process_item(self, item, spider):
with open('wea.txt','w+') as file:
city=item['name'][0].encode('utf-8')
file.write('name:'+str(name)+'nn')
return item

⑤配置运行
在settings.py中，设置

ITEM_PIPELINES = {
'bkgscrapy.pipelines.BkgscrapyPipeline': 1
}

运行 $ scrapy crawl myspider

实战项目：

最后

以上就是儒雅诺言为你收集整理的scrapy爬虫框架结合BeautifulSoup的全部内容，希望文章能够帮你解决scrapy爬虫框架结合BeautifulSoup所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：python
浏览次数：51 次浏览
发布日期：2024-01-15 10:55:25
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_23_ogf3_13_z_14_y.html

scrapy爬虫框架结合BeautifulSoup

概述

最后

评论列表共有 0 条评论

发表评论取消回复

scrapy爬虫框架结合BeautifulSoup

概述

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复