千锋教育-做有情怀、有良心、有品质的职业教育机构

手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

当前位置:首页  >  技术干货  > 20天学会爬虫之Scrapy管道piplines

20天学会爬虫之Scrapy管道piplines

来源:千锋教育
发布人:qyf
时间: 2022-09-20 16:22:13 1663662133

  Item Pipline介绍

  对于Item pipline我们前面已经简单的使用过了,更加详细的使用本文给大家一一道来。

  在我们开始学习Item Pipline之前,我们还是来看一下下面这张图。

Picture

  大家可以看到上图最左侧的就是Item Pipline。Item管道的主要任务就是负责处理有Spider从网页中抽取的Item,因此Item Pipline的主要任务就是清洗、验证和存储数据。 当页面被Spider解析后,将被发送到Item管道,Item Pipline获取了Items中的数据并执行对应的方法,并决定是否需要在Item管道中继续执行下一步或是直接丢弃掉不处理。

  因此对于Item Pipline其主要的作用包括如下:

  • 清理HTML数据。

  • 验证爬取数据,检查爬取字段。

  • 查重并丢弃重复内容。

  • 将爬取结果保存到数据库。

  核心方法介绍

  Item管道主要有4个方法,分别是:

  (1)open_spider(spider)

  (2)close_spider(spider)

  (3)from_crawler(cls,crawler)

  (4)process_item(item,spider)

  open_spider(spider)【参数spider 即被开启的Spider对象】

  是在开启spider的时候触发的,常用于初始化操作(常见的有:开启数据库连接,打开文件等)。该方法非必需实现,可以根据需求定义。

  close_spider(spider) 【参数spider 即被关闭的Spider对象】

  是在 Spider 关闭的时候自动调用的,在这里我们可以做一些收尾工作,如关闭数据库连接等,该方法非必需实现,可以根据需求定义。

  from_crawler(cls,crawler)【参数一:Class类 参数二:crawler对象】

  该方法Spider启用时调用,比open_spider()方法调用还要早,是一个类方法,用@classmethod标识,是一种依赖注入的方式。它的参数有crawler,通过crawler对象,我们可以拿到Scrapy的所有核心组件,如全局配置的每个信息,然后创建一个Pipeline实例。参数cls就是Class,最后返回一个Class实例。

  process_item(item,spider) 【参数一:被处理的Item对象 参数二:生成该Item的Spider对象】

  该方法是必须要实现的方法,被定义的 Item Pipeline 会默认调用这个方法对 Item 进行处理。比如,我们可以进行数据处理或者将数据写入到数据库等操作。它必须返回 Item 类型的值或者抛出一个 DropItem 异常。

  • 如果返回的是 Item 对象,那么此 Item 会接着被低优先级的 Item Pipeline 的 process_item () 方法进行处理,直到所有的方法被调用完毕。

  • 如果抛出的是 DropItem 异常,那么此 Item 就会被丢弃,不再进行处理。

  延伸扩展:ImagesPipline

  爬虫程序爬取的目标通常不仅仅是文字资源,经常也会爬取图片资源。这就涉及如何高效下载图片的问题。这里高效下载指的是既能把图片完整下载到本地又不会对网站服务器造成压力。此时你可以不在 pipeline 中自己实现下载图片逻辑,可以通过 Scrapy 提供的图片管道ImagesPipeline,这样可以更加高效的操作下载图片。

  ImagesPipeline 具有以下特点:

  • 将所有下载的图片转换成通用的格式(JPG)和模式(RGB)

  • 避免重新下载最近已经下载过的图片

  • 缩略图生成

  • 检测图像的宽/高,确保它们满足最小限制

  使用说明:

  在pipline.py中可以新定义一个类,比如:xxImagePipline,Scrapy 默认生成的类是继承Object, 要将该类修改为继承ImagesPipeline。然后实现get_media_requests和item_completed这两个函数

  其中,get_media_requests函数为每个 url 生成一个 Request。而item_completed(self, results, item, info)当一个单独项目中的所有图片请求完成时,该方法会被调用。

  处理结果会以二元组的方式返回给 item_completed() 函数,即参数:results。

  results参数二元组结果是:(success, imageinfoorfailure)

  其中success表示图片是否下载成功;imageinfoorfailure是一个字典,包含三个属性:

  url - 图片下载的url。这是从 getmediarequests() 方法返回请求的url。

  path - 图片存储的路径(类似 IMAGES_STORE)

  checksum - 图片内容的 MD5 hash

  如果需要file_path(request, response=None, info=None)

  request表示当前下载对应的request对象(request.dict查看属性),该方法用来返回文件名

  response返回的是None

  info一样的返回是一个对象(info.dict查看)

  同时需要结合settings.py的配置进行设置,比如设置配置存放图片的路径以及自定义下载的图片管道。

  # 可以避免下载最近已经下载的图片,90天的图片失效期限

  IMAGES_EXPIRES = 90

  IMAGES_STORE = '设置存放图片的路径'

  # 如果需要也可以设置缩略图

  # IMAGES_THUMBS = {

  # 'small': (50, 50), # (宽, 高)

  # 'big': (270, 270),

  # }

  # 配置自定义下载的图片管道, 默认是被注释的

  ITEM_PIPELINES = {

  # yourproject.middlewares(文件名).middleware类

  '项目名.pipelines.xxImagePipeline': 数值,

  }

  并且Scrapy 框架下载图片会用到这个Python Imaging Library (PIL)图片加载库,所以也要提前安装好这个库。

  pip install pillow

  案例

  本次我们爬取的网站是一个有很多治愈系图片的网站,更加重要的是免费的。链接是:http://www.designerspics.com

Picture(1)

  我们要实现的在MongoDB中存储,图片的名字和下载地址,并将图片下载到本地。因为我们前面存储没有使用过MongoDB或者Redis等非关系型数据库,所以本次案例我们使用MongoDB存储。

  首先新建一个项目,命令如下:

  scrapy startproject designerspics

  接下来新建一个 Spider,命令如下:

  scrapy genspider designer www.designerspics.com

  这样我们就成功创建了一个 Spider。

  接下来使用PyCharm打开爬虫项目,开始编写爬虫。

Picture(2)

  于是我们的爬虫代码就是(当然现在爬取的只是第一页,如果是多页爬取则需要重写start_requests(self)方法):

  import scrapy

  from designerspics.items import DesignerspicsItem

  class DesignerSpider(scrapy.Spider):

  name = 'designer'

  allowed_domains = ['www.designerspics.com']

  start_urls = ['http://www.designerspics.com/']

  def parse(self, response):

  title = response.xpath('//div[@class="photograph-wrapper"]/div/h5[1]/text()').extract()

  image_url = response.xpath('//div[@class="photograph-wrapper"]/div/div/a/img/@src').extract()

  for index, t in enumerate(title):

  item = DesignerspicsItem()

  item['title'] = t[2:]

  item['image_url'] = image_url[index]

  yield item

  如果多页爬取则可以这样写,因为每一页的地址是这样的除了第一页

  第一页:http://www.designerspics.com/

  第二页:http://www.designerspics.com/page/2/

  第三页:http://www.designerspics.com/page/3/

  ...

  import scrapy

  from scrapy import Request

  from designerspics.items import DesignerspicsItem

  class DesignerSpider(scrapy.Spider):

  name = 'designer'

  allowed_domains = ['www.designerspics.com']

  # start_urls = ['http://www.designerspics.com/']

  def start_requests(self):

  # 爬取10页内容

  for i in range(1, 11):

  if i == 1:

  url = "http://www.designerspics.com/"

  yield Request(url, self.parse)

  else:

  url = 'http://www.designerspics.com/page/' + str(i)+"/"

  yield Request(url, self.parse)

  def parse(self, response):

  title = response.xpath('//div[@class="photograph-wrapper"]/div/h5[1]/text()').extract()

  image_url = response.xpath('//div[@class="photograph-wrapper"]/div/div/a/img/@src').extract()

  for index, t in enumerate(title):

  item = DesignerspicsItem()

  item['title'] = t[2:]

  item['image_url'] = image_url[index]

  yield item

  其中DesignerspicsItem类的代码如下:

  import scrapy

  class DesignerspicsItem(scrapy.Item):

  # define the fields for your item here like:

  # name = scrapy.Field()

  collection = 'designerimages'

  title = scrapy.Field()

  image_url = scrapy.Field()

  此时开始定义Item Pipline,打开piplines.py文件

  import pymongo

  from scrapy import Request

  from scrapy.exceptions import DropItem

  from scrapy.pipelines.images import ImagesPipeline

  class DesignerspicsPipeline:

  def __init__(self, mongo_uri, mongo_db, mongo_port):

  self.mongo_uri = mongo_uri

  self.mongo_db = mongo_db

  self.mongo_port = mongo_port

  @classmethod

  def from_crawler(cls, crawler):

  return cls(mongo_uri=crawler.settings.get('MONGO_URI'),

  mongo_db=crawler.settings.get('MONGO_DB'),

  mongo_port=crawler.settings.get('MONGO_PORT')

  )

  def open_spider(self, spider):

  self.client = pymongo.MongoClient(host=self.mongo_uri, port=self.mongo_port)

  self.db = self.client[self.mongo_db]

  def process_item(self, item, spider):

  self.db[item.collection].insert(dict(item))

  return item

  def close_spider(self, spider):

  self.client.close()

  class ImagePipeline(ImagesPipeline):

  def file_path(self, request, response=None, info=None):

  url = request.url

  file_name = url.split('/')[-1]

  return file_name

  def item_completed(self, results, item, info):

  image_paths = [x['path'] for ok, x in results if ok]

  if not image_paths:

  raise DropItem('Image Downloaded Failed')

  return item

  def get_media_requests(self, item, info):

  yield Request(item['image_url'])

  此时需要在settings.py中配置:

  MONGO_URI = '127.0.0.1'

  MONGO_DB = 'designerimages'

  MONGO_PORT = 27017

  # 需要设置存储图片的路径

  IMAGES_STORE = './images'

  启动爬虫:

  scrapy crawl designer

  来看一下成果吧!

Picture(3)

  Mongo数据库的数据展示一下:

Picture(4)

  下篇预告:Scrapy分布式,欢迎分享!!!

tags:
声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。
10年以上业内强师集结,手把手带你蜕变精英
请您保持通讯畅通,专属学习老师24小时内将与您1V1沟通
免费领取
今日已有369人领取成功
刘同学 138****2860 刚刚成功领取
王同学 131****2015 刚刚成功领取
张同学 133****4652 刚刚成功领取
李同学 135****8607 刚刚成功领取
杨同学 132****5667 刚刚成功领取
岳同学 134****6652 刚刚成功领取
梁同学 157****2950 刚刚成功领取
刘同学 189****1015 刚刚成功领取
张同学 155****4678 刚刚成功领取
邹同学 139****2907 刚刚成功领取
董同学 138****2867 刚刚成功领取
周同学 136****3602 刚刚成功领取
相关推荐HOT