python爬虫学习------scrapy第二部分(第三十天)

🎈🎈作者主页: 喔的嘛呀🎈🎈
🎈🎈所属专栏:python爬虫学习🎈🎈
✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天开心哦!✨✨ 

兄弟姐妹,大家好哇!我是喔的嘛呀。今天我们来学习 scrapy的第二部分。

一、Item Pipelines

在Scrapy框架中,Item Pipeline是一个用于处理爬虫抓取到的数据的关键组件。它负责接收由Spiders(爬虫)提取出的Item(实体),并对这些Item进行进一步的处理,如清洗、验证和持久化等。Item Pipeline提供了灵活的方式,以便将抓取的数据按照我们的需求进行存储或进一步处理。

以下是Item Pipeline的主要作用:

  1. 数据清洗:Pipeline可以对从网页中抓取的数据进行清洗,去除不需要的字符、空格、HTML标签等,确保数据的整洁和一致性。
  2. 数据验证:在将数据持久化之前,Pipeline可以执行验证操作,检查数据是否满足特定的格式或条件。这有助于确保数据的准确性和可靠性。
  3. 持久化存储:Pipeline可以将清洗和验证后的数据保存到数据库(如MySQL、MongoDB等)、文件(如CSV、JSON等)或其他存储系统中。这样,我们可以长期保存并随时访问这些抓取的数据。
  4. 发送数据到外部API:除了存储数据外,Pipeline还可以将数据发送到外部API进行进一步处理或分析。

要编写自定义的Pipeline,你需要遵循以下步骤:

  1. 创建Pipeline类:首先,你需要创建一个继承自scrapy.pipelines.Pipeline的Python类。在这个类中,你可以定义一些方法,如process_item,来处理传入的Item。
  2. 实现process_item方法process_item方法是Pipeline类中的核心方法,它接收一个Item和一个Spider作为参数。在这个方法中,你可以实现数据清洗、验证和持久化等逻辑。
  3. 配置Pipeline:在你的Scrapy项目的settings.py文件中,你需要添加你的Pipeline类的路径到ITEM_PIPELINES设置中,并为其分配一个优先级数字。这个数字决定了Pipeline的执行顺序,数字越小,优先级越高。

下面是一个简单的自定义Pipeline示例:

# myproject/pipelines.py  
  
class MyCustomPipeline(object):  
  
    def __init__(self):  
        # 初始化方法,可以在这里建立数据库连接等  
        self.connection = ...  
  
    def open_spider(self, spider):  
        # 在Spider打开时调用,可以用于执行一些启动时的任务  
        pass  
  
    def close_spider(self, spider):  
        # 在Spider关闭时调用,可以用于执行一些清理任务,如关闭数据库连接等  
        self.connection.close()  
  
    def process_item(self, item, spider):  
        # 处理Item的方法,你可以在这里实现数据清洗、验证和持久化等操作  
        # 假设item['data']是需要存储的数据  
        cleaned_data = self.clean_data(item['data'])  
        if self.validate_data(cleaned_data):  
            self.store_data(cleaned_data)  
            return item  # 如果处理成功,返回Item以便进行后续的Pipeline处理  
        else:  
            raise DropItem("Invalid data: %s" % item)  # 如果验证失败,则丢弃该Item  
  
    def clean_data(self, data):  
        # 数据清洗逻辑  
        ...  
  
    def validate_data(self, data):  
        # 数据验证逻辑  
        ...  
  
    def store_data(self, data):  
        # 数据持久化逻辑,例如存储到数据库  
        ...

然后,在你的settings.py文件中配置Pipeline:

# myproject/settings.py  
  
ITEM_PIPELINES = {  
    'myproject.pipelines.MyCustomPipeline': 300,  # 数字是优先级,可以根据需要调整  
}

通过编写自定义的Pipeline,你可以根据自己的需求灵活地处理爬虫抓取到的数据,实现数据清洗、验证和持久化等功能。

二、Middleware(中间件)

在Scrapy框架中,中间件(Middleware)是一个非常重要的组件,它允许开发者在Scrapy引擎处理请求和响应的过程中插入自定义的代码。中间件位于Scrapy引擎和下载器之间,用于拦截、修改、或添加额外的逻辑到请求和响应中。通过中间件,你可以轻松实现如设置代理、添加请求头、处理异常等功能。

中间件的概念

中间件是一种插件式的组件,用于在Scrapy处理请求和响应的过程中添加额外的功能。Scrapy提供了请求中间件(Request Middleware)和响应中间件(Response Middleware)两种类型。请求中间件在请求被下载器发送之前处理请求,而响应中间件在响应被引擎处理之前处理响应。

如何编写自定义的中间件

要编写自定义的中间件,你需要创建一个Python类,并实现特定的方法。这些方法会在请求或响应被处理时自动调用。

以下是一个简单的自定义请求中间件的示例:

class CustomRequestMiddleware:  
  
    def process_request(self, request, spider):  
        # 在请求被发送之前修改请求,比如添加请求头  
        request.headers['Custom-Header'] = 'Custom Value'  
        return None  # 返回None表示继续处理请求  
  
    def process_exception(self, request, exception, spider):  
        # 处理请求过程中发生的异常  
        # 可以选择记录日志、重试请求或返回None  
        return None  # 返回None表示继续抛出异常

同样地,你也可以创建自定义的响应中间件:

class CustomResponseMiddleware:  
  
    def process_response(self, request, response, spider):  
        # 在响应被处理之前修改响应,比如检查响应状态码  
        if response.status != 200:  
            return self._handle_error(request, response, spider)  
        # 处理或返回响应  
        return response  
  
    def _handle_error(self, request, response, spider):  
        # 处理响应错误的逻辑,比如记录日志或重试请求  
        pass  
  
    def process_exception(self, request, exception, spider):  
        # 处理在下载过程中发生的异常  
        # 可以选择记录日志、重试请求或返回None  
        return None  # 返回None表示继续抛出异常

中间件的应用场景

中间件在Scrapy爬虫中有许多应用场景,以下是一些常见的例子:

  1. 设置代理:通过中间件,你可以为所有请求设置代理,以隐藏你的爬虫的真实IP地址。
  2. 添加请求头:你可以使用中间件来添加自定义的请求头,比如User-Agent,以模拟不同的浏览器行为。
  3. 处理异常:中间件可以用来处理在请求或响应过程中发生的异常,比如网络错误、超时等。你可以定义重试逻辑、记录日志或采取其他适当的措施。
  4. 自定义请求或响应数据:在请求被发送或响应被处理之前,你可以通过中间件来修改请求或响应的数据,比如添加额外的参数、过滤不需要的数据等。
  5. 实现身份验证:对于需要身份验证的网站,你可以使用中间件来在请求中添加认证信息,如cookies或API令牌。
  6. 启用或禁用爬虫组件:通过中间件,你可以基于某些条件启用或禁用特定的爬虫组件,如某些特定的spider或downloader中间件。

要启用自定义的中间件,你需要在Scrapy项目的settings.py文件中配置它们。对于请求中间件,你需要将它们添加到DOWNLOADER_MIDDLEWARES设置中;对于响应中间件,你需要将它们添加到SPIDER_MIDDLEWARES设置中。每个中间件都需要一个唯一的键(通常是中间件类的路径)和一个整数值来表示它的优先级。数值越小,优先级越高。

# settings.py  
  
DOWNLOADER_MIDDLEWARES = {  
    'myproject.middlewares.CustomRequestMiddleware': 543,  
}  
  
SPIDER_MIDDLEWARES = {  
    'myproject.middlewares.CustomResponseMiddleware': 543,  
}

通过编写和使用中间件,你可以灵活地扩展Scrapy的功能,满足各种复杂的爬虫需求。

三、设置与配置(Settings & Configurations)

Scrapy 设置与配置是控制爬虫行为的重要方面,通过调整不同的设置,你可以定制爬虫的行为以满足特定的需求。以下是关于 Scrapy 设置和配置的基本介绍,以及如何调整并发和延迟来优化爬虫性能。

Scrapy 设置

Scrapy 框架提供了一套默认的设置,这些设置可以在 Scrapy 项目的 settings.py 文件中进行自定义。通过修改这些设置,你可以控制爬虫的行为、性能以及数据处理等方面。

一些常见的 Scrapy 设置包括:

  • ROBOTSTXT_OBEY: 控制爬虫是否遵守 robots.txt 文件中的规则。
  • CONCURRENT_REQUESTS: 并发请求的最大数量,用于控制爬虫同时发送的请求数。
  • DOWNLOAD_DELAY: 下载器在连续发送请求之间的延迟时间(秒),用于控制爬虫发送请求的速率。
  • RETRY_TIMES: 请求失败时的重试次数。
  • RETRY_HTTP_CODES: 需要重试的 HTTP 状态码列表。
  • DUPEFILTER_CLASS: 重复请求过滤器的类名,用于去除重复的请求。
  • ITEM_PIPELINES: Item Pipeline 的配置和顺序。
  • LOG_LEVEL: 控制日志输出的级别。

你可以在 settings.py 文件中添加或修改这些设置来定制你的爬虫。例如:

python复制代码
# settings.py# 并发请求数CONCURRENT_REQUESTS = 16# 请求之间的延迟时间(秒)DOWNLOAD_DELAY = 3# 重试次数RETRY_TIMES = 3# 其他自定义设置...

并发与延迟

调整并发请求数和请求超时时间等设置是优化爬虫性能的关键。以下是一些建议:

并发请求数 (CONCURRENT_REQUESTS):

  • 增加并发请求数可以加快爬取速度,但也可能导致目标网站过载或被封禁。
  • 根据目标网站的负载能力和爬虫所在服务器的性能,适当调整并发请求数。

请求之间的延迟 (DOWNLOAD_DELAY):

  • 设置适当的延迟可以模拟人类用户的浏览行为,降低被封禁的风险。
  • 如果目标网站对请求频率有严格的限制,需要增加延迟时间。

超时时间:

  • 你可以通过 DOWNLOAD_TIMEOUT 设置请求的超时时间。如果请求在这个时间内没有响应,Scrapy 会认为请求失败。
  • 根据网络条件和目标网站的响应速度,调整超时时间以避免不必要的等待或过多的失败请求。

自动调整设置:

  • Scrapy 还提供了 AUTOTHROTTLE_ENABLED 和相关设置,可以自动调整请求延迟,以根据网站的响应速度动态控制爬虫的速度。

调整这些设置时,建议逐步进行,并观察爬虫的性能和目标网站的响应。通过不断地尝试和调整,你可以找到最适合你爬虫的设置组合。

最后,记得在修改完设置后,重新启动你的 Scrapy 项目以使新的设置生效。

好了,今天的学习就到这里了,我们明天再见啦!拜拜!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/575566.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

(51单片机)第十三章-STC系列51单片机功能介绍

13.1 单片机空闲与掉电模式的应用 1. 空闲模式 当单片机进入空闲模式时,除CPU处于休眠状态外,其余硬件全部处于活动状态,芯片中程序未涉及的数据存储器和特殊功能寄存器中的数据在空闲模式期间都将保持原值。假若定时器正在运行,…

第一篇:Python简介:开启你的编程之旅

Python简介:开启你的编程之旅 在这个系列文章中,我将带领大家深入了解Python——一个极具魅力的编程语言。如果你对编程感兴趣,想要掌握一门既实用又强大的语言,那么Python无疑是一个绝佳的选择。本篇文章是这个系列的序章&#…

大数据基础

基本简介 大数据特点 数据量大 种类多样 结构化:多指关系型数据库中,信用卡号码、日期、财务金额、电话号码、地址 半结构化:xml/json 非结构化:全文文本、图象、声音、影视、超媒体等信息。 应用价值高 大数据的作用 追溯…

protobuf协议逆向解析

protobuf协议逆向解析 地址: aHR0cHM6Ly93d3cudGlrdG9rLmNvbS9tZXNzYWdlcz9sYW5nPWVu找到接口/v2/message/get_by_user_init 如图所示, 参数和响应并不是可直接使用的, 虽然部分内容可读。 跟栈到这里, 找到封包前的数据 打上断点, 查看变量t就是请…

数字安全实操AG网址漏洞扫描原理与技术手段分析

在数字化世界的大舞台上,网络安全如同守护者一般,默默保卫着我们的虚拟疆界。当我们在享受互联网带来的便利时,一场无形的战争正在上演。黑客们利用各种手段试图攻破网站的安全防线,而防守方则依靠先进的技术和策略来抵御入侵。其…

武汉星起航:创新孵化模式,一站式服务助力卖家全球化拓展

在全球化浪潮席卷而来的今天,跨境电商行业已成为推动国际贸易的重要力量。武汉星起航电子商务有限公司,作为这一领域的佼佼者,以其前瞻性的战略眼光和创新的经营模式,积极践行“走出去”战略,凭借自营店铺运营经验和跨…

Golang | Leetcode Golang题解之第50题Pow(x,n)

题目: 题解: func myPow(x float64, n int) float64 {if n > 0 {return quickMul(x, n)}return 1.0 / quickMul(x, -n) }func quickMul(x float64, n int) float64 {if n 0 {return 1}y : quickMul(x, n/2)if n%2 0 {return y * y}return y * y * …

云赛道---深度学习

• 分析问题定位任务:首先定位问题,将实际问题转化为机器学习问题,需要什么样的 数据,然后进行数据的采集。包含数据探查、场景抽象、算法选择。比如逻辑回归可 以决定我们是不是能喝咖啡;那另外朴素贝叶斯算法可以用来区分垃圾…

Linux|Awk 变量、数字表达式和赋值运算符

引言 本部分[1]将深入学习 Awk 的高级应用,以应对更为复杂的文本或字符串过滤任务。将介绍包括变量、数值表达式和赋值运算符在内的 Awk 功能。 这些概念与你之前可能在诸如shell、C、Python等许多编程语言中接触过的概念并没有本质上的不同,所以你不必过…

SaaS云HIS平台源码 采用云部署模式,部署一套可支持多家医院共同使用

目录 云HIS门诊业务使用流程 云HIS住院业务使用流程 云HIS系统使用流程 云HIS优势 云HIS系统功能模块 医疗业务: 电子病历: 经济管理: 药物管理: 统计报表: 系统管理: 运营运维: 通…

NLP step by step -- 了解Transformer

Transformer模型 Transformer相关历史 首先我们先看一下有关Transformer模型的发展历史,下面的图是基于Transformer架构的一些关键模型节点: 图片来源于Hugging Face 图片来源于Hugging Face Transformer 架构 于 2017 年 6 月推出。原本研究的重点是…

deepin 亮相 Intel 合作伙伴交流会,展示AI大模型应用最新成果

内容来源:deepin 社区 2024 年 4 月 18 日,备受业界瞩目的 Intel Channel Partner Networking Fair 在香港天际万豪酒店隆重举办。 在这场行业盛会上,deepin(深度)受邀参与了 Intel Demo Showcase 环节,向…

JDBC查询大数据时怎么防止内存溢出-流式查询

文章目录 1.前言2.流式查询介绍3.使用流式查询3.1不开启流式查询的内存占用情况3.2开启流式查询的内存占用情况 4.开启流式查询的注意点 1.前言 在使用 JDBC 查询大数据时,由于 JDBC 默认将整个结果集加载到内存中,当查询结果集过大时,很容易…

python与pycharm如何设置文件夹为源代码根目录

相信大家遇到过下面这种情况 当我们在当前项目下引入了其它项目的代码,这是其它项目的包的导入路径是不用于当前项目的,这样导致项目无法正常起来,但是我们又不可能一个个文件去处理,这时可以用下面的方式解决 pycharm直接设置 …

Centos 5 的yum源

背景 有使用较老的Centos 5 系统内部安装软件无法正常报错,是由于系统叫老yum源存在问题 处理方法 更换下述yum源,可以将其他repo源文件备份移动到其他目录,添加下述源后重新测试 [C5.11-base] nameCentOS-5.11 baseurlhttp://vault.c…

非对称渐开线齿轮学习笔记分享

最近有小伙伴遇到了非对称渐开线齿轮的加工问题,花了些时间学习了解一下,下面是总结的学习笔记,有兴趣的朋友可以瞅瞅: 目录: 为什么要采用非对称? 非对称有什么优点? 非对称齿形如何加工? 非对称齿轮怎么测量? 非对称齿轮建模 为什么要采用非对称? 现在的传动要求…

【SSM进阶学习系列丨整合篇】Spring+SpringMVC+MyBatis 框架配置详解

文章目录 一、环境准备1.1、创建数据库和表1.2、导入框架依赖的jar包1.3、修改Maven的编译版本1.4、完善Maven目录1.5、编写项目需要的包1.6、编写实体、Mapper、Service 二、配置MyBatis环境2.1、配置mybatis的主配置文件2.2、编写映射文件2.3、测试环境是否正确 三、配置Spri…

streamlit data_editor学习之 LLM理论内存占用量计算器

streamlit data_editor学习之 LLM理论内存占用量计算器 一.效果二.代码三.运行命令四.参考链接 根据用户设置的LLM参数,计算设备内存的占用量。以web的形式方便共享,可以插入多条记录,表格更新后,可以动态计算结果 一.效果 二.代码 import streamlit as st #1.31.1 import cv…

【八股】Spring Boot

SpringBoot是如何实现自动装配的? 首先,SpringBoot的核心注解SpringBootApplication里面包含了三个注解,SpringBootConfigurationEnableAutoConfigurationComponentScan,其中EnableAutoConfiguration是实现自动装配的注解&#x…

如何最大程度使用AWS?

随着云计算技术的不断发展,AWS已经成为众多企业的首选,为其提供了强大的基础设施和服务。那么如何最大程度地、灵活地利用AWS,成为许多企业专注的焦点。九河云作为AWS的合作伙伴,为读者们提供一些技巧和策略,帮助读者充…
最新文章