Post

【Scrapy】Item

Item用于存储从页面中提取出的结构化数据,相当于实体类

官方文档:https://docs.scrapy.org/en/latest/topics/items.html

Scrapy支持多种Item对象,包括Python字典、scrapy.Item类以及其他几种键值对对象

自定义Item:

1
2
3
class MyItem(scrapy.Item):
    foo = scrapy.Field()
    bar = scrapy.Field()

使用Field类定义Item支持的字段(Field实际上仅仅是dict的别名),可以给Field指定任何类型的“元数据”,例如:

1
foo = scrapy.Field(type=str, length=32)

通过Item.fields属性获取所有声明的字段

1
2
>>> MyItem.fields
{'bar': {}, 'foo': {'type': <class 'str'>, 'length': 32}}

Item的使用方式与dict类似,可通过关键字参数创建,通过下标访问和给字段赋值

1
2
3
4
5
6
7
8
9
10
>>> item = MyItem(foo='abc', bar=123)
>>> item['foo']
'abc'
>>> item.fields['foo']
{'type': <class 'str'>, 'length': 32}
>>> item['baz'] = 1
Traceback (most recent call last):
  File "<input>", line 1, in <module>
  ...
KeyError: 'MyItem does not support field: baz'

Scrapy 2.2提供了itemadapter.ItemAdapter类和itemadapter.is_item()函数用于为处理不同类型的Item对象提供统一的接口

This post is licensed under CC BY 4.0 by the author.