【Scrapy】Item
Item用于存储从页面中提取出的结构化数据,相当于实体类
官方文档:https://docs.scrapy.org/en/latest/topics/items.html
Scrapy支持多种Item对象,包括Python字典、scrapy.Item
类以及其他几种键值对对象
自定义Item:
1
2
3
class MyItem(scrapy.Item):
foo = scrapy.Field()
bar = scrapy.Field()
使用Field
类定义Item
支持的字段(Field
实际上仅仅是dict
的别名),可以给Field
指定任何类型的“元数据”,例如:
1
foo = scrapy.Field(type=str, length=32)
通过Item.fields
属性获取所有声明的字段
1
2
>>> MyItem.fields
{'bar': {}, 'foo': {'type': <class 'str'>, 'length': 32}}
Item
的使用方式与dict
类似,可通过关键字参数创建,通过下标访问和给字段赋值
1
2
3
4
5
6
7
8
9
10
>>> item = MyItem(foo='abc', bar=123)
>>> item['foo']
'abc'
>>> item.fields['foo']
{'type': <class 'str'>, 'length': 32}
>>> item['baz'] = 1
Traceback (most recent call last):
File "<input>", line 1, in <module>
...
KeyError: 'MyItem does not support field: baz'
Scrapy 2.2提供了itemadapter.ItemAdapter
类和itemadapter.is_item()
函数用于为处理不同类型的Item对象提供统一的接口
This post is licensed under CC BY 4.0 by the author.