Post

【Scrapy】命令行工具

Scrapy提供了一个命令行工具scrapy,位于{Python安装目录}\Scripts\scrapy.exe,对应的模块:scrapy.cmdline

官方文档:https://docs.scrapy.org/en/latest/topics/commands.html

无参数运行该命令将打印帮助信息:

1
2
3
4
5
6
7
8
D:\PyCharm\projects>scrapy
Scrapy 2.3.0 - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
...

如果当前目录在一个Scrapy项目中则会打印项目名称,并且可以使用项目相关的命令:

1
2
3
4
5
6
7
8
D:\PyCharm\projects\myproject>scrapy
Scrapy 2.3.0 - project: myproject

Usage:
  scrapy <command> [options] [args]

Available commands:
...

使用scrapy <command> -h可查看某个命令的具体帮助

常用命令

全局命令

startproject:创建项目

1
scrapy startproject <project_name> [project_dir]

如果未指定项目路径则与项目名称相同

genspider:创建爬虫

1
scrapy genspider [-t <template>] <name> <domain>

在当前目录中或当前项目的spiders目录中创建一个新的爬虫,<name>参数用于设置爬虫的name属性,<domain>参数用于生成爬虫的allowed_domainsstart_urls属性

可用的模板在{Python安装目录}\scrapy\templates\spiders目录下,默认为basic

shell:打开Scrapy shell

1
scrapy shell [url]

使用给定的URL发送一个请求,并进入交互式控制台

runspider:运行单个爬虫

1
scrapy runspider <spider_file>

仅在项目中使用的命令

crawl:运行爬虫

1
scrapy crawl [options] <spider>

运行指定名称的爬虫,可通过-a NAME=VALUE选项指定Spider参数

list:列出可用爬虫

1
scrapy list
This post is licensed under CC BY 4.0 by the author.