本文主要介绍怎样安装和配置scrapyd以及使用scrapyd部署和运行scrapy爬虫。

安装

 scrapyd依赖一下库
Python 2.7 以及更高版本
Twisted 8.0 以及更高版本
Scrapy 1.0 以及更高版本
six

如何安装Scrapyd取决于您使用的平台。一般的方法是从PyPI安装它:

#使用pip
pip install scrapyd

#使用conda
conda install -n py37 scrapyd

默认情况下scrapyd的配置文件在各个平台的安装位置如下,ubuntu下新版本安装后不再生成配置文件需要自行创建。

/etc/scrapyd/scrapyd.conf (Unix)
c:\scrapyd\scrapyd.conf (Windows)
/etc/scrapyd/conf.d/* (in alphabetical order, Unix)
scrapyd.conf
~/.scrapyd.conf (users home directory)

在/etc/scrapyd/scrapyd.conf中写入一下配置,根据自己的需求自行调整相关字段

[scrapyd]
eggs_dir    = eggs
logs_dir    = logs
items_dir   =
jobs_to_keep = 5
dbs_dir     = dbs
max_proc    = 0
max_proc_per_cpu = 4
finished_to_keep = 100
poll_interval = 5.0
bind_address = 127.0.0.1
http_port   = 6800
debug       = off
runner      = scrapyd.runner
application = scrapyd.app.application
launcher    = scrapyd.launcher.Launcher
webroot     = scrapyd.website.Root

[services]
schedule.json     = scrapyd.webservice.Schedule
cancel.json       = scrapyd.webservice.Cancel
addversion.json   = scrapyd.webservice.AddVersion
listprojects.json = scrapyd.webservice.ListProjects
listversions.json = scrapyd.webservice.ListVersions
listspiders.json  = scrapyd.webservice.ListSpiders
delproject.json   = scrapyd.webservice.DeleteProject
delversion.json   = scrapyd.webservice.DeleteVersion
listjobs.json     = scrapyd.webservice.ListJobs
daemonstatus.json = scrapyd.webservice.DaemonStatus

启动scrapyd服务

scrapyd

使用scrapyd-clients部署管理scrapy爬虫

Scrapyd client是Scrapyd的客户端。它提供了通用的scrapyd-client和scrapyd-deploy程序,允许将项目部署到scrapyd服务器。

配置项目文件
scrapy.cfg中配置deploy->url

爬虫上传

deploy

查看是否上传成功

deploy -l

使用scrapyweb做管理

pip install scrapydweb

浏览器中访问 http://x.x.x.x:5000/可以对其进行可视化管理

Tags: python, scrapyd

Related Posts:

Leave a Comment