使用Scrapyd+ScrapyWEB可视化管理Scrapy爬虫
Publish: December 10, 2020 Category: 运维 No Comments
本文主要介绍怎样安装和配置scrapyd以及使用scrapyd部署和运行scrapy爬虫。
安装
scrapyd依赖一下库
Python 2.7 以及更高版本
Twisted 8.0 以及更高版本
Scrapy 1.0 以及更高版本
six
如何安装Scrapyd取决于您使用的平台。一般的方法是从PyPI安装它:
#使用pip
pip install scrapyd
#使用conda
conda install -n py37 scrapyd
默认情况下scrapyd的配置文件在各个平台的安装位置如下,ubuntu下新版本安装后不再生成配置文件需要自行创建。
/etc/scrapyd/scrapyd.conf (Unix)
c:\scrapyd\scrapyd.conf (Windows)
/etc/scrapyd/conf.d/* (in alphabetical order, Unix)
scrapyd.conf
~/.scrapyd.conf (users home directory)
在/etc/scrapyd/scrapyd.conf中写入一下配置,根据自己的需求自行调整相关字段
[scrapyd]
eggs_dir = eggs
logs_dir = logs
items_dir =
jobs_to_keep = 5
dbs_dir = dbs
max_proc = 0
max_proc_per_cpu = 4
finished_to_keep = 100
poll_interval = 5.0
bind_address = 127.0.0.1
http_port = 6800
debug = off
runner = scrapyd.runner
application = scrapyd.app.application
launcher = scrapyd.launcher.Launcher
webroot = scrapyd.website.Root
[services]
schedule.json = scrapyd.webservice.Schedule
cancel.json = scrapyd.webservice.Cancel
addversion.json = scrapyd.webservice.AddVersion
listprojects.json = scrapyd.webservice.ListProjects
listversions.json = scrapyd.webservice.ListVersions
listspiders.json = scrapyd.webservice.ListSpiders
delproject.json = scrapyd.webservice.DeleteProject
delversion.json = scrapyd.webservice.DeleteVersion
listjobs.json = scrapyd.webservice.ListJobs
daemonstatus.json = scrapyd.webservice.DaemonStatus
启动scrapyd服务
scrapyd
使用scrapyd-clients部署管理scrapy爬虫
Scrapyd client是Scrapyd的客户端。它提供了通用的scrapyd-client和scrapyd-deploy程序,允许将项目部署到scrapyd服务器。
配置项目文件
scrapy.cfg中配置deploy->url
爬虫上传
deploy
查看是否上传成功
deploy -l
使用scrapyweb做管理
pip install scrapydweb
浏览器中访问 http://x.x.x.x:5000/可以对其进行可视化管理
Related Posts: