企业级云爬虫应用如何架构? - V2EX
首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX
问与答
企业级云爬虫应用如何架构?
fdsfsdfsdf3334
2014-05-25 13:41:08 +08:00
3301 次点击
这是一个创建于 4223 天前的主题,其中的信息可能已经有所发展或是发生改变。
谢谢
领导让我实现一个东西,我思考良久,觉得还是再请教下各位前辈,请大家指点,谢谢你们
环境如下:
数据库使用postgresql
主要语言是python
系统ubuntu
使用的云主机是阿里云
使用python里的web框架flask来分析查看数据
目前购买了5台阿里云主机,内存都是1G的 也都是1核的,
目前的架构思路如下[我也会在思路中描述出需求,请大家帮忙优化下架构]:
通过web前台,添加任务,比如要采集某个XXX,当任务添加后,把任务XXX存入postgresql,然后服务器上的守护程序检测到数据库里添加了新任务,并且状态是未完成,立刻获取任务,然后把任务进一步细化,然后分配给另外4个机器上的爬虫,然后爬虫接到任务,开始执行,得到任务结果后,把任务传给主服务器上的守护程序,守护程序把数据存入数据库,改变任务状态为[已完成],
这样就完成了一次任务,但有时候某些任务,是需要24小时X7天 每间隔10秒执行一次,或者每间隔几分钟执行一次,这样的话,爬虫就是永不停歇的工作
下面,我说出我的困惑,请大家帮忙指点下
请问我的架构思路有什么地方可以优化吗,如何优化?如果让您来完成这些功能,您会如何做?
。
目前尚无回复
爬虫
任务
架构
关于
帮助文档
自助推广系统
博客
API
FAQ
Solana
4932 人在线
最高记录 6679
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 95ms
UTC 01:15
PVG 09:15
LAX 17:15
JFK 20:15
Do have faith in what you're doing.
ubao
msn
snddm
index
pchome
yahoo
rakuten
mypaper
meadowduck
bidyahoo
youbao
zxmzxm
asda
bnvcg
cvbfg
dfscv
mmhjk
xxddc
yybgb
zznbn
ccubao
uaitu
acv
GXCV
ET
GDG
YH
FG
BCVB
FJFH
CBRE
CBC
GDG
ET54
WRWR
RWER
WREW
WRWER
RWER
SDG
EW
SF
DSFSF
fbbs
ubao
fhd
dfg
ewr
dg
df
ewwr
ewwr
et
ruyut
utut
dfg
fgd
gdfgt
etg
dfgt
dfgd
ert4
gd
fgg
wr
235
wer3
we
vsdf
sdf
gdf
ert
xcv
sdf
rwer
hfd
dfg
cvb
rwf
afb
dfh
jgh
bmn
lgh
rty
gfds
cxv
xcv
xcs
vdas
fdf
fgd
cv
sdf
tert
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
sdf
shasha9178
shasha9178
shasha9178
shasha9178
shasha9178
liflif2
liflif2
liflif2
liflif2
liflif2
liblib3
liblib3
liblib3
liblib3
liblib3
zhazha444
zhazha444
zhazha444
zhazha444
zhazha444
dende5
dende
denden
denden2
denden21
fenfen9
fenf619
fen619
fenfe9
fe619
sdf
sdf
sdf
sdf
sdf
zhazh90
zhazh0
zhaa50
zha90
zh590
zho
zhoz
zhozh
zhozho
zhozho2
lislis
lls95
lili95
lils5
liss9
sdf0ty987
sdft876
sdft9876
sdf09876
sd0t9876
sdf0ty98
sdf0976
sdf0ty986
sdf0ty96
sdf0t76
sdf0876
df0ty98
sf0t876
sd0ty76
sdy76
sdf76
sdf0t76
sdf0ty9
sdf0ty98
sdf0ty987
sdf0ty98
sdf6676
sdf876
sd876
sd876
sdf6
sdf6
sdf9876
sdf0t
sdf06
sdf0ty9776
sdf0ty9776
sdf0ty76
sdf8876
sdf0t
sd6
sdf06
s688876
sd688
sdf86