有关于目前正在做的新闻数据流程的架构-构想,大神指教!! - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
linhanqiu
V2EX    Python

有关于目前正在做的新闻数据流程的架构-构想,大神指教!!

  •  
  •   linhanqiu 2018-02-24 11:10:53 +08:00 2766 次点击
    这是一个创建于 2798 天前的主题,其中的信息可能已经有所发展或是发生改变。
    19 条回复    2018-02-24 17:28:14 +08:00
    newbier
        1
    newbier  
       2018-02-24 13:02:42 +08:00
    小白,看得一脸盲,呵呵。在我眼里你就是大神了。
    linhanqiu
        2
    linhanqiu  
    OP
       2018-02-24 13:16:42 +08:00
    @newbier 没有没有,本小白只是构想,还没完成呢
    liudanking
        3
    liudanking  
       2018-02-24 14:00:12 +08:00 via iPhone
    研究一下 推酷?
    pheyer     4
    pheyer  
       2018-02-24 14:13:59 +08:00
    想 copy 一个头条吗,感觉没那么容易啊
    lz 文章排版不错,是用 Evernote 内部的编辑器排版的吗?
    linhanqiu
        5
    linhanqiu  
    OP
       2018-02-24 14:28:45 +08:00
    @liudanking
    听过,可以试试
    linhanqiu
        6
    linhanqiu  
    OP
       2018-02-24 14:29:37 +08:00
    @pheyer 哈哈,对,是 Evernote,国内的印象笔记不能分享,所以用了国外版本
    w0000
        7
    w0000  
       2018-02-24 15:22:40 +08:00
    楼主是要在公司做还是个人感兴趣做? @linhanqiu
    linhanqiu
        8
    linhanqiu  
    OP
       2018-02-24 15:35:42 +08:00
    @w0000 现在在带一个小队,主要业务量到达一定程度了,想要构想一下未来的大架构,
    w0000
        9
    w0000  
       2018-02-24 15:56:23 +08:00
    不知道楼主的 数据源 多不多哈,爬虫采集的话,200w+ 量不是很大,有需要登录或者动态渲染的页面要抓的吗?如果有的通用爬虫都搞不定,nutch 感觉不好用,可能爬虫用 python 会开发起来好一些,数据清洗之后可能不需要关系数据库存,我这边也是公司在做类似的东西,金融舆情监控系统,跟你写的这个有一些相似的地方,有机会可以交流下
    linhanqiu
        10
    linhanqiu  
    OP
       2018-02-24 16:01:11 +08:00
    @w0000 好的,好的,那太好了
    Xrong
        11
    Xrong  
       2018-02-24 16:03:06 +08:00
    文档 404 ???
    linhanqiu
        12
    linhanqiu  
    OP
       2018-02-24 16:04:36 +08:00
    @w0000 数据源是挺多的,大概有三四万左右,需要登陆和动态的网站确实都是交给我们自己开发的 python 框架来解决,通用的 nutch 来解决大部分市政的新闻网站,因为他们确实没有太多反爬,哈哈。数据存储的话,之后打算放在 HBase 来做,看来我们确实有挺多相似的地方,舆情的话我们也是打算在做,做新闻舆情的东西,不过本质是差不多的哈哈,
    linhanqiu
        13
    linhanqiu  
    OP
       2018-02-24 16:05:36 +08:00
    looplj
        15
    looplj  
       2018-02-24 16:42:39 +08:00
    感觉什么都没说啊。。
    以前做过类似的吧,资讯基本可以用正文抽取解决。复杂点的也可以很容易的用配置解决。
    需要登录的就每个都有单独做了,这个反爬太容易了。
    用 kafka 做流处理,还是很不错的。
    linhanqiu
        16
    linhanqiu  
    OP
       2018-02-24 16:59:38 +08:00
    @ZSeptember 多谢大神指教
    linhanqiu
        17
    linhanqiu  
    OP
       2018-02-24 17:01:42 +08:00
    @ZSeptember 还想问一下,资讯正文提取可以,反爬太容易了是指什么,kafka 做流处理是在什么部分做比较上,是在新闻上传业务场景的时候吗
    looplj
        18
    looplj  
       2018-02-24 17:16:49 +08:00
    @linhanqiu。渣渣一个。只是我觉得你的那个文档只涉及到技术选型而已,还没有到什么架构这个程度。
    需要登录的当然别人想做反爬就可以做,你换 IP 都没用啊,现在很多需要手机号,如果会封号,成本很高的。
    Kafka 在这种业务中可以作为架构基础,解耦爬虫,清洗,统计分析业务,爬虫就只管爬数据,把爬取到的数据打到 Kafka 就不用管了,后续的什么服务都可以很方便的接入。
    linhanqiu
        19
    linhanqiu  
    OP
       2018-02-24 17:28:14 +08:00
    @ZSeptember 哦哦,懂了,这个方面打算用微服务来做,每个模块做成服务
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3034 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 91ms UTC 12:05 PVG 20:05 LAX 05:05 JFK 08:05
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86