1 newbier 2018-02-24 13:02:42 +08:00 小白,看得一脸盲,呵呵。在我眼里你就是大神了。 |
![]() | 3 liudanking 2018-02-24 14:00:12 +08:00 via iPhone 研究一下 推酷? |
![]() | 4 pheyer 2018-02-24 14:13:59 +08:00 想 copy 一个头条吗,感觉没那么容易啊 lz 文章排版不错,是用 Evernote 内部的编辑器排版的吗? |
5 linhanqiu OP @liudanking 听过,可以试试 |
9 w0000 2018-02-24 15:56:23 +08:00 不知道楼主的 数据源 多不多哈,爬虫采集的话,200w+ 量不是很大,有需要登录或者动态渲染的页面要抓的吗?如果有的通用爬虫都搞不定,nutch 感觉不好用,可能爬虫用 python 会开发起来好一些,数据清洗之后可能不需要关系数据库存,我这边也是公司在做类似的东西,金融舆情监控系统,跟你写的这个有一些相似的地方,有机会可以交流下 |
![]() | 11 Xrong 2018-02-24 16:03:06 +08:00 文档 404 ??? |
12 linhanqiu OP @w0000 数据源是挺多的,大概有三四万左右,需要登陆和动态的网站确实都是交给我们自己开发的 python 框架来解决,通用的 nutch 来解决大部分市政的新闻网站,因为他们确实没有太多反爬,哈哈。数据存储的话,之后打算放在 HBase 来做,看来我们确实有挺多相似的地方,舆情的话我们也是打算在做,做新闻舆情的东西,不过本质是差不多的哈哈, |
13 linhanqiu OP |
14 linhanqiu OP |
![]() | 15 looplj 2018-02-24 16:42:39 +08:00 感觉什么都没说啊。。 以前做过类似的吧,资讯基本可以用正文抽取解决。复杂点的也可以很容易的用配置解决。 需要登录的就每个都有单独做了,这个反爬太容易了。 用 kafka 做流处理,还是很不错的。 |
16 linhanqiu OP @ZSeptember 多谢大神指教 |
17 linhanqiu OP @ZSeptember 还想问一下,资讯正文提取可以,反爬太容易了是指什么,kafka 做流处理是在什么部分做比较上,是在新闻上传业务场景的时候吗 |
![]() | 18 looplj 2018-02-24 17:16:49 +08:00 @linhanqiu。渣渣一个。只是我觉得你的那个文档只涉及到技术选型而已,还没有到什么架构这个程度。 需要登录的当然别人想做反爬就可以做,你换 IP 都没用啊,现在很多需要手机号,如果会封号,成本很高的。 Kafka 在这种业务中可以作为架构基础,解耦爬虫,清洗,统计分析业务,爬虫就只管爬数据,把爬取到的数据打到 Kafka 就不用管了,后续的什么服务都可以很方便的接入。 |
19 linhanqiu OP @ZSeptember 哦哦,懂了,这个方面打算用微服务来做,每个模块做成服务 |