像这种多新闻来源的爬虫,是每种来源都做一套爬虫? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
secsilm
V2EX    Python

像这种多新闻来源的爬虫,是每种来源都做一套爬虫?

  •  
  •   secsilm
    secsilm 2020-02-17 09:49:54 +08:00 7212 次点击
    这是一个创建于 2143 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如果不是,通常是用啥方法来做?

    33 条回复    2020-02-22 23:34:25 +08:00
    est
        1
    est  
       2020-02-17 09:54:18 +08:00 via Android   3
    这个大概率是坐了一个小编
    shanlan
        2
    shanlan  
       2020-02-17 09:55:44 +08:00
    1.官方 API
    2.人肉抓取
    3.定制爬虫
    secsilm
        3
    secsilm  
    OP
       2020-02-17 09:56:19 +08:00
    @est 是个狠人,这得多少人干这
    murmur
        4
    murmur  
       2020-02-17 09:56:31 +08:00
    官方的新闻直接爬,非官方的人工洗稿
    twor2
        5
    twor2  
       2020-02-17 09:56:47 +08:00
    应该是人工的吧,至少半人工
    ired
        6
    ired  
       2020-02-17 09:58:04 +08:00
    @est 同意,人肉 API
    secsilm
        7
    secsilm  
    OP
       2020-02-17 09:58:44 +08:00
    @murmur 直接爬的话,是不是也得每种来源搞一套爬虫?这工作量感觉不小啊
    litmxs
        8
    litmxs  
       2020-02-17 10:04:04 +08:00 via Android
    就算是人力成本也不是很高吧
    andylsr
        9
    andylsr  
       2020-02-17 10:10:09 +08:00
    @secsilm 原则上每个来源写一个解析就行了
    est
        10
    est  
       2020-02-17 10:14:21 +08:00   4
    @secsilm 没有人的话,万一新闻源搞了个大新闻,你自动同步上去,等于你也有一份泽任吧。
    jellybool
        11
    jellybool  
       2020-02-17 10:16:01 +08:00 via Android   1
    @est 泽任这个词,excited !
    metamask
        12
    metamask  
       2020-02-17 10:17:06 +08:00
    不是一套,

    一般是先自己搭个框架,
    像这种,可以分别写 爬取机制 + 清洗机制(parse ),然后做入库。



    像 v 站一个老哥的,pyspider 用来做这玩意就还不错。
    locoz
        13
    locoz  
       2020-02-17 10:21:10 +08:00 via Android
    新闻类的直接上智能提取就行了,不用写规则,而且这种需求就无脑刷最新新闻那一页就行。
    至于最终发布…显然部分非官方的新闻是人肉处理的,有新闻就直接推到编辑那,审核没问题了再提出关键内容放上去。
    nocoolsandwich
        14
    nocoolsandwich  
       2020-02-17 10:25:28 +08:00
    看你样子是想要疫情的数据吧,github 有人整理好了,数据来源丁香园好像是.https://github.com/BlankerL/DXY-COVID-19-Data
    delectate
        15
    delectate  
       2020-02-17 10:28:39 +08:00
    来源就那几个,写规则就好;一般人机器爬,人肉审、二审、发。
    alaikis
        16
    alaikis  
       2020-02-17 10:37:58 +08:00
    做几个规则,一个源配置一下就好呀,没那复杂
    murmur
        17
    murmur  
       2020-02-17 10:39:36 +08:00
    @secsilm 官方新闻其实就那么几个源,一个字都不能改
    secsilm
        18
    secsilm  
    OP
       2020-02-17 12:31:51 +08:00
    @locoz 智能提取是个什么鬼
    Ericcccccccc
        19
    Ericcccccccc  
       2020-02-17 12:32:56 +08:00
    人力成本很低啊
    locoz
        20
    locoz  
       2020-02-17 12:38:57 +08:00   1
    Mavious
        21
    Mavious  
       2020-02-17 12:42:29 +08:00
    灰字提要,得人工来提取吧,毕竟新闻也没有固定格式,核心内容还是要人来提取的。
    jingniao
        22
    jingniao  
       2020-02-17 12:45:54 +08:00 via Android
    丁香园是人工的,因为早上七点之前好像大都不更新。
    刚开始那几天好像是小编通宵 /轮班了,晚上也有更新。
    jabin88
        23
    jabin88  
       2020-02-17 12:52:50 +08:00
    正文提取 算法,不要用正则
    2ME
        24
    2ME  
       2020-02-17 13:07:06 +08:00 via Android
    关键词 Readability 识别新闻站的正文进行提取
    herozzm
        25
    herozzm  
       2020-02-17 13:08:08 +08:00 via Android
    通用爬虫 针每个新闻源定制规则
    wolfan
        26
    wolfan  
       2020-02-17 13:11:27 +08:00 via Android
    爬微博不就成了
    lshero
        27
    lshero  
       2020-02-17 14:19:21 +08:00
    有个岗位叫做 值班编辑
    chroming
        28
    chroming  
       2020-02-17 14:33:11 +08:00
    专业一点的是用火车头这类工具每个网站写提取规则来爬。要求不高的话找现成正文提取算法直接提取
    chroming
        29
    chroming  
       2020-02-17 14:33:35 +08:00
    如果只是几个网站的话那人工直接复制更简单
    secsilm
        30
    secsilm  
    OP
       2020-02-17 20:42:30 +08:00
    @locoz 学习了,谢谢
    ChangQin
        31
    ChangQin  
       2020-02-17 22:02:57 +08:00
    我想爬 twitter 的数据,结果开发者账号好难申请啊。。。
    yinzhili
        32
    yinzhili  
       2020-02-18 10:31:15 +08:00
    这种肯定是人工介入的,怕出问题责任重大
    enrolls
        33
    enrolls  
       2020-02-22 23:34:25 +08:00
    认真观察网页结构,其实是有通用方法的,印象笔记不是也剪藏了莫。
    (顺带测试回复功能)
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1237 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 17:33 PVG 01:33 LAX 09:33 JFK 12:33
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86