一步采集(OneStepSpider) - 网页列表数据的自动识别尝试 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
oness
V2EX    分享创造

一步采集(OneStepSpider) - 网页列表数据的自动识别尝试

  •  1
     
  •   oness 2017-06-17 12:12:16 +08:00 4250 次点击
    这是一个创建于 3052 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大家好! 我是"一步采集"的作者。 地址: http://onestepspider.51pashanhu.com/

    一步采集通过分析网页 HTML 结构,尝试自动识别出页面中的列表数据,比如 V2EX 列表的主题数据,包括字段标题、时间、作者、阅读量等等。 还有常见的表格类数据。

    并且,程序内还有一套“分页识别算法”,自动分析出下一页,以实现采集分页数据的功能。

    优点:相对于其他同类产品,一步采集的速度是有非常大的优势,采集一个常规网页,基本都是在秒级别。

    缺点和不足: 对于 Ajax 加载的网页还不支持,详情页的识别还在开发中。

    这个产品目前还是一个 Demo 阶段,欢迎大家提供宝贵意见! 我们持续改进!

    7 条回复    2018-02-06 05:54:41 +08:00
    oness
        1
    oness  
    OP
       2017-06-17 12:23:40 +08:00
    核心点就 2 个:自动识别列表算法、自动识别分页算法。
    下一步的自动采集内容页,涉及正文提取算法。 这个目前有很成熟的算法,很好搞定。
    whung
        2
    whung  
       2017-06-17 15:07:27 +08:00 via iPhone   1
    收藏下支持一下你
    mingyun
        3
    mingyun  
       2017-06-17 23:12:29 +08:00
    试了下,速度挺快的,都不用写代码了
    watermelon92
        4
    watermelon92  
       2017-06-17 23:39:31 +08:00
    实测速度的确快啊,怎么做到的
    oness
        5
    oness  
    OP
       2017-06-18 09:48:24 +08:00
    @whung
    感谢!
    @mingyun
    @watermelon92
    哈哈,相比其他一些云采集是快很多。
    不过,可改进的地方还很多
    xiaoqiang0704
        6
    xiaoqiang0704  
       2017-06-18 16:31:30 +08:00
    确实很方便。可以进一步分享实现的方式吗
    jayli517
        7
    jayli517  
       2018-02-06 05:54:41 +08:00
    找东西的时候发现的,已经 200 多天了,不知道还更新不更新了,爬山虎采集器倒是评测感觉挺好的
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2682 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 08:40 PVG 16:40 LAX 01:40 JFK 04:40
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86