求一个面向非码农的爬虫入门 Tutorial - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
gaocegege
V2EX    程序员

求一个面向非码农的爬虫入门 Tutorial

  •  
  •   gaocegege
    gaocegege 2016-02-10 11:04:57 +08:00 6403 次点击
    这是一个创建于 3620 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近身边好多法学啊,经济的同学问能不能学习一下爬虫的姿势,这样以后搜集资料就不需要老是复制粘贴这样的体力劳动了。于是就想来看看有木有符合这样需求的 tutorial ,大家可以 share 一下呢~
    26 条回复    2016-02-16 14:59:06 +08:00
    GG668v26Fd55CP5W
        1
    GG668v26Fd55CP5W  
       2016-02-10 11:30:53 +08:00 via iPhone
    自己做个爬虫系统,教他们写正则表达式
    xcodebuild
        2
    xcodebuild  
       2016-02-10 11:36:46 +08:00
    @falcon05 正则表达式不适合处理爬下来的 HTML
    wdlth
        3
    wdlth  
       2016-02-10 11:40:12 +08:00
    可以试试 XPath
    gamexg
        4
    gamexg  
       2016-02-10 11:40:40 +08:00
    那么用 xpath ,有浏览器插件可以自动生成 xpath 表达式。
    但是还是需要正则或* ? 做一些提取。
    gaocegege
        5
    gaocegege  
    OP
       2016-02-10 11:51:43 +08:00
    正则还是 Xpath ,都是需要教才能用的嘛,有什么教不会写代码的人用这样的技术的文档么 0;0
    总不能来一个,教一个吧
    WildCat
        6
    WildCat  
       2016-02-10 11:56:02 +08:00 via iPhone
    pyquery 比较适合?
    fengxiang
       
    fengxiang  
       2016-02-10 11:58:10 +08:00 via Android
    直接用火车头得了
    XadillaX
        8
    XadillaX  
       2016-02-10 12:19:51 +08:00 via Android
    nodejs + cheerio
    scarlex
        9
    scarlex  
       2016-02-10 12:32:18 +08:00
    试试 Nightmare.js
    ericls
        10
    ericls  
       2016-02-10 12:45:24 +08:00   1
    https://segmentfault.com/a/1190000002544142
    写过一篇 面对入门的
    ammzen
        11
    ammzen  
       2016-02-10 12:56:48 +08:00
    看楼主说到那些同学搜集资料时就不用老是复制粘贴的抱怨,我觉得他们需要的可能不是爬虫,而是快捷保存资料的工具。
    Evernote 插件用好,完全可以保存重点内容与出处( URL )。
    要么就去找选中即保存的那种工具,浏览完网页后,重要的东西都已经存下来了。
    zog
        12
    zog  
       2016-02-10 13:05:59 +08:00
    我推荐你用 wget 这个命令行工具. 普通爬取工作都可以胜任. 非程序员编写爬虫很难. 爬虫是个很大很大的话题.
    Tink
        13
    Tink  
    PRO
       2016-02-10 14:11:14 +08:00
    其实主要还是要教他们处理 js 生成的内容
    Jimrussell
        14
    Jimrussell  
       2016-02-10 14:31:31 +08:00 via Android
    好的回答总是简单的,比如 7 楼。再加个按键精灵好了。
    imn1
        15
    imn1  
       2016-02-10 15:27:39 +08:00
    你需要搞清楚需求,你确定他们真的需要一个爬虫么?
    他们可能更需要的是一个后台获取文档、前台截取主要部分(去除无关内容)的工具
    个人觉得他们对文字阅读还是有必要的,但爬虫往往却是忽略“阅读”
    可能一个离线浏览器+笔记类工具会更合适,文章采集器可能合适,不过我不太了解

    同质(指 HTML 结构)少于 1000 都无必要学习爬虫,成本更高
    先弄清需求吧
    Exin
        16
    Exin  
       2016-02-10 16:00:08 +08:00 via iPhone
    仔细想了想,我认为他们还是高估了爬虫的能力。也许他们只是需要 Google 提高搜索效率。
    chemzqm
        17
    chemzqm  
       2016-02-10 18:12:00 +08:00
    学校里论文系统不一定是基于 http 的,渲染也未必是基于 html 。
    就算是 html 页面抓出来格式化,选取段落才是真正麻烦的地方
    C0VN
        18
    C0VN  
       2016-02-10 18:22:17 +08:00
    lemonda
        19
    lemonda  
       2016-02-10 18:42:57 +08:00
    @xavierskip
    是这个么?
    import.io
    kslr
        20
    kslr  
       2016-02-10 18:45:25 +08:00 via Android
    雇佣我
    C0VN
        21
    C0VN  
       2016-02-10 19:17:09 +08:00   1
    @lemonda 找到了!是 kimono https://www.kimonolabs.com/
    sadscv
        22
    sadscv  
       2016-02-10 19:31:26 +08:00
    @xavierskip 这个好 、完全图形化界面。
    zacks
        23
    zacks  
       2016-02-10 19:50:48 +08:00
    同样推荐 pyspider 。可以通过点击网页或者代码进行爬虫。
    ctrainr
        24
    ctrainr  
       2016-02-10 20:17:39 +08:00   1
    国内:火车头 八爪鱼;国外 import.io kimono visualscraper datascraping.co parsehub mozenda
    wizardforcel
        25
    wizardforcel  
       2016-02-10 21:48:58 +08:00
    我现在用 node+cheerio ,但是也得懂选择器,它比起 xpath 来说对程序员更友好一点,但是对于非程序员来说还是天坑。

    唯一的办法就是做个自动化的工具给他们。
    C0VN
        26
    C0VN  
       2016-02-16 14:59:06 +08:00
    kimono 要关闭他的公共服务了 https://www.kimonolabs.com/


    xpath 可以直接在 chrome 浏览器检查元素直接获取, css 选择器或者 xpath 随便生成。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3693 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 04:17 PVG 12:17 LAX20:17 JFK 23:17
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86