早期的网页爬虫是如何进行的? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lx19930805
V2EX    问与答

早期的网页爬虫是如何进行的?

  •  
  •   lx19930805 2015-12-25 16:49:19 +08:00 3484 次点击
    这是一个创建于 3585 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在多是通过"审查元素"获取网页的代码结构,然后正则获取想要的内容.然后再代码编写
    那请问过去的爬虫是通过什么方法获取网页和想要的内容?毕竟没有 HTML 提供

    22 条回复    2015-12-25 21:34:40 +08:00
    imn1
        1
    imn1  
       2015-12-25 17:18:16 +08:00
    ?
    啥意思
    没有 HTML 何来网页?没有 HTML 的时代也没有爬虫一说
    那时候都是 tele bbs+邮件列表
    qw7692336
        2
    qw7692336  
       2015-12-25 17:28:54 +08:00
    不是更容易吗
    mogita
        3
    mogita  
       2015-12-25 17:37:22 +08:00 via iPhone
    隐约觉得楼主暴露年龄段了。
    lx19930805
        4
    lx19930805  
    OP
       2015-12-25 18:02:38 +08:00
    @imn1 一开始就纠结该怎么用词,果然有人提了.所以我前面有解释.
    因为不懂各种词的表达,所以不要见怪.
    就是网页源代码,里面的那些 HTML 代码.
    早期没有"审查元素",是如何具体爬出来的.
    lx19930805
        5
    lx19930805  
    OP
       2015-12-25 18:03:34 +08:00
    @ck65 我觉得这没什么必要隐藏(93).该说的应该是觉得我是个新手,我才刚接触
    lx19930805
        6
    lx19930805  
    OP
       2015-12-25 18:03:50 +08:00
    @qw7692336 具体呢?
    Zzzzzzzzz
        7
    Zzzzzzzzz  
       2015-12-25 18:05:47 +08:00
    view-source, 审核元素其实不准的, 因为浏览器会补全一些元素
    早些时候也不流行 xpath, 都是直接用正则直接处理 raw html 的.
    abelyao
        8
    abelyao  
       2015-12-25 18:06:26 +08:00
    @lx19930805 你是指在没有「审查元素」之前怎么怎么从一大堆 HTML 中找出想要的信息的位置吧?那当然是人工查找啦, HTML 那么简单…
    lx19930805
        9
    lx19930805  
    OP
       2015-12-25 18:14:40 +08:00
    @abelyao 啊?那获取源代码,然后复制粘贴到想要的地方显示出来呢.不是也要通过爬虫吗?
    抱歉,我是新人,看了一下 python 的爬某个网站,发现都是先审查,然后根据相应 div 内容等来改的
    imn1
        10
    imn1  
       2015-12-25 18:15:44 +08:00
    @lx19930805
    你是说 DOM 吧?
    DOM 其实很早就有了, 9x 年代,大概 ie3~4 期间出现
    再早些时候 js 都没有, html 页面很简单,直接文本查找就可以了,正则
    那个是贺氏时代,网速慢得要死,没什么人弄爬虫
    但那时有一种另类爬虫,就是离线浏览器,基本上就是抓<a href=>
    loading
        11
    loading  
       2015-12-25 18:16:35 +08:00 via Android
    居然要审查元素…楼主,你水平暴露了。

    我们以前都是用 windows 记事本来审查元素的,不需要 chrome 或者 firefox
    qqmishi
        12
    qqmishi  
       2015-12-25 18:22:59 +08:00
    右键查看网页源代码,人肉去查,,,
    xcodebuild
        13
    xcodebuild  
       2015-12-25 18:26:57 +08:00
    楼主的描述方式有点白啊,,,以及正则不适合处理 html ,用 xpath
    lx19930805
        14
    lx19930805  
    OP
       2015-12-25 18:31:24 +08:00
    @loading @qqmishi @codefalling 很抱歉我语文表达不好,而且也是刚接触这方面,各种专业词语都不懂,无法表达.
    在没有"审查元素"之类的东西(不知道'查看网页源代码'过去有没有,请尽量当它没有吧)出来前,是如何爬的.
    Kokororin
        15
    Kokororin  
       2015-12-25 18:33:16 +08:00
    就算过去没有查看源代码,记事本总有吧。直接打开里面输入 url 地址就是源代码
    lxy
        16
    lxy  
       2015-12-25 18:36:43 +08:00
    在“审查元素”这个功能没有之前,可以右键查看源码吧?即使没有,也可以直接 Ctrl+S 保存网页文档,然后查看源码。不知那个时候有没有抓包工具,反正我小学的时候就会用 IE6 保存网页了。
    xidianpanpei
        17
    xidianpanpei  
       2015-12-25 19:47:26 +08:00
    估计楼主是想知道在浏览器没有查看网页源码功能的时候,大家是怎么解析网页做爬虫的。这个其实不复杂,因为无论 python 中 request 还是 linux 的 curl 都是先获取到网页源码后,接着再做解析处理的。不信可以在终端中执行'curl www.baidu.com'这个命令,就可以直接获取百度首页的源码。
    binux
        18
    binux  
       2015-12-25 19:55:17 +08:00
    审查元素只是帮你建树并定位节点,但是 HTML 源代码本事就存在的,即使没有审查元素,也可以脑内建树嘛。
    而且早期的页面,没有那么多复杂的元素<h1>就是<h1>,<li>就是<li>,结构清晰得多。
    crab
        19
    crab  
       2015-12-25 20:21:59 +08:00
    winnet winhttp .....等等等
    xcodebuild
        20
    xcodebuild  
       2015-12-25 20:55:46 +08:00
    @lx19930805 我还真不知道早期浏览器有没有这个功能,但是 curl 一下也就出来了-。-
    loading
        21
    loading  
       2015-12-25 21:32:46 +08:00 via Android
    楼主去看看 织梦 cms 的采集功能。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2567 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 07:50 PVG 15:50 LAX 00:50 JFK 03:50
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86