求助, 提取 html 内容相关 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lzlee
V2EX    问与答

求助, 提取 html 内容相关

  •  
  •   lzlee 2020-02-22 12:12:51 +08:00 2239 次点击
    这是一个创建于 2070 天前的主题,其中的信息可能已经有所发展或是发生改变。

    抱歉, 实在不清楚要发到哪个节点

    有这么一个需求

    1. 我通过 chrome 开发者工具, 截取了某个 网页 的元素
    2. 我想通过 某种手段, 截取到 元素 的 子元素
    3. 我想通过 某种手段, 截取到 元素 的 属性 或者 内容
    4. 我会一点 java, python 和 shell, 这些我都可以去尝试, 当然其他的也行
    5. 输入是一段 html, 以及我的条件, 比如定制路径, 是否带外标签, 输出是 文字

    疑问

    1. 感觉像是 html 页面里, 提取特定 元素, 属性, 内容
    2. 中间可能会有 html 元素路径的指定, 和其他一些过滤
    3. 感觉这种事, 之前肯定有人做过, 我是第一次接触, 但是感觉没啥门路

    感谢各位大佬

    18 条回复    2020-02-25 00:05:31 +08:00
    learningman
        1
    learningman  
       2020-02-22 12:23:22 +08:00 via Android
    xpath,了解一下
    或者 css 选择器
    Procumbens
        2
    Procumbens  
       2020-02-22 12:41:20 +08:00
    BeautifulSoup?
    xiri
        3
    xiri  
       2020-02-22 13:11:16 +08:00
    用 python 做,lxml、BeautifulSoup 等都能实现你的要求(其实你的需求就是爬虫的数据清洗部分要干的事)
    7huixiang
        4
    7huixiang  
       2020-02-22 13:17:37 +08:00
    听着像文章采集器呢
    Hansah
        5
    Hansah  
       2020-02-22 13:21:41 +08:00 via Android
    火车采集器,最高效易学的了
    omph
        6
    omph  
       2020-02-22 13:43:05 +08:00
    简单的可以用 shell
    https://github.com/coderobe/hq
    itechify
        7
    itechify  
    PRO
       2020-02-22 14:22:09 +08:00 via Android
    JAVA 中建议用 jsoup,和 jquery 一把梭一样,很简单。并且,xpath 有时候因为页面的元素不标准,导致解析不了,jsoup 没有这个问题
    tlday
        8
    tlday  
       2020-02-22 15:10:04 +08:00
    tlday
        9
    tlday  
       2020-02-22 15:10:33 +08:00
    U7Q5tLAex2FI0o0g
        10
    U7Q5tLAex2FI0o0g  
       2020-02-22 15:30:59 +08:00
    解析 html 的轮子非常多,基本各大语言都有,你有这发帖时间都找到了。
    1 楼的说的两个,搜索一下你就知道了
    lis66951735
        11
    lis66951735  
       2020-02-22 16:15:21 +08:00
    java jsoup , python BeautifulSoup
    TangMonk
        12
    TangMonk  
       2020-02-22 16:19:12 +08:00
    @littleylv #10 可惜 Pascal 的轮子比较少
    yuenc
        13
    yuenc  
       2020-02-22 20:01:29 +08:00
    nodejs puppeteer
    crella
        14
    crella  
       2020-02-23 10:11:37 +08:00 via Android
    ……我都是自己切割字符串查找文本的,我接触的网页比较简单……
    lzlee
        15
    lzlee  
    OP
       2020-02-24 16:18:24 +08:00
    感谢各位大佬的回复, 我挨个试试, 有效果的话, 会给反馈
    lzlee
        16
    lzlee  
    OP
       2020-02-24 16:24:18 +08:00
    @siknet
    感谢大佬
    火车我之前当做开发的时候用过, 功能确实很强大,
    当时记得是做一个 比价网站, 从各个购物网站上爬价格, 然后比较
    刚刚看了看, 发现 火车采集器 是个收费软件, 而且我的需求只是满足自己的一些好奇心
    大概是 在尝试理解一类用户的 思考方式 和 语言风格, 目前还只停留在很初级的阶段
    等真的哪天需要了, 再买个火车吧
    Hansah
        17
    Hansah  
       2020-02-24 20:33:03 +08:00 via Android
    火车采集器有免费版的啊,一般用足够了,注册个账号而已
    @lzlee
    lzlee
        18
    lzlee  
    OP
       2020-02-25 00:05:31 +08:00
    @siknet 还真有...谢谢大佬
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     903 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 20:32 PVG 04:32 LAX 13:32 JFK 16:32
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86