把 HTML 中混着的 URL 转成<a>标签,各位有什么优雅的实现方法吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
mashirozx
V2EX    算法

把 HTML 中混着的 URL 转成<a>标签,各位有什么优雅的实现方法吗?

  •  
  •   mashirozx 2022-05-31 03:44:23 +08:00 1969 次点击
    这是一个创建于 1254 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前提:HTML 原来就包括一些<a>标签和<img>标签,现在要做是把剩下的不在任何标签内的 URL 转为<a>标签。

    尝试过写正则,反向匹配所有满足条件的,但是太复杂,遂放弃。

    最后考虑先把标签内的 URL 转义,然后替换剩下的所有 URL ,最后再把转义的转回来,代码如下:

    但是真的太丑了,而且存在明显的 bug ,无奈又想不出别的办法,还望大佬们给点思路

    8 条回复    2022-05-31 08:14:01 +08:00
    vance123
        1
    vance123  
       2022-05-31 04:11:15 +08:00 via Android
    先解析成 Dom ,然后再用正则替换文本怎么样
    GeruzoniAnsasu
        2
    GeruzoniAnsasu  
       2022-05-31 04:35:33 +08:00
    ruby 不熟,库就更不了解了

    你需要一个 dom visitor ,然后遍历每个节点,把节点里的 text 正则替换成<a>
    Girlphobia
        3
    Girlphobia  
       2022-05-31 04:54:15 +08:00 via Android
    首先解析 DOM ,然后对 DOM tree 递归遍历节点:
    如果是 <a> ,跳过当前节点及所有子节点;
    如果是 Text ( https://developer.mozilla.org/en-US/docs/Web/API/Text ) ,匹配 URL 正则,替换为 <a> (这里的替换实现细节可以取决于 URL 是可信的还是用户提供的,可能需要考虑 input sanitization );
    如果是其他元素,用以上逻辑递归处理所有子元素。
    wd
        4
    wd  
       2022-05-31 07:17:29 +08:00 via iPhone
    你把 html 解析成 document 之后,应该就可以直接替换所有 text 里面的 url 了吧?
    ho121
        5
    ho121  
       2022-05-31 07:26:39 +08:00 via Android
    如果有 inline 的元素,比如
    <p>http<span>://</span>www.qq.com</p>
    这种的,页面上看起来是连续的内容,实际 Dom 树是有层级的,这种还不太好处理
    xiangyuecn
        6
    xiangyuecn  
       2022-05-31 07:44:37 +08:00
    有多难,还解析 dom ?

    1. 直接取出 body ,过滤掉 head 干扰
    2. 换行符全部用占位符替换掉,比如" __换行__ " 这种不容易冲突的(首尾带空格),转成单行
    3. 替换掉所有 <.*?> 包裹的内容,用占位符替换掉,内容存入 map ,比如 " __替换:123__ "(首尾带空格),map[123]="<替换掉的内容>"
    4. 剩下的文本不就随便你搞了,全是纯的文本节点,简单的一个正则就能完成替换工作
    5. 恢复占位符对应的内容

    性能消耗完全可以忽略不计
    GeruzoniAnsasu
        7
    GeruzoniAnsasu  
       2022-05-31 07:54:08 +08:00
    @xiangyuecn

    <pre> if (a <=3 || a > 5) </pre>
    xiangyuecn
        8
    xiangyuecn  
       2022-05-31 08:14:01 +08:00
    @GeruzoniAnsasu 并不影响,后面会恢复回来。url 的匹配不容易误杀,url 没有空格
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5983 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 02:01 PVG 10:01 LAX 18:01 JFK 21:01
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86