大佬们,有什么好用的开源网页正文提取的库 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 成的内容
rizon
V2EX    程序员

大佬们,有什么好用的开源网页正文提取的库

  •  
  •   rizon
    othorizon 2024-02-06 10:31:00 +08:00 via iPhone 4477 次点击
    这是一个创建于 620 天前的主题,其中的信息可能已经有所发展或是发生改变。
    现在有一个需要提取网页正文的需求。大佬们有什么觉得很好用的开源库啊。

    另外开源知识库产品也求个推荐。

    想要做一个网页爬取,正文提取,然后到知识库,最后 api 输出的组合。

    谢谢大佬们
    17 条回复    2024-02-06 19:47:57 +08:00
    zuoyouTU
        1
    zuoyouTU  
       2024-02-06 10:41:44 +08:00
    如果目标页面格式清楚,用 selenium 或者 pytesseract 简单定制一下应该可以
    前者拿明文后者用 ocr 拿其他的
    zqjilove
        2
    zqjilove  
       2024-02-06 11:13:33 +08:00
    gen 。github 、v2 里搜索一下,好像还是 v 友开发的。
    wbrobot
        3
    wbrobot  
       2024-02-06 11:55:52 +08:00
    国外好用的都是收费 API
    国内以前有一个,后来没有了
    开源的需要自己改的东西太多了,以后有基于 AI 的可能会好很多
    Cloud200
        4
    Cloud200  
       2024-02-06 12:00:53 +08:00
    Cloud200
        5
    Cloud200  
       2024-02-06 12:01:39 +08:00
    rizon
        6
    rizon  
    OP
       2024-02-06 12:05:47 +08:00
    我本以为正文提取的库挺多的,结果查了一下发现,这条路好像还没有趟的很好啊。目前看到一个最简单的方法就是基于标签的密度。
        7
    FrankAdler  
       2024-02-06 12:55:28 +08:00
    itskingname
        8
    itskingname  
       2024-02-06 13:10:24 +08:00
    itskingname
        9
    itskingname  
       2024-02-06 13:11:55 +08:00
    DTCPSS
        10
    DTCPSS  
       2024-02-06 14:29:50 +08:00   1
    rizon
        11
    rizon  
    OP
       2024-02-06 14:30:40 +08:00
    @FrankAdler #7 对对对,就是这个思路,那些各类网页阅读器的思路。我试试这个如何
    rizon
        12
    rizon  
    OP
       2024-02-06 16:26:15 +08:00
    @DTCPSS #10 这个看着蛮好用的诶,感谢兄弟。 火狐真棒,哈哈
    oaa
        13
    oaa  
       2024-02-06 17:15:19 +08:00   2
    1 ) Readability ,https://github.com/mozilla/readability ,是一种基于规则的方法,被 Mozilla Firefox 浏览器的阅读模式使用,它通过检查 HTML 元素的标签名、文本数量、链接密度以及满足主要内容标准的文本模式来提取主要内容

    2 ) DOM Distiller ,https://github.com/chromium/dom-distiller ,是 Google Chrome 浏览器的阅读模式,它是一种混合方法,使用了 Boilerpipe 分类器和一些规则,有点类似于 Readability

    3 ) Web2Text ,https://github.com/dalab/web2text ,是基于深度神经网络的分类器,使用了 CNN 模型和包括单词计数、标点符号存在和停用词数量等 128 个结构和文本特征来确定每个文本块是否属于主要内容

    4 ) Boilernet ,https://github.com/mrjleo/boilernet ,是基于深度神经网络的分类器,使用 LSTM 将网页的文本节点视为由单词和 DOM 树根路径组成的文本块序列
    好像还有个啥论文。。
    via https://twitter.com/Barret_China/status/1729889136520335606?s=20
    Immortal
        14
    Immortal  
       2024-02-06 17:22:23 +08:00
    rod
    chingyat
        15
    chingyat  
       2024-02-06 17:35:17 +08:00
    dyllen
        16
    dyllen  
       2024-02-06 19:34:39 +08:00
    之前不记得哪里看的,哪些聚合网站好像是有用的密度分析方法做的。
    zqjilove
        17
    zqjilove  
       2024-02-06 19:47:57 +08:00
    目前最靠谱的就是用 gpt
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1655 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 89ms UTC 16:18 PVG 00:18 LAX 09:18 JFK 12:18
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86