golang regex 和 csv 这么屎 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
The Go Programming Language
http://golang.org/
Go Playground
Go Projects
Revel Web Framework
hustlike
V2EX    Go 编程语言

golang regex 和 csv 这么屎

  •  1
     
  •   hustlike 2016-08-18 17:57:59 +08:00 2408 次点击
    这是一个创建于 3357 天前的主题,其中的信息可能已经有所发展或是发生改变。

    和 java 做了一下性能对比, regex 差不多只有 java 五分之一的速度。 Csv 简直是不能看。只有 Java 一半的速度。看了一下 pprof ,看起来是很多对象的分配和 GC 。难以置信。

    11 条回复    2016-08-19 15:49:55 +08:00
    kappa
        1
    kappa  
       2016-08-18 18:10:24 +08:00
    janxin
        2
    janxin  
       2016-08-18 19:24:37 +08:00
    regexp 的话 https://github.com/matloob/regexp 有很多人贡献了一些库可以更快。一些是对象分配 GC 问题,一些和算法也有关系。 csv 没用过,不过看起来 regexp 性能比 csv 差很多啊。
    cloudzhou
        3
    cloudzhou  
       2016-08-18 20:08:43 +08:00
    我对这个很好奇,请问你 Java 使用的 CSV 库是什么,测试代码有吗?
    bombless
        4
    bombless  
       2016-08-19 00:07:42 +08:00 via Android
    不知道 ruby 现在表现的怎样。听说它最近也开始在 gc 中分代,对新生代使用 copying gc 。话说 copying gc 又能防止碎片产生,还能性能很高的话,早就把 mark - sweep 挤出市场了吧。是不是暴力 copying gc 其实表现很差。
    vitovan
        5
    vitovan  
       2016-08-19 08:30:18 +08:00
    遇到重型 regex 需求基本都是上 re2:
    https://github.com/google/re2
    vitovan
        6
    vitovan  
       2016-08-19 08:31:06 +08:00
    r#5 @vitovan 貌似没有 golang 的 wrapper.
    feuvan
        7
    feuvan  
       2016-08-19 11:39:12 +08:00
    hustlike
        8
    hustlike  
    OP
       2016-08-19 11:51:11 +08:00
    @cloudzhou Java 用的是 apache 的 commons-io. Go 测试代码:
    ```
    r := csv.NewReader(bytes.NewReader(source))
    return r.ReadAll()
    ```
    Java 的是:
    ```
    CSVFormat.EXCEL.withQuoteMode(QuoteMode.MINIMAL).withFirstRecordAsHeader().parse(new BufferedReader(new StringReader(source)))
    ```
    测试 1 百万行 Csv 。这里都是从内存读进来。
    hustlike
        9
    hustlike  
    OP
       2016-08-19 11:51:51 +08:00
    @janxin 看这个对比: http://benchmarksgame.alioth.debian.org/u64q/performance.php?test=regexdna&sort=elapsed
    差别不是一点点,就是直接抄 Java 的设计也不会这么烂啊。
    janxin
        10
    janxin  
       2016-08-19 13:15:10 +08:00
    @hustlike 你这个锅应该第三方库背啊,这明显是第三方库的问题...

    https://github.com/wordijp/golang-re2 ,这个也就是 5.947s
    hooluupog
        11
    hooluupog  
       2016-08-19 15:49:55 +08:00
    @hustlike 因为算法不一样[1]。 Go 的 regexp 采用的是一个线性算法,没有最差的情形出现,但通常情况下会慢一些(当然,也和它优化的不够有关)。不过已经有 port re2 过来的打算[2](就像现在很多编程语言的库里,实际实现的排序是几种算法综合在一起的,一般情况下用最快的,遇到坏的情形就换另一种慢的但线性化的算法)。
    同样,可以对比下 net/http 和 fasthttp 的性能,后者秒杀前者,但为啥不直接使用后者?跑分的意义没有那么重要。真要是实际使用中 regexp 这么慢,出现什么大问题,那么这个问题的优先级肯定很高,会优先解决。但实际上, regexp 确实需要改进,只是优先级不高而已。

    [1] https://swtch.com/~rsc/regexp/regexp1.html
    [2] https://github.com/golang/go/issues/11646
    关于     帮助文档     自助推广系统     博客     API   span class="snow">   FAQ     Solana     967 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 20:13 PVG 04:13 LAX 13:13 JFK 16:13
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86