PHP 处理百万级 execl - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘 AI 生成的内容
test123abc
V2EX    程序员

PHP 处理百万级 execl

  •  
  •   test123abc 2024-04-23 22:22:41 +08:00 2579 次点击
    这是一个创建于 534 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目前有个需求是导入两个百万级数据的 excel ,关联处理后导出新的 excel 。
    我想先使用 box/spout 先读取,处理后导出,感觉会卡死,请问下大家有更好的办法吗。
    18 条回复
    lait123
        1
    lait123  
       2024-04-23 22:42:08 +08:00   2
    你可能需要 xlswriter: https://github.com/viest/php-ext-xlswriter
    Mithril
        2
    Mithril  
       2024-04-23 22:43:51 +08:00
    都搞到 SQLite 里,查出来再写 Excel 或者 CSV 。

    如果不算高频操作,你甚至都不用写代码,找个 GUI 的客户端录个自动化脚本都行。
    mumbler
        3
    mumbler  
       2024-04-23 22:45:12 +08:00
    这种级别数据需要异步处理,excel 单表最多 100 万,超过会分到下一个 sheet
    abccccabc
        4
    abccccabc  
       2024-04-23 22:47:30 +08:00
    导出的时候配合 layui-excel 试下,印象中说百万数据没问题,就看客户端的内存了。
    sagaxu
        5
    sagaxu  
       2024-04-23 23:15:12 +08:00 via Android
    这种应该用 csv ,excel 不是好的选择
    test123abc
        6
    test123abc  
    OP
       2024-04-24 06:41:47 +08:00 via iPhone
    @Mithril 老哥能细说下吗,没了解过这些
    test123abc
        7
    test123abc  
    OP
       2024-04-24 06:43:58 +08:00 via iPhone
    @sagaxu 老哥能细说下吗
    sagaxu
        8
    sagaxu  
       2024-04-24 08:59:18 +08:00
    @test123abc

    excel 不适合的原因:

    1. 最大行数 100 万行,百万级的数据量稍微再大点就超了
    2. 超过 20 万行后,十分消耗资源,office 打开容易卡容易崩
    3. 兼容性,csv 拥有最广泛的兼容性,各大 db 支持导出 csv ,excel 不如
    4. 解析不方便,csv 按行处理不用库也很容易解析,excel 要先解压,有些库是一次性全部解压到内存。带公式带宏或者其它特殊信息的 excel 可能解析错误。
    codebs
        9
    codebs  
       2024-04-24 10:20:49 +08:00
    xlswriter 可以满足你的需求,可以分表打包成压缩包下载
    Mithril
        10
    Mithril  
       2024-04-24 10:25:45 +08:00
    @test123abc 简单地说,就是不要用 Excel 去处理包含大量数据的复杂查询。
    它就是个电子表格,那就让它做电子表格该做的事。想要把它当数据库用,那就找个数据库软件。

    SQLite 就是个数据库,单文件,性能也不差。比起其他数据库,能更简单的运行起来,也有更多的软件支持。所以建议你先把数据搞到数据库里,然后用 SQL 做关联查询,结果再写出来。

    Microsoft Access 也行,你自己会用哪个就选哪个。
    8355
        11
    8355  
       2024-04-24 14:15:21 +08:00
    chenshiforever
        12
    chenshiforever  
       2024-04-24 16:13:39 +08:00
    要我来写,最简单的就是 js 读出来,保存在数组里面,关联处理了,保存成文本文件,完事。
    lulu00147
        13
    lulu00147  
       2024-04-24 16:18:31 +08:00
    大哥你先把 excel 转成 csv 用 rust 写的这个
    https://github.com/zitsen/xlsx2csv.rs/releases
    然后把 csv 导入 mysql
    在查询导出就行了
    pota
        14
    pota  
    2024-04-24 16:33:56 +08:00
    大量数据的输入输出都尽量使用 csv 来进行,一方面是可以按行处理,一方面也不需要导入库。还有超大量的数据处理最好用异步。
    test123abc
        15
    test123abc  
    OP
       2024-04-24 16:42:13 +08:00 via iPhone
    @lulu00147
    @pota 多 sheet 的 excel ,用的 tp 框架
    jackerbauer
        16
    jackerbauer  
       2024-04-24 17:03:56 +08:00
    你可能需要 xlswriter: https://github.com/viest/php-ext-xlswriter
    wxf666
        17
    wxf666  
       2024-04-24 18:03:17 +08:00
    为嘛不用 DuckDB 呢?它支持直接读取 xlsx 呀。。

    速度上,之前的 1BRC (十亿行文本)挑战里,它能做到(普通人 SQL 写法)计算只用 5 秒钟。

    或者,23 亿词 13GB 的英文维基文本,计算 TOP 1000 高频词,i5-8250U 轻薄本上,单线程下,只需 3 分钟,500MB 内存。。

    如果你用 PHP 不能做到,更快更省资源,用用它也不错呀。。

    反正我用 Java 一般写法,都要 6 分钟,2GB 内存。。

    用 C++ 来写,也才勉强和它打平。。

    test123abc
        18
    test123abc  
    OP
       2024-04-25 11:29:31 +08:00 via iPhone
    是要在内部的后台给运营人员开一个处理 excel 的地方
    现在使用 xlswriter ,将 excel 转为 csv ,然后将 csv 导入数据库,在读取后处理导出,问题是 excel 转为 csv 时,如果是 00123 这种数据,转换后会变成 123 ,而且 csv 字段如果是科学计数法倒入数据库时会乱
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5580 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 06:36 PVG 14:36 LAX 23:36 JFK 02:36
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86