大家好,我做了个小玩意儿。
基于 ClickHouse 引擎的 Python 嵌入式数据库 chDB 。由于 ClickHouse 的强大功能,chDB 支持在几乎所有的数据文件格式上运行 SQL ,输出 60 多种格式。
目前,chDB 仅支持 macOS ( x86_64 和 ARM64 )和 Linux 上的 Python 3.7+。
pip install chdb
目前 chDB 只支持query
函数,用于执行 SQL ,返回想要的格式数据。
import chdb res = chdb.query('select version()', 'CSV'); print(str(res.get_memview().tobytes()))
chdb.query('select * from file("data.parquet", Parquet)', 'CSV') chdb.query('select * from file("data.csv", CSV)', 'CSV')
chdb.query('select * from file("data.parquet", Parquet)', 'Dataframe')
1 kongsys 2023-04-26 07:35:07 +08:00 一楼抢个沙发,顶一下 |
![]() | 2 daxin945 2023-04-26 17:06:47 +08:00 已经 star 加油 |
![]() | 3 ayogo 2023-05-02 05:34:16 +08:00 via Android 有种东西叫做 duckdb ,和你做的这个功能基本上一样 |
![]() | 4 auxten OP @ayogo 你说的对,其实 dask ,data.table ,dplyr ,pandas ,(py)datatable ,spark ,ClickHouse ,Polars ,Arrow ,DuckDB 都可以说是类似的东西。无非是用 Python 在数据上跑 SQL |