c 语言是如何给汉字编码的? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
rookiemaster
V2EX    C

c 语言是如何给汉字编码的?

  •  
  •   rookiemaster 2024-03-18 19:19:36 +08:00 3004 次点击
    这是一个创建于 640 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如下程序:

    #include <stdio.h> int main() { char s[7] = "七 123"; int i; for (i = 0; i < 7; i++) { printf("%d,", s[i]); } } 

    打印出来的结果是:-28,-72,-125,49,50,51,0,
    前面的-28,-72,-125 正是七的 utf8 编码
    要是我想打印出七的 gbk 编码应该怎么办?

    12 条回复    2024-03-19 16:01:11 +08:00
    bczhc
        1
    bczhc  
       2024-03-18 19:32:04 +08:00
    c 语言没有严格规定的字符编码,一般跟系统设定有关。如果只能在程序中获取到 utf-8 ,那就得用 utf8-gbk 转换库
    nullyouraise
        2
    nullyouraise  
       2024-03-18 19:34:13 +08:00
    取决于你这个文件的编码
    rekulas
        3
    rekulas  
       2024-03-18 19:36:38 +08:00
    用 iconv 转 或者手写转换
    rookiemaster
        4
    rookiemaster  
    OP
       2024-03-18 19:40:36 +08:00
    @nullyouraise 谢谢,正解
    PTLin
        5
    PTLin  
       2024-03-18 20:13:50 +08:00   1
    Noicdi
        6
    Noicdi  
       2024-03-18 21:25:07 +08:00 via iPhone   1
    取决于你在编译时的源文件是通过什么字符编码保存的
    BD8NCF
        7
    BD8NCF  
       2024-03-18 21:42:20 +08:00   1
    你的代码文件使用 GBK 就可以得到了。
    现在大部分的 IDE 都使用 utf8
    另外,如果你对编码有兴趣,应该习惯看十六进制才行。
    printf("0x%02X,", s[i]);
    shawndev
        8
    shawndev  
       2024-03-18 21:46:50 +08:00   2
    了解 icu, iconv, chardet 对你的问题很有帮助。
    jim9606
        9
    jim9606  
       2024-03-19 00:56:45 +08:00
    C/C++本身没有定义要用那种字符编码,取决于编译器的处理方式和运行平台。
    如果你的源码文件带 UTF-8 BOM ,当前版本的 MSVC 和 GCC 都会将编译器字面量作为 UTF-8 字符串处理。
    MSVC/GCC 都有选项强制指定编译编码和运行编码。
    转编码的话虽然标准库有 codecvt 库,但应该没啥人用,都用 WideCharToMultiByte/iconv/ICU 。
    dianso
        10
    dianso  
       2024-03-19 02:51:38 +08:00
    用百分比编码比较好
    datadump
        11
    datadump  
       2024-03-19 08:53:20 +08:00
    字符集和编码的区别,这个搞清楚就行
    CLMan
        12
    CLMan  
       2024-03-19 16:01:11 +08:00
    美国是现代计算机的发源地,当时的先驱们只考虑了英文字符,也即是 ASCII 。C 语言诞生的时候,还处于计算机的早期发展阶段(大陆同期还在文革),因此当时只考虑到 ASCII ( char 类型的概念及相关标准库)。

    后来,C 语言流传到各个国家,对汉字等非英文字符的支持,都是非官方标准,需要修改编译器和标准库实现。主要考虑两点:

    - 字符常量的编码,字符串常量被编码为字节存储在库或者可执行文件里面
    - printf 等涉及编码的标准库函数

    再后来,C 标准更新,以增加对非英文字符的支持,比如:

    - C99 支持使用转义字符形式的 Unicode 标识符
    - C11 在语言上支持 u,U,u8 前缀表示的 UTF16,UTF32,UTF8 字符串,在标准库 uchar.h 里提供了 Unicode 支持
    - C23 支持使用 u8 前缀表示的 UTF-8 单字节字符

    ------

    字符集和字符编码应当是 CS 专业的基础知识(计算机科学概论),ASCII,ISO-8859,,GBK,Unicode(包括 UCS-2,UCS-4),UTF-8&UTF-16&UTF-32(以及 LE,BE,BOM)是计算机发展史在字符上的一个切面,可以参考阮一峰的博文: https://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2834 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 14:33 PVG 22:33 LAX 06:33 JFK 09:33
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86