中文和日文中有很多相同的文字,虽然读音不一样,但是书写是一样的。我很好奇在utf-8中的编码是否一样,于是写了几行Python代码验证了一下:
--------------------------------------------------------------------------------------------
#coding=utf-8
j = u"最近の更新" #从维基百科日本站粘贴到编辑器
c = u"最近的更新" #自己手动输入
print repr(j.encode('utf-8'))
print repr(c.encode('utf-8'))
输出:
'\xe6\x9c\x80\xe8\xbf\x91\xe3\x81\xae\xe6\x9b\xb4\xe6\x96\xb0'
'\xe6\x9c\x80\xe8\xbf\x91\xe7\x9a\x84\xe6\x9b\xb4\xe6\x96\xb0'
--------------------------------------------------------------------------------------------
惊奇的发现同形字编码一样。
想问下,是我实验有问题,还是结论就是这样?
--------------------------------------------------------------------------------------------
#coding=utf-8
j = u"最近の更新" #从维基百科日本站粘贴到编辑器
c = u"最近的更新" #自己手动输入
print repr(j.encode('utf-8'))
print repr(c.encode('utf-8'))
输出:
'\xe6\x9c\x80\xe8\xbf\x91\xe3\x81\xae\xe6\x9b\xb4\xe6\x96\xb0'
'\xe6\x9c\x80\xe8\xbf\x91\xe7\x9a\x84\xe6\x9b\xb4\xe6\x96\xb0'
--------------------------------------------------------------------------------------------
惊奇的发现同形字编码一样。
想问下,是我实验有问题,还是结论就是这样?
