基于python,中文汉字如何转unicode编码?编码转汉字
发布于 作者:苏南大叔 来源:程序如此灵动~

上一篇文章里面,苏南大叔猜测LabelEncoder
对汉字进行编码后,是按照unicode
编码表进行排序的。那么,是不是如苏南大叔所猜测的那样呢?这就引出了本文的内容:汉字如何转unicode
编码?unicode
编码又如何再次转为汉字呢?

苏南大叔的“程序如此灵动”博客,记录苏南大叔的编程经验文章。测试环境:win10
,python@3.12.0
。本文的核心函数就是ord()
和chr()
,这和其它的高级编程语言里面是一样一样的。
标准写法里面,前面一个斜线加一个字母u
。参考链接:https://tool.chinaz.com/tools/unicode.aspx
汉字转编码
测试代码:
如果换成更常见的unicode
写法的话:

汉字要一个一个的ord()
,整体ord()
会报错。
想测试获得一系列汉字的unicode
编码的话,可以使用这种很好用的表达式:
编码转汉字
根据输入项的不同,可以有不同的还原成汉字的方式:
十进制数字
如果输入项是十进制数字,例如:33487
,那么就使用chr()
来进行还原。
十六进制数字
如果输入项是十六进制数字,例如:0x82cf
,那么可以有两种方法进行还原:
或者:

unicode 格式编码
如果输入项目是unicode
格式的字符串,例如\\u82cf
,那么可以下面这样还原:
还可以这样还原:
题外话:16进制和10进制
十六进制(简写为hex或下标16)是一种基数为16的计数系统,是一种逢16进1的进位制。通常用数字0、1、2、3、4、5、6、7、8、9和字母A、B、C、D、E、F(a、b、c、d、e、f)表示,其中:A~F表示10~15,这些称作十六进制数字。
这个报错有点措手不及...
上一个问题
回到下面这篇文章,LabelEncoder
的.classes_
的顺序,极有可能就是unicode
编码排序(不限于数字字母汉字)。
相关文章
结语
更多由苏南大叔带来的python
经验文字,请点击下面的链接:


