Python 常见编码错误 UnicodeDecodeError 和 UnicodeEncodeError 的原理和解决方案
基础概念
字符
character 构成文本的最小组成单元
字节
byte 数据在计算机内部的存储单元,一个字节等于一个8位的比特,计算机中的所有数据都是由字节组成
字符集
Character set 由多个字符的组成的集合,常见的字符集有ASCII、Unicode、GB2312等
字符编码值
不同的字符集规定了不同的编码规则,编码规则中规定了字符对应的编码值 code point,一个整数值
编码
将字符集中的字符码根据 code point 映射为字节流(byte sequence)的一种具体实现
解码
将字节流解析为字符集中的字符