str.encode() / bytes.decode() 时报 UnicodeEncodeError/UnicodeDecodeError 的解决

冰川箭仙 2026-01-20 00:00:00 次阅读

Unicode编码错误本质是编解码不匹配，须明确数据源编码（如GBK/UTF-8/GB2312），显式指定encoding参数，优先用open()的encoding自动处理，避免依赖默认值或errors兜底。

遇到 UnicodeEncodeError 或 UnicodeDecodeError，本质是编码不匹配：Python 尝试用错误的字符编码去转换字符串和字节。关键不是“怎么绕过去”，而是“明确知道该用什么编码”。

错误常发生在读文件、收网络响应、处理用户输入时——Python 不会自动猜编码。比如：

解决方法：查源头。看文件保存时选的编码、HTTP 的 Content-Type 头、文档说明，或用命令行工具如 file -i filename（Linux/macOS）粗略判断。

别依赖默认值。UTF-8 是推荐，但不是万能：

'你好'.encode('utf-8') → 正确；
'你好'.encode('ascii') → 报 UnicodeEncodeError（ASCII 不支持中文）；
b'\xc4\xe3\xba\xc3'.decode('utf-8') → 报 UnicodeDecodeError（这是 GBK 编码的“你好”，用 UTF-8 解会错）；
b'\xc4\xe3\xba\xc3'.decode('gbk') → 正确。

写代码时，只要涉及 .encode() 或 .decode()，就手动写上 encoding='xxx'，不省略。