如何在 Python 中对 URL 中的波浪号（~）进行编码？

霞舞 2025-12-26 00:00:00 次阅读

python 的 `urllib.parse.quote()` 默认不编码波浪号 `~`，因为它是 rfc 3986 定义的“未保留字符”，属于 url 合法字符；若需强制编码为 `%7e`，需显式指定 `safe` 参数为空字符串或自定义编码逻辑。

在构建 URL 或构造请求参数时，正确处理特殊字符至关重要。虽然波浪号 ~ 在 URL 中是合法且无需转义的字符（根据 RFC 3986），其标准编码形式为 %7E，但 Python 的 urllib.parse.quote() 默认将其列入 safe 字符集（即不编码），因此直接调用 quote() 不会转换 ~。

✅ 正确做法：显式控制 safe 参数

要强制对 ~ 编码，需将 safe 设为空字符串（''），表示不豁免任何字符：

from urllib.parse import quote

input_string = 'https://bla/ble:bli~'
url_encoded = quote(input_string, safe='')  # 关键：safe=''
print(url_encoded)
# 输出: https%3A%2F%2Fbla%2Fble%3Abli%7E

? 注意：safe='~'（默认行为）表示“~ 是安全的，不要编码”；而 safe='' 表示“没有任何字符是安全的，全部编码”。

⚠️ 常见误区辨析

❌ quote(input_string) → ~ 保持原样（因默认 safe='/'，且 ~ 本身被内部视为安全）
❌ quote(input_string, safe='~') → ~ 仍不编码（显式将其加入安全集）
✅ quote(input_string, safe='') → 所有非字母数字字符（包括 ~, /, :, . 等）均被编码

? 扩展方案：精准控制需编码的字符

若仅想编码特定符号（如 ~, {, }, [, ] 等），又不想过度编码 / 或 :（它们在 URL 路径中通常需保留），可使用 safe 参数排除目标字符：

from urllib.parse import quote

input_string = 'https://bla/ble:bli~{test}'
# 仅对 ~ { } 编码，保留 / : 等路径关键字符
url_encoded = quote(input_string, safe='/:')
print(url_encoded)
# 输出: https://bla/ble:bli%7E%7Btest%7D

? 替代方案：使用 requests.utils.requote_uri

如果你已引入 requests 库，它提供更鲁棒的 URL 重编码工具，能自动识别并标准化已部分编码的 URL：

import requests

url = 'https://bla/ble:bli~'
encoded = requests.utils.requote_uri(url)
print(encoded)  # https%3A//bla/ble%3Abli%7E

该方法会智能处理混合编码（如 https%3A//bla/ble:bli~），确保最终 URL 完全合规。

? 总结建议

✅ 优先使用 quote(s, safe='') 实现完全编码（适合构造查询参数等场景）；
✅ 若需保留路径分隔符 / 和协议冒号 :，请显式设置 safe='/:'；
⚠️ 避免手动拼接十六进制编码（如原答案中的自定义函数），易出错且不符合标准（例如未处理 Unicode、未区分 path 与 query 编码规则）；
? 记住：URL 编码应遵循上下文——路径段（path）和查询参数（query）的 safe 策略不同，urllib.parse.quote_plus() 更适合表单数据，而 quote() 更适合路径片段。

正确理解 safe 参数的语义，是精准控制 URL 编码行为的关键。