如何在 Python 中对 URL 中的波浪号(~)进行编码?

python 的 `urllib.parse.quote()` 默认不编码波浪号 `~`,因为它是 rfc 3986 定义的“未保留字符”,属于 url 合法字符;若需强制编码为 `%7e`,需显式指定 `safe` 参数为空字符串或自定义编码逻辑。

在构建 URL 或构造请求参数时,正确处理特殊字符至关重要。虽然波浪号 ~ 在 URL 中是合法且无需转义的字符(根据 RFC 3986),其标准编码形式为 %7E,但 Python 的 urllib.parse.quote() 默认将其列入 safe 字符集(即不编码),因此直接调用 quote() 不会转换 ~。

✅ 正确做法:显式控制 safe 参数

要强制对 ~ 编码,需将 safe 设为空字符串(''),表示不豁免任何字符

from urllib.parse import quote

input_string = 'https://bla/ble:bli~'
url_encoded = quote(input_string, safe='')  # 关键:safe=''
print(url_encoded)
# 输出: https%3A%2F%2Fbla%2Fble%3Abli%7E
? 注意:safe='~'(默认行为)表示“~ 是安全的,不要编码”;而 safe='' 表示“没有任何字符是安全的,全部编码”。

⚠️ 常见误区辨析

  • ❌ quote(input_string) → ~ 保持原样(因默认 safe='/',且 ~ 本身被内部视为安全)
  • ❌ quote(input_string, safe='~') → ~ 仍不编码(显式将其加入安全集)
  • ✅ quote(input_string, safe='') → 所有非字母数字字符(包括 ~, /, :, . 等)均被编码

? 扩展方案:精准控制需编码的字符

若仅想编码特定符号(如 ~, {, }, [, ] 等),又不想过度编码 / 或 :(它们在 URL 路径中通常需保留),可使用 safe 参数排除目标字符:

from urllib.parse import quote

input_string = 'https://bla/ble:bli~{test}'
# 仅对 ~ { } 编码,保留 / : 等路径关键字符
url_encoded = quote(input_string, safe='/:')
print(url_encoded)
# 输出: https://bla/ble:bli%7E%7Btest%7D

? 替代方案:使用 requests.utils.requote_uri

如果你已引入 requests 库,它提供更鲁棒的 URL 重编码工具,能自动识别并标准化已部分编码的 URL:

import requests

url = 'https://bla/ble:bli~'
encoded = requests.utils.requote_uri(url)
print(encoded)  # https%3A//bla/ble%3Abli%7E

该方法会智能处理混合编码(如 https%3A//bla/ble:bli~),确保最终 URL 完全合规。

? 总结建议

  • 优先使用 quote(s, safe='') 实现完全编码(适合构造查询参数等场景);
  • ✅ 若需保留路径分隔符 / 和协议冒号 :,请显式设置 safe='/:';
  • ⚠️ 避免手动拼接十六进制编码(如原答案中的自定义函数),易出错且不符合标准(例如未处理 Unicode、未区分 path 与 query 编码规则);
  • ? 记住:URL 编码应遵循上下文——路径段(path)和查询参数(query)的 safe 策略不同,urllib.parse.quote_plus() 更适合表单数据,而 quote() 更适合路径片段。

正确理解 safe 参数的语义,是精准控制 URL 编码行为的关键。