c++怎么进行字符串的URL编码与解码_c++ 特殊字符转义处理逻辑【实战】_技术教程

最稳妥的URL编解码需手动查表：编码保留A-Z、a-z、0-9及-_.~，空格转%20，中文等先转UTF-8再编码；解码须严格校验%XX格式，大小写不敏感，不自动转码。

URL 编码：用 `std::ostringstream` + 手动查表最稳妥

标准 C++ 没有内置 URL 编码函数，std::urlencode 不存在，别被某些文档误导。最可靠的方式是遍历字符串，对非字母数字及 -_.~ 字符做百分号编码。

注意：RFC 3986 明确规定只保留 A-Z a-z 0-9 - _ . ~ 不编码，空格必须转为 %20（不是 +），这点和 application/x-www-form-urlencoded 不同。

不要用 std::hex 直接输出小写十六进制——需补前导零并强制大写（如 ' ' → "%20"，不是 "%2"）
中文、emoji 等需先转 UTF-8 字节序列再编码，不能直接 cast char ——否则多字节字符会乱码
常见错误：把 '/' 或 ':' 漏掉编码，导致生成的 URL 被解析器截断

std::string url_encode(const std::string& s) {
    std::ostringstream ret;
    for (unsigned char c : s) {
        if (std::isalnum(c) || c == '-' || c == '_' || c == '.' || c == '~') {
            ret << c;
        } else {
            ret << '%' << std::uppercase << std::hex << std::setw(2) << std::setfill('0') << (int)c;
        }
    }
    return ret.str();
}

URL 解码：逐字节解析 `%XX`，拒绝无效序列

解码比编码更易出错。核心是识别 % 后跟两个十六进制字符，且必须严格校验——%G1、%1、%123 都应原样保留或报错，不能静默忽略。

UTF-8 安全解码的关键：解码后得到的是 raw bytes，**不自动转码**；若原始是 UTF-8 字符串，解码结果自然仍是合法 UTF-8，无需额外转换。

遇到孤立 % 或不完整十六进制（如 %A），跳过 % 并保留后续字符，避免崩溃
不建议用 std::stoi(..., nullptr, 16)——它会截断非十六进制字符，导致 %ZZ 变成 0
大小写不敏感：%aF 和 %AF 都应解为 0xAF

std::string url_decode(const std::string& s) {
    std::string ret;
    ret.reserve(s.size());
    for (size_t i = 0; i < s.size(); ++i) {
        if (s[i] == '%' && i + 2 < s.size()) {
            int hex_val;
            if (std::isxdigit(s[i+1]) && std::isxdigit(s[i+2]) &&
                sscanf(s.c_str() + i + 1, "%2x", &hex_val) == 1) {
                ret += static_cast(hex_val);
                i += 2;
                continue;
            }
        }
        ret += s[i];
    }
    return ret;
}

处理中文和 emoji：必须先 UTF-8 编码再 URL 编码

C++ std::string 本身不区分编码，但 URL 编码操作对象必须是 UTF-8 字节流。如果你拿到的是 std::u8string（C++20）或 std::wstring（Windows 宽字符），得先转 UTF-8。

Linux/macOS 下，std::string 通常就是 UTF-8，可直接传入 url_encode()
Windows 控制台默认是 GBK，读取中文文件或用户输入时，需用 std::wstring_convert<:codecvt_utf8>>（C++17 前）或 std::from_bytes（C++23）转 UTF-8
别对已编码的字符串重复编码——比如 url_encode(url_encode("你好")) 会产生 %25E4%25BD%25A0（% 被二次编码）