c++如何解析HTTP协议响应头_c++ 状态码识别与字段提取【实战】

HTTP响应头解析核心难点是换行符混用(CRLF/LF)导致切分不可靠,须先定位空行分隔头/体,再归一化换行符并逐行解析,状态行单独处理,字段名需忽略大小写比较,值需清理空白和'\r'。

HTTP响应头解析的核心难点在换行与字段分隔

直接用 std::string::find 扫描 "\r\n""\n" 不可靠——真实响应可能混用 CRLF("\r\n")和 LF("\n"),尤其在测试 mock 服务或某些嵌入式 HTTP 实现中。必须先定位响应体起始位置,即首个空行(连续的 "\r\n\r\n""\n\n"),再对前面部分逐行切分。

std::getline 拆解响应头时要指定分隔符

默认 std::getline'\n' 为界,但若原始数据含 "\r\n",会导致首行末尾残留 '\r',后续 std::string::find(":") 失败。安全做法是:先统一将 "\r\n" 替换为 "\n",再用 std::getline(..., '\n') 拆行;或手动查找 "\n" 并截取子串,显式去除两端空白与 '\r'

  • 状态行必须单独处理:第一行格式为 "HTTP/1.1 200 OK",用空格分割后取第二个字段即状态码
  • 字段名不区分大小写,但建议转小写后再比对(如 "content-length" 而非 "Content-Length"
  • 字段值可能跨行(带续行空格),实际生产环境极少出现,可暂不支持;若需兼容,需检查下一行是否以 ' ''\t' 开头

提取 Content-LengthConnection 的典型代码片段

以下示例假设已将响应头部分(不含 body)存入 std::string headers,且已完成 CRLF 归一化:

size_t pos = 0;
std::string status_line;
if ((pos = headers.find('\n')) != std::string::npos) {
    status_line = headers.substr(0, pos);
    // 解析状态码:跳过 "HTTP/1.x " 后取数字
    size_t code_start = status_line.find(' ');
    if (code_start != std::string::npos) {
        code_start++;
        size_t code_end = status_line.find(' ', code_start);
        std::string code_str = status_line.substr(code_start, code_end - code_start);
        int status_code = std::stoi(code_str); // 可加 try/catch
    }
}

// 遍历其余字段 std::istringstream iss(headers.substr(pos + 1)); std::string line; while (std::getline(iss, line, '\n')) { if (line.empty()) continue; size_t colon = line.find(':'); if (colon == std::string::npos) continue; std::string key = line.substr(0, colon); std::string value = line.substr(colon + 1); // 去除 key/value 首尾空格和 '\r' key.erase(0, key.find_first_not_of(" \t\r")); key.erase(key.find_last_not_of(" \t\r") + 1); value.erase(0, value.find_first_not_of(" \t\r")); value.erase(value.find_last_not_of(" \t\r") + 1);

if (_stricmp(key.c_str(), "content-length") == 0) {
    content_length = std::stoll(value);
} else if (_stricmp(key.c_str(), "connection") == 0) {
    connection_type = value;
}

}

Windows *意 _stricmp 与 Linux 的 strcasecmp 兼容性

跨平台项目中,字段名比较不能直接用 ==。MSVC 提供 _stricmp,GCC/Clang 用 strcasecmp,二者行为一致但符号不同。更稳妥的做法是自己实现忽略大小写的比较函数,或用 std::equal 配合 std::tolower

  • 避免依赖 CRT 扩展函数,减少编译差异
  • std::stoll 在非法字符串时抛 std::invalid_argument,务必捕获
  • 某些服务器返回 Transfer-Encoding: chunked 时,Content-Length 不存在,此时不能假定字段一定存在

真正难的不是切分,而是应对不规范响应——比如缺失状态行、字段名含空格、值内含未转义冒号。生产级解析器往往退回到状态机或正则,但多数内部工具只需处理标准服务,按上述流程已足够稳定。