c++ substr用法详解_c++截取字符串教程

substr是std::string成员函数,参数pos为起始位置(pos==size()返回空串,pos>size()抛异常),len为字符个数(超长则自动截断);常见错误是误将len当作结束下标。

substr 函数签名和参数含义

substrstd::string 的成员函数,不是全局函数,也不能用于 C 风格字符串(char*)。它的两种重载形式为:

string substr(size_t pos = 0) const;
string substr(size_t pos, size_t len) const;

第一个参数 pos 是起始位置(从 0 开始),第二个参数 len 是要截取的字符个数(不是结束下标)。

  • 如果 pos == size(),返回空字符串 ""
  • 如果 pos > size(),抛出 std::out_of_range
  • 如果 len 超出剩余长度,自动截断到末尾,不会报错

常见错误:越界、混淆 len 和 end_pos

最常踩的坑是把 substr 当成 Python 的切片用,误以为第二个参数是“结束位置”:

std::string s = "hello";
std::string bad = s.substr(1, 3); // ✅ 截取 "ell"(从索引1开始,取3个)
std::string good = s.substr(1, 4); // ✅ "ello"
std::string wrong = s.substr(1, 4); // ❌ 你以为这是 [1:4]?其实它就是取3个字符,不是到索引4

注意:s.substr(1, 4) 不等于 s[1]..s[4](C++ 中 s[4] 是最后一个字符,s[5] 才越界);它等于从 s[1] 开始,拿 4 个字符 —— 只要够长。

立即学习“C++免费学习笔记(深入)”;

  • 想模拟 [start, end) 行为?用 s.substr(start, end - start),但必须先校验 end >= start && end
  • 直接传 std::string::nposlen 参数,等价于“取到末尾”

性能与所有权:substr 不共享内存

substr 返回的是一个**新分配的 std::string 对象**,内部会拷贝字符。它不借用原字符串的缓冲区,也不使用写时复制(C++11 起标准禁止 SSO 外的写时复制,主流实现均深拷贝)。

  • 对大字符串频繁调用 substr 可能引发明显内存分配和拷贝开销
  • 如只需读取片段且生命周期可控,考虑用 std::string_view 替代:std::string_view(s).substr(pos, len),零拷贝
  • std::string_view::substr 行为一致,但不抛异常:当 pos > size() 时行为未定义(实际中多数实现崩溃或返回空)

边界场景实测:pos 越界和 len 为 0

以下行为在所有符合标准的实现中是一致的:

std::string s = "abc";
s.substr(0, 0);   // → ""
s.substr(3, 0);   // → ""(pos == size() 合法)
s.substr(3, 1);   // → ""(len 被静默截断)
s.substr(4, 0);   // → 抛 std::out_of_range(pos > size())
s.substr(2, 10);  // → "c"(len 超出,自动截断)

特别注意:pos == s.size() 是合法的,返回空串;但 pos == s.size() + 1 就越界了。别依赖 s[s.size()]'\0' 就觉得 substr(s.size(), 1) 安全 —— 它不安全。

真正容易被忽略的是:substrsize_t 类型意味着传负数会整型回绕成极大值,直接触发异常。永远不要对用户输入或计算结果不做检查就塞进 substr