如何遍历XML所有节点 Python遍历XML树教程

最推荐用xml.etree.ElementTree模块遍历XML:一、root.iter()递归获取所有节点;二、for child in root逐层处理直接子元素;三、findall()支持XPath子集精准定位;四、注意text/tail边界,必要时用lxml获取完整文本。

用Python遍历XML所有节点,最常用、最推荐的方式是使用内置的 xml.etree.ElementTree 模块。它轻量、标准、无需额外安装,适合绝大多数结构化XML解析需求。

一、基础遍历:用 iter() 获取全部节点

ElementTree 的 iter() 方法可递归遍历整棵树的所有元素(即所有开始标签),不管嵌套多深,一行代码就能拿到全部节点。

  • 调用 root.iter() 返回一个迭代器,遍历所有 Element 对象
  • 每个 Element 有 tag(标签名)、text(开始标签后、子元素前的文本)、tail(结束标签后的文本)等属性
  • 若只要特定标签,如所有 ,可写 root.iter('name')

二、逐层遍历:用 for 子节点 in 父节点

适用于需要按层级关系处理、或只关心直接子元素的场景。这种遍历不自动深入孙节点,需手动递归或嵌套循环。

  • for child in root: 只遍历 root 的直接子元素
  • 可在循环内对 child 再次用 for grandchild in child: 向下一层
  • 配合 child.tagchild.text.strip() 提取内容更安全(避免 None 或空白)

三、带路径和条件的遍历:用 findall() 和 XPath 子集

ElementTree 支持有限但实用的 XPath 语法,适合精准定位。注意它不支持完整 XPath(如 //node),但 findall('.//node') 可模拟“全树查找”。

  • root.findall('book/title') 查找 root 下所有 中的直接
  • root.findall('.//author') 查找整棵树中所有 (含任意深度)
  • 结合 get('attr_name') 获取属性值,例如 elem.get('id')

四、提取文本与属性的实用技巧

单纯遍历节点不够,常需提取结构化数据。注意 text/tail 的边界行为,避免遗漏或重复。

  • elem.text 是该标签开始后、第一个子标签前的内容;没有子标签时才是全部内容
  • 若要获取“标签内全部纯文本”(含子标签文本),可用 etree.tostring(elem, method='text', encoding='unicode').strip()(需 from lxml import etree)
  • 更稳妥的做法:递归拼接 elem.text + 所有子节点的文本 + elem.tail,但需判空