如何遍历XML所有节点 Python遍历XML树教程

煙雲 2025-12-29 00:00:00 次阅读

最推荐用xml.etree.ElementTree模块遍历XML：一、root.iter()递归获取所有节点；二、for child in root逐层处理直接子元素；三、findall()支持XPath子集精准定位；四、注意text/tail边界，必要时用lxml获取完整文本。

用Python遍历XML所有节点，最常用、最推荐的方式是使用内置的 xml.etree.ElementTree 模块。它轻量、标准、无需额外安装，适合绝大多数结构化XML解析需求。

ElementTree 的 iter() 方法可递归遍历整棵树的所有元素（即所有开始标签），不管嵌套多深，一行代码就能拿到全部节点。

适用于需要按层级关系处理、或只关心直接子元素的场景。这种遍历不自动深入孙节点，需手动递归或嵌套循环。

ElementTree 支持有限但实用的 XPath 语法，适合精准定位。注意它不支持完整 XPath（如 //node），但 findall('.//node') 可模拟“全树查找”。

单纯遍历节点不够，常需提取结构化数据。注意 text/tail 的边界行为，避免遗漏或重复。

elem.text 是该标签开始后、第一个子标签前的内容；没有子标签时才是全部内容
若要获取“标签内全部纯文本”（含子标签文本），可用 etree.tostring(elem, method='text', encoding='unicode').strip()（需 from lxml import etree）
更稳妥的做法：递归拼接 elem.text + 所有子节点的文本 + elem.tail，但需判空