Python怎么解析XML Python解析XML的三种方法

Python解析XML最常用三种方法是:xml.etree.ElementTree(标准库,简洁轻量,适合新手和日常任务)、lxml(功能强、速度快,支持XPath/CSS选择器,适合复杂查询和大文件)、minidom(DOM风格,便于理解XML结构,适合教学和小文件)。

Python解析XML最常用、最实用的三种方法是:xml.etree.ElementTree(标准库,推荐新手入门)、lxml(功能强、速度快,支持XPath和CSS选择器)、minidom(DOM风格,适合小文件和教学理解)。选哪种取决于你的需求:简单读取用ElementTree,需要XPath或处理大文件用lxml,想理解DOM模型可试试minidom。

1. xml.etree.ElementTree —— 标准库,够用又轻量

这是Python自带的模块,无需安装,语法简洁,适合大多数日常XML解析任务(如配置文件、RSS、简单API响应)。

  • ET.parse()加载文件,或ET.fromstring()解析字符串
  • 通过.find().findall().iter()快速定位元素
  • .text取文本内容,.attrib取属性字典
  • 示例:root = ET.parse("data.xml").getroot(); title = root.find("title").text

2. lxml —— 功能全面,性能优秀

需用pip install lxml安装。它兼容ElementTree接口,还额外支持XPath 1.0、CSS选择器、XSLT、DTD验证等,解析速度也更快,适合中大型项目或复杂查询。

  • 基本用法和ElementTree几乎一样:from lxml import etree
  • 支持XPath:titles = root.xpath("//book/title/text()")
  • 支持CSS选择器:books = root.cssselect("book.author[name='Alice']")
  • 对格式不规范的XML容错性更好(自动修复常见错误)

3. xml.dom.minidom —— DOM风格,适合理解结构

也是标准库,按W3C DOM规范建模,所有节点(元素、文本、属性)都是对象,适合学习XML树形结构,但代码稍冗长、内存占用高,不推荐用于大文件。

  • minidom.parse()minidom.parseString()加载
  • 通过.getElementsByTagName().childNodes.getAttribute()操作
  • 获取文本需手动遍历子节点:node.firstChild.data
  • 适合调试查看结构,比如dom.toprettyxml()美化输出

基本上就这些。ElementTree够日常,lxml更强大灵活,minidom帮你建立DOM直觉——不复杂但容易忽略细节,动手试一次比看十篇文档都管用。