一、简介
1、什么是XPath
1)XPath是W3C的一个标准
2)XPath 是一门在 XML 文档中查找信息的语言。
3)XPath 用于在 XML 文档中通过元素和属性进行导航。
4)XPath 使用路径表达式在 XML 文档中进行导航
5)XPath 包含一个标准函数库
2、XPath 节点
1)XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档节点(或称为根节点)。
2)选取节点:XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。
- 常用路径表达式:
表达式描述nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.选取当前节点。..选取当前节点的父节点。@选取属性。
路径表达式结果bookstore选取 bookstore 元素的所有子节点。/bookstore
选取根元素 bookstore。
注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!
bookstore/book选取属于 bookstore 的子元素的所有 book 元素。//book选取所有 book 子元素,而不管它们在文档中的位置。bookstore//book选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。//@lang选取名为 lang 的所有属性。
- 选取若干路径:通过在路径表达式中使用“|”运算符,您可以选取若干个路径。
路径表达式结果//book/title | //book/price选取 book 元素的所有 title 和 price 元素。//title | //price选取文档中的所有 title 和 price 元素。/bookstore/book/title | //price选取属于 bookstore 元素的 book 元素的所有 title 元素,以及文档中所有的 price 元素。转载于:https://www.cnblogs.com/value-code/p/8298390.html
相关资源:python爬虫之xpath的基本使用详解