XPath中选取“不包含某个子节点”的元素需用not()函数否定子节点存在性,如//div[not(p)]选无p子元素的div,注意not()判断存在而非内容为空。
XPath 中想选“不包含某个子节点”的元素,核心是用 not() 函数配合子节点判断,关键在于写对谓词里的条件逻辑。
要选取**没有特定子元素**的父元素,把 not() 放在方括号里,里面写“它有这个子节点”的反向表达:
//div[not(p)] —— 选取所有 中,不含任何 子元素
的那些
-
//ul[not(li[@class='hidden'])] —— 选取不含 class="hidden" 的 子项的
-
//section[not(heading | h1 | h2)] —— 选取既没有 ,也没有 或 子节点的
注意:not() 判断的是“是否存在”,不是“是否为空”
常见误区是以为 not(p) 表示“p 标签内容为空”,其实不是:
-
→ p 元素存在(哪怕为空),所以 //div[not(p)] 不会选中它
-
纯文本 → 没有 p 子元素,//div[not(p)] 会选中它
- 如果真要找“p 存在但内容为空”,得写:
//div[p and normalize-space(p) = '']
进阶:排除含特定子结构的元素
not() 可嵌套更复杂的路径,比如排除带链接的段落:
-
//p[not(a)] —— 不含 子标签的段落
-
//p[not(./a[@href])] —— 不含带 href 属性的 a 标签的段落(更精确)
-
//article[not(footer or div[@class='ad'])] —— 排除含 或广告 div 的文章
替代方案:用 count() 有时更直观
当逻辑稍复杂、或需要兼容老版本 XPath(如某些 IE
场景),可用 count() 模拟 not:
-
//div[count(p) = 0] 等价于 //div[not(p)]
-
//table[count(tr[@class='summary']) = 0] → 找不含 summary 类行的表格
- 优点是语义直白;缺点是性能略低(需计数),且不如 not() 简洁
基本上就这些。not() 的本质就是“否定存在性”,只要把你想排除的子节点路径写进括号里,再取反,就能精准定位干净的父元素。