Selenium抓不到内容的示例分析

蜗牛互联网技术资讯2021-12-182720

这篇文章主要为大家展示了“Selenium抓不到内容的示例分析”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“Selenium抓不到内容的示例分析”这篇文章吧。

有一些同学在写爬虫的时候，过于依赖 Selenium，觉得只要使用模拟浏览器，在不被网站屏蔽的情况下，就可以爬到任何内容。

我们不讨论字体反爬虫和 CSS 反爬虫这两种情况。我们来看一段非常简单的网页。这个网页只有一个HTML 文件，不加载特殊字体，不加载 CSS 文件。

Selenium抓不到内容的示例分析 selenium clash免费节点第1张

这个网页的奇怪之处在哪里呢?我们试一试使用 XPath Helper 来提取网页上面的红色文字，发现XPath 竟然无法找到这段文字，如下图所示：

Selenium抓不到内容的示例分析 selenium clash免费节点第2张

然后我们使用 Selenium 来试一试：

Selenium抓不到内容的示例分析 selenium clash免费节点第3张

Selenium果然无法获取红字到内容。我们再打印一下网页的源代码：

Selenium抓不到内容的示例分析 selenium clash免费节点第4张

这一次，Selenium 获取到的源代码，竟然跟 Chrome 开发者工具里面显示的源代码不一样?

这个问题的关键，就在开发者工具里面的这样一段文字：

Selenium抓不到内容的示例分析 selenium clash免费节点第5张

因为这个节点是一个shadow DOM[1]。shadow DOM 的行为跟 iframe很像，都是把一段HTML 信息嵌入到另一个 HTML 中。但不同的是，iframe被嵌入的地址需要额外再搭建一个 HTTP服务，而 shadow DOM 可以只嵌入一段 HTML 代码，所以它比 iframe 更节省资源。

在上面的截图中，通过下面这三行代码，我们把一个新的

标签嵌入到了原来的 HTML 中：

var content = document.querySelector('.content');     var root = content.attachShadow({mode: 'open'});     root.innerHTML = '<p class="real_content" style="color: red">你抓不到这段文字的！</p>'

而这个被嵌入的影子标签，就像 iframe 一样，是无法直接使用 Selenium 提取的。如果强行提取，那么，我们需要使用 JavaScript 获取 shadow DOM，然后再进行提取。我们来看一段可以正常工作的代码：

shadow = driver.execute_script('return document.querySelector(".content").shadowRoot') content = shadow.find_element_by_class_name('real_content') print(content.text)

运行效果如下图所示：

Selenium抓不到内容的示例分析 selenium clash免费节点第6张