优草派 > Python

什么是Xpath?带你了解Xpath:网页解析神器

陈立鑫         优草派

本篇文章小编给大家带来一个非常有意思的功能,那就是使用XPath数据提取,如果感兴趣的小伙伴一定要认真看完小编的这篇文章,相信大家如果看完之后一定会对Xpath有更深一步了解。

什么是Xpath?带你了解Xpath:网页解析神器

首先我们来介绍XML

XML称为可扩展标记语言,它在互联网数据传输中充当着非常重要的工具,它可以跨越互联网任何的平台,不受编程语言和操作系统的限制,我们可以把它理解成一个拥有着互联网最高级别的绿卡通行证数据携带者,和HTML非常类似。

他们两个的主要区别在于HTML主要用来显示数据,XML是用来传输数据。

XML都是标签闭合的。例如: …  成对出现。

冰与火之歌    乔治 马丁    2005    365.00        
哈利波特与死亡圣器    J K. 罗琳    2005    48.98        
python编程-从入门到放弃    挖掘机小王子    2048    99.00        
python编程-从看懂到看开    尼古拉斯-赵四    2003    39.95

在上面的xml语法中存在父子,先辈等关系。

我们再来了解一下主角----XPath

XPath是一门基于在XML文档中查找信息的语言,可用来在 XML/HTML 文档中对元素和属性进行遍历,并提取相应元素。

也是一种数据提取方式,只不过针对的是HTML/XML数据,因为爬虫主要和HTML页面打交道。

下表是XPath常用的规则:

什么是Xpath?带你了解Xpath:网页解析神器

lxml 是一个Python第三方模块。主要的功能是如何解析和提取 HTML/XML 数据。

lxml和正则类似,是一款高性能的 Python HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。

  • 安装:pip install lxml

失败的话指定下载源用 pip install lxml -i https://pypi.douban.com/simple  豆瓣源

再安装 parsel 时会自动安装 lxml,这里就不需要再次安装了。

使用lxml模块

初始化生成一个XPath解析对象,同时可以自动补全残缺的HTML标签。传入网页源码。

from lxml import etree
string = """
      Python编程-从看懂到看开    Python编程    2003    39.95  """
# 再解析之前必须先转化一下
html = etree.HTML(string)
# 返回结果是列表
result = html.xpath("//book[contains(@cover,'paper')]/title/text()")
result = html.xpath("//book[4]/title/text()")
print(result)

因为 parsel 对 lxml 进行了, 所以可以直接再 parsel 中无缝切换使用 xpath 。

使用XPath选取指定内容。括号里面书写XPath语法规则。 返回列表。

# -*- coding: utf-8 -*-
import requests
import parsel
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
}
response = requests.get('https://maoyan.com/board/4?offset=0', headers=headers)
html = response.text
# %% 选择任意节点
sel = parsel.Selector(html)
# 提取 p 标签
ps = sel.xpath('//p')
for p in ps:
    print(p.get(
  • 微信好友

  • 朋友圈

  • 新浪微博

  • QQ空间

  • 复制链接

取消
5天短视频训练营
新手入门剪辑课程,零基础也能学
分享变现渠道,助你兼职赚钱
限时特惠:0元
立即抢
新手剪辑课程 (精心挑选,简单易学)
第一课
新手如何学剪辑视频? 开始学习
第二课
短视频剪辑培训班速成是真的吗? 开始学习
第三课
不需要付费的视频剪辑软件有哪些? 开始学习
第四课
手机剪辑app哪个好? 开始学习
第五课
如何做短视频剪辑赚钱? 开始学习
第六课
视频剪辑接单网站APP有哪些? 开始学习
第七课
哪里可以学短视频运营? 开始学习
第八课
做短视频运营需要会什么? 开始学习
【原创声明】凡注明“来源:优草派”的文章,系本站原创,任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则,本站将依法追究其法律责任。

客服热线:0731-85127885

湘ICP备19005950号-1  

工商营业执照信息

违法和不良信息举报

举报电话:0731-85127885 举报邮箱:tousu@csai.cn

优草派  版权所有 © 2024