1、scrapy——xpath路径使用

原创

mb611a2e88042f6 2021-08-17 00:49:37 博主文章分类：python scrapy ©著作权

文章标签 python html 正则表达式 xml 实例化 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mb611a2e88042f6的原创作品，请联系作者获取转载授权，否则将追究法律责任

Scrapy是基于Python的开源爬虫框架，具体的官网档：http://doc.scrapy.org/en/latest/

　　除了HTML，XML的基本协议，了解xpath的基础上，再使用正则表达式(python下的re包提供支持)提取一定格式的信息

　　xpath是Scrapy下快速提取特定信息（如title,head,href等）的一个接口。

为了方便使用XPaths，Scrapy提供XPathSelector 类，有两种可以选择，HtmlXPathSelector(HTML数据解析)和XmlXPathSelector(XML数据解析)。

必须通过一个 Response 对象对他们进行实例化操作。

Selector对象展示了文档的节点结构。因此，第一个实例化的selector必与根节点或者是整个目录有关。

在Scrapy里面，Selectors 有四种基础的方法（可以查看API文档）：

xpath()：返回一系列的selectors，每一个select表示一个xpath参数表达式选择的节点

css()：返回一系列的selectors，每一个select表示一个css参数表达式选择的节点

extract()：返回一个unicode字符串，为选中的数据

re()：返回一串一个unicode字符串，为使用正则表达式抓取出来的内容

基本的路径意义：

表达式描述

nodename 选取此节点的所有子节点。

/ 从根节点选取。

// 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。

. 选取当前节点。

.. 选取当前节点的父节点。

@ 选取属性。

实验

1）、先在第一层tutorial文件夹下，在cmd中输入：

scrapy shell http://www.dmoz.org/Computers/Programming/Languages/Python/Books/

2）、现在比如我们需要抓取该网页的tittle，由于前面的shell命令已经实例化了一个selector的对象sel，就输入 sel.xpath('//title') 获取了网页的标题。response.xpath()命令

输出如下：

[<Selector xpath='//title' data=u'<title>DMOZ - Computers: Programming: La'>]

3）、比如我们想要知道该网页下的www.****.com形式的链接，可以使用xpath 结合正则表达式re提取信息，输入 sel.xpath(‘//@href’).re("www.[0-9a-zA-Z]+\.com")

输出如下：

[u'www.facebook.com', u'www.twitter.com', u'www.brpreiss.com', u'www.brpreiss.com', u'www.techbooksforfree.com', u'www.techbooksforfree.com', u'www.freetechbooks.com', u'www.freetechbooks.com', u'www.wiley.com', u'www.wiley.com', u'www.wiley.com', u'www.wiley.com', u'www.packtpub.com', u'www.packtpub.com', u'www.informit.com', u'www.informit.com', u'www.informit.com', u'www.informit.com', u'www.informit.com', u'www.informit.com', u'www.ask.com', u'www.bing.com', u'www.google.com', u'www.ixquick.com', u'www.yandex.com']

输入response.body，你将会看到response的body部分

输入response.headers 来查看它的 header部分：

response.headers

{'Cteonnt-Length': ['46147'], 'Content-Language': ['en'], 'Set-Cookie': ['JSESSIONID=48ACB532CA38A46F84FB24C0918D54A1; Path=/; HttpOnly'], 'Server': ['Apache'], 'Date': ['Mon, 13 Mar 2017 15:11:01 GMT'], 'Content-Type': [‘text/html;charset=UTF-8']}

selector是一个筛子

旧的版本中，Shell实例化两种selectors，一个是解析HTML的 hxs 变量，一个是解析XML 的 xxs 变量。

而现在的Shell为我们准备好的selector对象，sel，可以根据返回的数据类型自动选择最佳的解析方案(XML or HTML)。

网页分析

sel.xpath('//title')

[<Selector xpath='//title' data=u'<title>DMOZ - Computers: Programming: La'>]

>>>

能把title标签取出来，用extract()和text()还可以进一步做处理。

>>> sel.xpath('//title').extract()

[u'<title>DMOZ - Computers: Programming: Languages: Python: Books</title>’]

使用如下命令

>>> sel.xpath('//title/text()')

[<Selector xpath='//title/text()' data=u'DMOZ - Computers: Programming: Languages'>]

>>> sel.xpath('//title/text()').extract()

[u'DMOZ - Computers: Programming: Languages: Python: Books']

>>> sel.xpath('//title/text()').re('(\w+):')

[u'Computers', u'Programming', u'Languages', u’Python']

这里使用里正则表达式，

获取对象列表

xpath返回了一个对象列表，

那么我们也可以直接调用这个列表中对象的属性挖掘更深的节点

sites = sel.xpath('//ul/li')

for site in sites:

title = site.xpath('a/text()').extract()

link = site.xpath('a/@href').extract()

desc = site.xpath('text()').extract()

print title, link, desc

参考链接

http://www.w3school.com.cn/xpath/

上一篇：2.数据挖掘概念笔记——认识数据

下一篇：3、scrapy——xpath语法

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯