如何使用 QueryList 的区域选择器 range() 函数
发布于 作者:苏南大叔 来源:程序如此灵动~ 我们相信:世界是美好的,你是我也是。平行空间的世界里面,不同版本的生活也在继续...
苏南大叔在本文中,将要介绍的是:QueryList
的区域选择器
,即range()
函数。通俗的理解呢,就是说在使用文本匹配规则之前,先给要匹配的数据区域做个划分。这样的话,就可以提高文本规则的匹配精准度。
基本说明
区域选择器
或者叫做切片选择器
,指先按照该规则对HTML内容进行切片 ,然后再分别再在这些切片里面进行相关的选择。
当采集列表的时候,建议设置这个参数。
range()
和rules()
是息息相关的,使用range()
的话,就是利用range()
先选出html
的某些部分,然后再对这些切片,应用rules()
规则。作用是可以简化rules里面的规则。还可以循环处理rule()规则。
对比例子demo
苏南大叔给出下面两个对比例范例。
第一种写法:没有用到[区域选择器]。
$ql = QueryList::get('http://www.baidu.com/s?wd=QueryList')->rules([
'title'=>array('h3','text'),
'link'=>array('h3>a','href')
]);
第二种写法:用选择器'h3'对内容切片,然后分别在这些切片中执行采集规则。
$ql = QueryList::get('http://www.baidu.com/s?wd=QueryList')->rules([
// 获取当前切片的整个text内容
'title'=>array('','text'),
// 获取当前切片下的a标签链接
'link'=>array('a','href')
])->range('h3');
总结
整体上来说,使用range()
的方法,和使用jquery
的dom选择器,是非常类似的体验,推荐使用第二种range()
方式写代码。不使用range()
的话,有可能会采集到错误的数据。大家可以在日常使用中,自行体会相关的区别。
更多苏南大叔的querylist
文章,敬请期待。
如果本文对您有帮助,或者节约了您的时间,欢迎打赏瓶饮料,建立下友谊关系。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。