QueryList 如何利用 removeHead 和 query 方法,预处理数据
发布于 作者:苏南大叔 来源:程序如此灵动~ 我们相信:世界是美好的,你是我也是。平行空间的世界里面,不同版本的生活也在继续...
本文中,苏南大叔要描述的是:querylist
的removeHead()
和query()
方法。removeHead()
用于解决可能存在的乱码问题,另外一个query()
用于在获得数据之前,对最终的语句的预处理。
removeHead()
方法的使用范例
querylist
里面有个非常奇怪的removeHead()
方法,粗略的看上去的话,是非常的奇怪。那么官方的说明是这么说的:这个方法可以把$html
中的head
区域删除,然后在进行数据处理的,据说目的是解决乱码问题。那么,苏南大叔理解着是不是就是去掉<meta charset=utf8>
这样的代码字样呢?
不过,在querylist
之中,处理乱码问题,并不仅仅是这个方案哦,removeHead()
仅仅是个备选方案。更多的方案,还是那句老话,请关注苏南大叔的后续文章。
先使用rules()
静态方法,来创建一个$ql
对象。通过setHtml()
设置html
后,调用了removeHead()
方法,最终获得匹配数据。
$html = file_get_contents('http://www.baidu.com/s?wd=QueryList');
$ql = QueryList::rules([
'title'=>array('h3','text'),
'link'=>array('h3>a','href')
]);
$data = $ql->setHtml($html)->removeHead()->query()->getData();
print_r($data);
query()
方法
query()
方法,执行采集规则rules
,执行完这个方法后才可以用getData()
方法获取到采集数据。苏南大叔理解着:就是对采集到的数据的一个预处理过程。
- 参数: $callback
可以通过这个回调函数进一步处理结果,替换内容、补全链接,下载图片等等;返回值会修改原始data数据。
并且还可以在这个回调函数用使用QueyList进行嵌套无限级采集。
使用范例:
$ql = QueryList::get('http://www.baidu.com/s?wd=QueryList')->rules([
'title'=>array('h3','text'),
'link'=>array('h3>a','href')
]);
$data = $ql->query(function($item){
$item['title'] = $item['title'].' - other string...';
return $item;
})->getData();
print_r($data->all());
query()
触发查询,同时还可以传递进入一个回掉函数$callback
,对拿到的数据,进行进一步处理。
总结
对数据的预处理,是querylist
的一个非常重要的功能,在这个功能中,数据会变得更加可控。
下面是例行广告语:更多querylist
的相关经验文章,请点击苏南大叔的经验文章链接即可。
如果本文对您有帮助,或者节约了您的时间,欢迎打赏瓶饮料,建立下友谊关系。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。