From 777738adc33ab5c7cd96b78766f70ed7b67ba972 Mon Sep 17 00:00:00 2001 From: Jaeger Date: Thu, 22 Dec 2016 16:30:30 +0800 Subject: [PATCH] update readme --- README.md | 2 +- composer.json | 2 +- 2 files changed, 2 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index 531bb5a..82cfe9b 100644 --- a/README.md +++ b/README.md @@ -1 +1 @@ -#QueryList交流社区: [http://querylist.cc/](http://querylist.cc/) #QueryList文档: [http://doc.querylist.cc/](http://doc.querylist.cc/) #QueryList交流QQ群:123266961 ╰☆邪恶 魔方☆ #QueryList简介 *** QueryList是一个基于phpQuery的通用列表采集类,是一个简单、 灵活、强大的采集工具,采集任何复杂的页面 基本上就一句话就能搞定了。 #QueryList 使用 ```php //获取采集对象 $hj = QueryList::Query('http://www.baidu.com/s?wd=QueryList',array('title'=>array('h3','text'),'link'=>array('h3>a','href'))); //输出结果:二维关联数组 print_r($hj->data); ``` 上面的代码实现的功能是采集百度搜索结果页面的所有搜索结果的标题和链接,然后分别以二维关联数组的格式输出。 ## Query() 静态方法 返回值:`QueryList对象` Query方法为QueryList唯一的主方法,用静态的方式调用。 **原型:** > QueryList::Query($page,array $rules, $range = '', $outputEncoding = null, $inputEncoding = null,$removeHead = false) **中文解释:** ``` QueryList::Query(采集的目标页面,采集规则[,区域选择器][,输出编码][,输入编码][,是否移除头部]) //采集规则 $rules = array( '规则名' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]), '规则名2' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]), .......... [,"callback"=>"全局回调函数"] ); //注:方括号括起来的参数可选 ``` ### 参数解释: 查看文档:http://doc.querylist.cc/site/index/doc/11 ## QueryList 扩展 **Request扩展** 可以实现如携带cookie、伪造来路等任意复杂的网络请求,再也不用担心QueryList内置的抓取功能太弱了。 **Login扩展** 可以实现模拟登陆然后采集。 **Multi扩展** 多线程(多进程)采集扩展。 扩展通过QueryList::run 方法运行。 ##QueryList 安装 `composer require jaeger/querylist` 包含QueyListy以及扩展的完整Composer配置如下: { "require": { "jaeger/querylist": "^3.1", "jaeger/querylist-ext-request":"^1.0", "jaeger/querylist-ext-multi":"^1.0", "jaeger/querylist-ext-login":"^1.0" } } ##QueryList 依赖库 ``` phpQuery ``` phpQuery项目主页:[https://code.google.com/p/phpquery/](https://code.google.com/p/phpquery/) ##其它说明 QueryList 内置的只是简单的源码抓取方法,遇到更复杂的抓取情况,如:需要登陆 身份验证 时,请配合其它的PHP的HTTP类来使用,通过将辅助的HTTP类抓取到的网页源码传给QueryList即可。 ##DEMO站 微动态:[http://querylist.jaekj.com/](http://querylist.jaekj.com/) * thinkphp版本:V3.1.2 * QueryList版本:V1.6 * 后台地址: /admin * 后台账号密码: guest guest 这个demo站实现的功能相当于一个轻量级的微博站,内容全自动采集更新,可以自定义时间间隔采集任意站点的信息,自动更新到这个站点来,只需要在后台规则库简单的添加一条规则就可以实现全自动采集了,大家可以自行进入后台进行尝试,体验QueryList的魅力! 冷云搞笑:[http://x.44i.cc/](http://x.44i.cc/) ##作者信息 ``` Author : Jaeger Email : hj.q@qq.com 交流QQ群:123266961 ``` \ No newline at end of file +#QueryList简介 *** `QueryList`是一个基于phpQuery的通用列表采集类,是一个简单、 灵活、强大的采集工具,采集任何复杂的页面 基本上就一句话就能搞定了。 #QueryList 安装 通过`composer`安装: ``` composer require jaeger/querylist ``` 更多安装方法:[QueryList多种安装方式](https://doc.querylist.cc/site/index/doc/7) #QueryList 使用 下面演示`QueryList`用一句代码采集百度搜索结果: ```php //获取采集对象 $hj = QueryList::Query('http://www.baidu.com/s?wd=QueryList',array( 'title'=>array('h3','text'), 'link'=>array('h3>a','href') )); //输出结果:二维关联数组 print_r($hj->data); ``` 上面的代码实现的功能是采集百度搜索结果页面的所有搜索结果的`标题`和`链接`,然后分别以二维关联数组的格式输出。 采集结果: ``` Array ( [0] => Array ( [title] => QueryList|基于phpQuery的无比强大的PHP采集工具 [link] => http://www.baidu.com/link?url=IIsMhpzI2PylnmW8vPALcwIfJgHhKFu2SWXEj7yQ-6o7KStbLfmuoWGmalpx1xYE ) [1] => Array ( [title] => 介绍- QueryList指导文档 [link] => http://www.baidu.com/link?url=edktLqt6f9KwYJ6oip1EDXvwIXh-nHcFImVJeqRm56-VU3zIcqLRYeM83VyYQE_X ) //省略.... ) ``` ## Query() 静态方法 返回值:`QueryList对象` Query方法为`QueryList`唯一的主方法,用静态的方式调用。 **原型:** > QueryList::Query($page,array $rules, $range = '', $outputEncoding = null, $inputEncoding = null,$removeHead = false) **中文解释:** ``` QueryList::Query(采集的目标页面,采集规则[,区域选择器][,输出编码][,输入编码][,是否移除头部]) //采集规则 $rules = array( '规则名' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]), '规则名2' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]), .......... [,"callback"=>"全局回调函数"] ); //注:方括号括起来的参数可选 ``` ### 参数解释: 查看文档:http://doc.querylist.cc/site/index/doc/11 ## QueryList 扩展 **Request 网络操作扩展** 可以实现如携带cookie、伪造来路等任意复杂的网络请求,再也不用担心QueryList内置的抓取功能太弱了。 **Login 模拟登陆扩展** 可以实现模拟登陆然后采集。 **Multi 多线程插件** 多线程(多进程)采集扩展。 **DImage图片下载扩展** 可实现简单的图片下载需求。 扩展安装以及使用教程:[QueryList扩展文档](https://doc.querylist.cc/site/index/doc/19),获取更多扩展可以关注`QueryList`社区和交流群。 ##其它说明 1.`QueryList`内置的只是简单的源码抓取方法,遇到更复杂的抓取情况,如:需要登陆 身份验证 时,请配合其它的PHP的HTTP工具(推荐使用[Guzzle](http://guzzle-cn.readthedocs.io/zh_CN/latest/))来使用,通过将辅助的HTTP类抓取到的网页源码传给QueryList即可。 2.采集程序请在PHP命令行模式(PHP CLI)下运行。 3.`QueryList`依赖`phpQuery`,phpQuery项目主页:[phpQuery文档](https://code.google.com/p/phpquery/) ## 寻求帮助? - QueryList交流社区: [http://querylist.cc/](http://querylist.cc/) - QueryList文档: [http://doc.querylist.cc/](http://doc.querylist.cc/) - QueryList交流QQ群:123266961 ╰☆邪恶 魔方☆ ## Author Jaeger ## Lisence QueryList is licensed under the license of MIT. See the LICENSE for more details. \ No newline at end of file diff --git a/composer.json b/composer.json index 4fd2386..0ef1c63 100644 --- a/composer.json +++ b/composer.json @@ -11,7 +11,7 @@ "authors": [ { "name": "Jaeger", - "email": "hj.q@qq.com" + "email": "JaegerCode@gmail.com" } ], "autoload":{