QueryList采集教程之【typecho列表页】规则

2020 年 02 月 16 日

9827 次浏览

342字数

AI摘要

本文介绍了QueryList采集工具的使用方法，通过CSS选择器和HTTP客户端GuzzleHTTP，可以构建简单的采集系统或高可用的分布式采集系统。文章以采集Typecho文章列表页所有标题及对应URL为例，提供了详细的代码示例和输出结果。QueryList官方网站为http://www.querylist.cc/。

QueryList不依赖任何框架和架构，它可以单独使用也可以引入到任意的PHP开发框架中去使用，如：Laravel、ThinkPHP；你可以使用它来构建简单的采集系统，也可以用它才构建高可用的分布式采集系统。它提供了丰富的基于CSS选择器的页面抽取API，完全模块化的设计，拥有强大的可扩展性。

QueryList 提供的一整套内容采集解决方案

DOM内容选择：CSS选择器
HTTP客户端：GuzzleHTTP
内容过滤：CSS选择器
解决乱码：内置多套乱码解决方案
额外功能：丰富的扩展插件

QueryList官方网站
http://www.querylist.cc/

采集typecho文章列表页所有标题及对应URL

<?php
require 'vendor/autoload.php';
use QL\QueryList;

$url = 'https://xiaaijun.com/archives/';

$rules = array (
  'herf' => 
  array (
    0 => 'div#archives>ul>li>a',
    1 => 'href',
  ),  
  'title' =>
  array (
    0 => 'div#archives>ul>li>a',
    1 => 'text',
  ),  
);

$data = QueryList::get($url)->rules($rules)->range('')->queryData();
print_r($data);

输出内容：