QueryList采集教程之【typecho列表页】规则

该日志由 samool 发表于 2020-02-16 15:09:00

QueryList不依赖任何框架和架构,它可以单独使用也可以引入到任意的PHP开发框架中去使用,如:Laravel、ThinkPHP;你可以使用它来构建简单的采集系统,也可以用它才构建高可用的分布式采集系统。它提供了丰富的基于CSS选择器的页面抽取API,完全模块化的设计,拥有强大的可扩展性。

QueryList 提供的一整套内容采集解决方案

  • DOM内容选择:CSS选择器
  • HTTP客户端:GuzzleHTTP
  • 内容过滤:CSS选择器
  • 解决乱码:内置多套乱码解决方案
  • 额外功能:丰富的扩展插件

阅读剩余部分...

该日志标签: 采集器, 爬虫, QueryList

PHP爬虫工具phpquery中文手册

该日志由 samool 发表于 2020-02-16 03:38:00

php爬虫类phpqueryphpQuery是一个基于PHP的服务端开源项目,它可以让PHP开发人员轻松处理DOM文档内容。更有意思的是,它采用了jQuery的思想,使得可以像使用jQuery一样处理页面内容,获取想要的页面信息。

1.引入phpquery类库

include 'phpQuery/phpQuery.php'; 

2.加载需要获取内容的网页连接或则文档

阅读剩余部分...

该日志标签: 采集器, php, 爬虫

PHP爬虫采集工具phpQuery的用法

该日志由 samool 发表于 2020-02-16 03:32:00

phpQuery是一个基于PHP的服务端开源项目,它可以让PHP开发人员轻松处理DOM文档内容。更有意思的是,它采用了jQuery的思想,使得可以像使用jQuery一样处理页面内容,获取想要的页面信息。

阅读剩余部分...

该日志标签: 采集器, php, 爬虫

《Cnbeta IT新闻采集器》

该日志由 samool 发表于 2007-10-03 19:01:30

偶做了一个Cnbeta新闻采集的小程序,可以导出RSS文件,配合SA的导入功能,可以一下子导入采集的新闻,目前已经做好163滚动新闻,国际新闻,国内新闻,娱乐新闻,crsky软件,Cnbeta新闻进行自动采集。

 `7}x$0cl_y[%_[`k~mii6[2.jpg

本软件为绿色免费软件,解压后即可以使用!版权所有,盗版不究!

开发平台:
Delphi7 + WindowsXP SP2

测试平台:
WindowsXP SP2 / Windows2000 Server / Windows 2003
(其它平台未测试,只要是Windows系统应该都兼容的)

功能简介:
自动采集新闻标题,网站URL地址,新闻详细内容,新闻description部分自动过滤HTML代码,自动采集完整的新闻详细内容。
定时采集,自动过滤重复的新闻,导出RSS XML文件,
日志管理,数据支持ACC数据库和MSSQL数据库(也可以用于其它网站的导入功能)

使用说明:
点击采集新闻,软件是单线程进行采集(不会用多线程,呵呵,不要丢砖谢谢),等待采集完成以后,导出文件即可,输出的文件是XML文件,可直接导入到Sablog博客中,(注意:如果你的博客是UTF-8编码格式的话,请用转换工具如EditPlus打开导出的XML文件,另存为UTF-8格式即可),另外当新闻导出后,数据库会自动记录新闻为“已导出”状态,如果点“全部初始化”,会将数据库中所有已经采集的新闻置为“未导出”状态,可以再次导出所有新闻。

为配合Sablog导入,偶简单修改过Admin\database.php 请大家下载后,先备份原文件,再覆盖database.php 文件即可。

如果是导入到其它系统的话,请使用data\data.mdb文件导入即可,cnbeta_news 为新闻表,cnbeta_log 为日志表

解压密码:samool.com


cnbetanewscatch.rar

database.rar

该日志标签: cnbeta, 新闻, 采集器

《163滚动新闻采集器》

该日志由 samool 发表于 2007-09-17 14:32:14

偶做了一个新闻采集的小程序,可以导出RSS文件,配合SA的导入功能,可以一下子导入采集的新闻,目前已经做好163滚动新闻,国际新闻,国内新闻,娱乐新闻,crsky软件,Cnbeta新闻进行自动采集。今天首次发布163滚动新闻采集器。

163nesw.jpg

本软件为绿色免费软件,解压后即可以使用!版权所有,盗版不究!

开发平台:
Delphi7 + WindowsXP SP2

测试平台:
WindowsXP SP2 / Windows2000 Server / Windows 2003
(其它平台未测试,只要是Windows系统应该都兼容的)

功能简介:
自动采集新闻标题,网站URL地址,新闻详细内容,新闻description部分自动过滤HTML代码,自动采集完整的新闻详细内容。
定时采集,自动过滤重复的新闻,导出RSS XML文件,
日志管理,数据支持ACC数据库和MSSQL数据库(也可以用于其它网站的导入功能)

使用说明:
点击采集新闻,软件是单线程进行采集(不会用多线程,呵呵,不要丢砖谢谢),等待采集完成以后,导出文件即可,输出的文件是XML文件,可直接导入到Sablog博客中,(注意:如果你的博客是UTF-8编码格式的话,请用转换工具如EditPlus打开导出的XML文件,另存为UTF-8格式即可),另外当新闻导出后,数据库会自动记录新闻为“已导出”状态,如果点“全部初始化”,会将数据库中所有已经采集的新闻置为“未导出”状态,可以再次导出所有新闻。

为配合Sablog导入,偶简单修改过Admin\database.php 请大家下载后,先备份原文件,再覆盖database.php 文件即可。

如果是导入到其它系统的话,请使用data\data.mdb文件导入即可,net163_news 为新闻表,net163_log 为日志表

备注:
诚接以下业务:机器人、软件破解、数据库管理系统、网站建设、域名服务
联系QQ:点击这里给我发消息    E-mail:


163scrollnews.rar

database.rar

该日志标签: 163, 新闻, 采集器, sablog

我也写了一个“网易163新闻采集器”

该日志由 samool 发表于 2007-09-13 01:02:05

前两天测试采集器,一共采集了近4000篇新闻,来回导入测试大概9000篇,大家可以看看这个篇文章的编号,快要到10000了吧,

上星期六晚上最初只想搞一个收集一些最新新闻,可以换点IP流量,在网上找了很久,有不少的采集器,以前有“百度小偷”、“天空小偷”类似的程序,所以想找一个可以采集最新新闻的工具。百度Google的很久,下了几款工具来测试,都不是很满意,要么是软件要收费,要么是功能不怎么样的,居然弄到3点过,然后郁闷地去睡觉了,第二天早上(10点过才起床)起来马上开工,自己搞个吧,于是乎“网易163新闻采集器”就这样产生了,为什么没有取名为“163新闻小偷”呢,因为我讨厌现实中“小偷”,听起来很不爽,所以直接取名“采集器”

花了差不多两个小时吧,分析网页,拆分网页,然后是合并内容,搞定一个版面后,写其它版面的采集就非常容易了。还是比较满意,可以准确地采集新闻的内容,包括标题和网址(来源用,做人还是厚道一点,转载其它站的内容时,注明出处),三个步骤,轻松导入到网站,打开软件,就等着数据流来袭吧,哈哈哈。。。

首先采集内容,然后输出XML文件,最后导入到网站,偶用的Sablog程序,作者小A做了一个导入数据功能,直接导入XML文件就可以了,这个功能不错哦,一下子就可以导入上百条内容,然后了导入上千上万条内容也是支持的。程序有定时采集,自动过滤功能,导出内容功能。你可以设定一个间隔时间,让程序自动定时去采集指定页面的内容,自动过滤相同的内容,当发现采集的内容相同时,自动跳过。最后就是导出功能了,软件已经集成了XML导出功能,可直接用于Sablog,数据库支持ACC和MSSQL,如果你是其它网站,直接把新闻导入到数据库就OK,目前已经有网易滚动新闻,国际新闻,国内新闻,娱乐新闻,Cnbeta新闻(本站互联网新闻均采集于cnbeta),Crsky软件新闻,腾讯QQ娱乐新闻自动采集器。

闲话少说,发个截图吧,等偶把程序整理一下,到时放到网站上给大家使用,随便说一下,最近偶喜欢喜欢搞机器人程序,如果有朋友需要机器人程序的话,可以跟我联系,网页机器人,应用程序机器都可以做哈,好了,睡觉去咯。。。。

 

 


of1fpwkmj)k$~7e90lf50lw.jpg

s`uq8$sf]@jo@m3qkl(bozh.jpg

该日志标签: 网易, 163, 新闻, 采集器