我也写了一个“网易163新闻采集器”

该日志由 samool 发表于 2007-09-13 1:02 AM

前两天测试采集器,一共采集了近4000篇新闻,来回导入测试大概9000篇,大家可以看看这个篇文章的编号,快要到10000了吧,

上星期六晚上最初只想搞一个收集一些最新新闻,可以换点IP流量,在网上找了很久,有不少的采集器,以前有“百度小偷”、“天空小偷”类似的程序,所以想找一个可以采集最新新闻的工具。百度Google的很久,下了几款工具来测试,都不是很满意,要么是软件要收费,要么是功能不怎么样的,居然弄到3点过,然后郁闷地去睡觉了,第二天早上(10点过才起床)起来马上开工,自己搞个吧,于是乎“网易163新闻采集器”就这样产生了,为什么没有取名为“163新闻小偷”呢,因为我讨厌现实中“小偷”,听起来很不爽,所以直接取名“采集器”

花了差不多两个小时吧,分析网页,拆分网页,然后是合并内容,搞定一个版面后,写其它版面的采集就非常容易了。还是比较满意,可以准确地采集新闻的内容,包括标题和网址(来源用,做人还是厚道一点,转载其它站的内容时,注明出处),三个步骤,轻松导入到网站,打开软件,就等着数据流来袭吧,哈哈哈。。。

首先采集内容,然后输出XML文件,最后导入到网站,偶用的Sablog程序,作者小A做了一个导入数据功能,直接导入XML文件就可以了,这个功能不错哦,一下子就可以导入上百条内容,然后了导入上千上万条内容也是支持的。程序有定时采集,自动过滤功能,导出内容功能。你可以设定一个间隔时间,让程序自动定时去采集指定页面的内容,自动过滤相同的内容,当发现采集的内容相同时,自动跳过。最后就是导出功能了,软件已经集成了XML导出功能,可直接用于Sablog,数据库支持ACC和MSSQL,如果你是其它网站,直接把新闻导入到数据库就OK,目前已经有网易滚动新闻,国际新闻,国内新闻,娱乐新闻,Cnbeta新闻(本站互联网新闻均采集于cnbeta),Crsky软件新闻,腾讯QQ娱乐新闻自动采集器。

闲话少说,发个截图吧,等偶把程序整理一下,到时放到网站上给大家使用,随便说一下,最近偶喜欢喜欢搞机器人程序,如果有朋友需要机器人程序的话,可以跟我联系,网页机器人,应用程序机器都可以做哈,好了,睡觉去咯。。。。

 

 

图片附件:
of1fpwkmj)k$~7e90lf50lw.jpg

大小: 53.95 K
尺寸: 294 x 242
浏览: 16 次
点击打开新窗口浏览全图

图片附件:
s`uq8$sf]@jo@m3qkl(bozh.jpg

大小: 74.21 K
尺寸: 271 x 307
浏览: 15 次
点击打开新窗口浏览全图

 傻猫网络日志标签:    网易, 163, 新闻, 采集器  tiffany jewelry  
网摘: Yahoo Baidu Google Bolaa 365Key Yesky Wozhai POCO ViVi YouNote Hexun Del.icio.us Yeeyoo igooi I2Key Cn3 Bytemen Furl Blinklist Blogmarks Technorati 分享到饭否
相关文章: (最多只显示5条记录)
恭喜“四川博客资讯网”开通! (浏览:1814, 评论:3)
《Cnbeta IT新闻采集器》 (浏览:4752, 评论:13)
《163滚动新闻采集器》 (浏览:4923, 评论:20)
发表评论:( 来了就留个脚印吧!你的参与是我最大的动力!)

    

(单击图片换张图片)