我们一般都是在第一步采集网址第二步建立标签采集内容其实在第一步采集网址的时候也是可以建立标签采集内容的,也就是采集列表页的内容。

这个功能的使用重点就是找的规律和格式!!!!

我们来采集http://news.qq.com/newsgn/zhxw/shizhengxinwen.htm这个列表下的新闻标题和时间为例。

我们先看下这部分的源代码:

clip_image004

上图我们看的每个新闻地址的格式都是:

  • ·专家称国产疫苗安全有保障 接种比不接种风险小 07月01日 15:40
  • 那么按照这个格式就会把符合这个格式的地址全部采集到了。

    这个就是上面我们说的规律格和格式,我们把这个格式填写到采集器里面如下图:

    clip_image006

    第一步:采集网址规则,添加多级网址采集规则,选择“手动填写链接地址规则”,在右侧脚本规则框里面填写我们上面找的规律,然后我们把要采集的网址和内容用采集器的

    标签和参数表示如下:

    clip_image008

    地址就用[参数]表示,在要采集的内容就建立[标签:XXX]

    实际链接地址,组合方式可可以只是参数还可以用标签还可以自己写,就看自己需要了。

    脚本规则里面的参数和实际链接那里的[参数1],[参数2],[参数n]是按照顺序一一对应的。

    这里建立的标签名如果在第二步:采集内容规则那里已经存在了,是没有办法建立的,要先删掉第二步那里已经存在的标签或者换标签名字。

    设置好了,采集器就按照这个格式循环匹配把符合这个格式的地址和内容采集下来,我们测试看下:

    clip_image010

    我们双击采集到的网址,进入第二步:

    clip_image012

    是灰色的,也就是说在第一步建立的标签是灰色的。

    clip_image014

    上图我们如果复制一个地址来测试采集是采集不到从列表页建立的标签内容的,因为我们标签是从第一步建立的,那么值也是从第一步采集到的,所以上面是从测试采集网址得到的地址,双击进

    入第二步测试的。

    上一篇:火车头教程2:多页采集

    下一篇:火车头教程4:下载图片文件