采集的目的就是把对方网站上网页中的某块文字或者图片等资源下载到自己的数据库或其他的存储形式,这个过程需要做下面几个工作:下载网页,解析网页,修正结果,存储数据。如果数据符合自己要求,修正结果这步可省略。本采集系统也是把配置过程分解为这几个步骤

*采集原理描述 *

  采集的目的就是把对方网站上网页中的某块文字或者图片等资源下载到自己的数据库或其他的存储形式,这个过程需要做下面几个工作:下载网页,解析网页,修正结果,存储数据。如果数据符合自己要求,修正结果这步可省略。本采集系统也是把配置过程分解为这几个步骤。

*配置过程描述 *

配置主要分四个步骤:

  第一步网页爬虫,配置网页爬虫规则,用来把需要采集的网页批量保存到本地。这套规则成为一个网页爬虫。

  第二步网页采集,设置采集规则,找一个网页为模板例子,设置要采集的数据块。其他符合此模板的网页将被按照这个规则解析。这套规则成为一个网页采集。

  第三步采集任务,配置采集任务,对网页爬虫和网页采集进行组合,一个网页爬虫可以对应多个网页采集,组合后保存为一个采集任务。这个步骤中可以对结果的修正和存储(既输出)进行配置

  第四步任务发布,对采集任务进行发布,可以发布到指定服务器的某个采集队列中。

  完成以上4个步骤后,采集任务就被放入采集队列,等待后台采集程序处理。此时无法即时看到采集结果,采集完成需要视采集队列中排队任务数,以及要采集的网站的网页数量。

*配置的四个步骤详解 *

  1. 网页爬虫 2. 网页采集 3. 采集任务 4. 任务发布

网页爬虫

点击菜单[网页爬虫 => 创建爬虫]。共分4部分,分别:网址规则,下载参数,登录选项,基本信息。

  网址规则:设置要下载的网址以及过虑规则

  下载深度:只从根网址开始的链接树深度,超过深度将放弃,准确指定深度有利于提高采集效率,深度从1计数。

  下载参数:爬虫运行的参数

  爬虫线程数:同时下载网页的线程数量。

  爬虫运行间隔秒数:不断检测源数据网站的间隔时间。

  网站使用的字符集:源数据网站使用的字符集,在源数据网站没有指定的情况下,才能准确的解析。

  登录选项:如果要采集的网页需要登录才能下载,需要设置相关登录参数,比如帐号,密码等,需要对网站开发有一定了解的人员才能配置

  基本信息:爬虫名字和爬虫描述,便于与其他爬虫区别开。

网页采集

点击菜单[网页采集 => 创建采集]。共分3部分,分别:采集项选择,采集测试,基本信息。

  采集项选择:根据采集条件定位采集数据项,最终确定出要采集的数据项,几个采集条件可以相互搭配调节,然后采集到合适的满足要求的数据项。其中可以支持对表格的批量解析,提高配置效率

  采集测试:用来使用以上的配置进行采集测试,看采集结果是否与预期的相符。

  基本信息:解析名字和解析描述,便于与其他解析配置区别开。

采集任务

点击菜单[采集任务 => 配置.发布.状态 => 配置]。从爬虫列表中选择要配置的任务,点击配置。

  采集任务由爬虫配置,解析配置,结果修正,输出选择,共4个部分组成,从上到下是树状的结构。可以一对多进行配置。

  其中结果修正,输出选择采用插件的方式,可以针对不同网站开发不同的修正插件进行结果修正处理。输出也可以通过不同插件输出到不同的存储介质。两种插件可以设置针对不同解析的配置文件,点击插件名字进行配置文件的设置

  系统提供现成的数据库和HTTP方式的输出插件,HTTP方式具体说明见HTTP接口规范。

任务发布

点击菜单[采集任务 => 配置.发布.状态 => 发布]。从爬虫列表中选择要配置的任务,点击发布。

  把配置好的采集任务发布到采集队列中,采集队列可以位于服务器群组中某台服务器中某个队列。

*采集结果说明 *

在线采集服务采用的是HTTP方式输出到用户服务器,用户服务器端需要开发一个接口程序,来接收采集系统传送来的数据,并把数据保存成自定义的形式。具体接口代码参见HTTP接口范例。

*配置过程总结 *

本采集系统是采用WEB方式的配置,然后生成采集任务(即一组配置文件)。把采集任务发布到采集队列中后,等待后台采集进程进行采集,采集完毕后把采集结果通过修正插件修正后,再通过输出插件输出到自定义的存储形式。


标签:网页爬虫 网页采集 采集任务 任务发布