二、客户端界面介绍
安装八爪鱼采集器后,进入八爪鱼客户端,如图 3-3-1 所示。

(一)八爪鱼常用数据采集方法
智能识别:只需输入网址,自动智能识别网页数据。支持自动识别列表型网页数据、滚
动和翻页。
(1)在首页输入框中,输入目标网址,点击【开始采集】。八爪鱼自动打开网页并开始智能识别。打开网页后,默认开启智能识别,如图 3-3-2 所示。识别过程中,随时可【取消识别】或【不再智能识别】,取消或关闭本次智能识别;可点击【自动识别网页】再次启动;也可在全局设置中,再次默认开启【智能识别】。
图 3-3-2 自动识别
(2)智能识别成功,一个网页可能有多组数据,八爪鱼会将所有数据识别出来,然后智能推荐最常用的那组。如果推荐的不是想要的,可自行【切换识别结果】。
(3)同时,可自动识别出网页的滚动和翻页。此示例网址,无须滚动,只需翻页,故只识别并勾选【翻页采集】。
(4)自动识别完成后,点击【生成采集设置】,可自动生成相应的采集流程,如图 3-3-3所示,方便用户编辑修改。

(5)点击【采集】,选择【启动本地采集】,八爪鱼就会开始全自动采集数据,如图 3-3-4所示。
3-3-4 采集数据
(6)采集完成后,以所需的方式导出数据即可。
需要注意的是,目前自动识别,仅支持识别列表型网页、滚动和翻页。如果不是列表型网页,或者有更高级的采集需求,请自行配置采集任务。
(二)配置采集流程
采集流程(或叫采集任务、采集规则)是从特定网页上抓取数据的指令。每个网站的页面布局是不同的,因此采集流程不能通用。一般情况下,一个网站需要配置一个采集流程,如图 3-3-5 所示。
图 3-3-5 采集流程
例如,其网页上有很多字段:文本(标题、价格等)、图片(商品图片)、链接(详情的超链接)。
将网页上非结构化的文本、图片、超链接等字段采集下来,保存为 Excel 等结构化的数据。
(1)创建一个新任务。
点击左侧【+】新建,选择【自定义任务】,创建新任务,默认任务名称,如图 3-3-6所示。
图 3-3-6 创建新任务
手动输入网址,点击保存设置,如图 3-3-7 所示。

图 3-3-7 手动输入网址
(2)选择要采集的数据。
观察网页上有很多字段:文本(标题、价格等)、图片(商品图片)、链接(详情的超链接)。鼠标移动到想要的字段上,点击将其选中。选中后,会用绿色框框起来。同时,左上角会弹出一个操作提示框。选中的字段不同,操作提示框中的指令也不同。
如果选中的是文本,选择【采集该元素的文本】。
如果选中的是图片,选择【采集该图片地址】。
如果选中的是链接,选择【采集该链接的文本】或【采集该链接地址】。
这是因为面对不同的数据形式,采集方式是不一样的。请注意根据采集需求,选择指令。完成采集项目后在采集流程视图中点击应用。
(3)编辑字段。
在当前页面数据预览中,可查看到我们提取的所有字段,可以对这些字段进行修改、删除字段名称,移动字段顺序等操作。
数据预览中默认是【横向字段布局】,方便查看所采集到的数据。也可以切换到【纵向字段布局】,方便进行字段的修改,如批量删除、复制字段,导入、导出字段配置,格式化,修改字段 XPath。
(4)获取数据并导出。
根据已经配置好的采集任务,让任务自动运行。点击【保存并采集】,选择【启动本地采集】,启动后开始全自动采集数据。【本地采集】是使用自己的计算机进行采集,【云采集】是使用八爪鱼提供的云服务器采集。
采集完成后,根据需要的类型导出数据。支持导出为数据的类型为 Excel、CSV、HTML,这里导出为 Excel。
(三)使用模板采集数据
采集模板是由八爪鱼官方提供的、做好的采集模板,目前已有 200 多个采集模板,涵盖大部分网站的采集场景。使用模板采集数据时,只需输入几个参数(网址、关键词、页数等),就能快速获取到目标网站数据。类似使用 PPT 模板,只需修改关键信息就能直接使用,无须自己从头配置。
在客户端首页【输入框】中,输入目标网站名称,自动寻找相关的采集模板。将鼠标移到需要的模板上并单击,进入模板详情页面。注意,请确保输入的网站名称正确,否则可能
无法查找到相关模板。
该模板采集数据要配置参数,在输入网址中,需要将要采集商品页的网址填入其中,点击保存并启动。
通过【采集模板】创建并保存的任务,会放在【我的任务】中。在【我的任务】界面,可以对任务进行多种操作并查看任务采集到的历史数据。