【07】中级：表格采集（以股吧股票信息采集为例）

2016-9-19 15:11| 发布者: 集搜客GooSeeker| 查看: 702| 评论: 0|原作者: 集搜客GooSeeker|来自: gooseeker.com

摘要: 一些网页上的数据是以表格的形式呈现的，对于采集这种表格数据，跟采集其他的网页数据的基本操作是一样的。

请先安装爬虫软件。爬虫软件安装

前言

一些网页上的数据是以表格的形式呈现的，对于采集这种表格数据，跟采集其他的网页数据的基本操作是一样的。具体的操作是，把第一行表格的数据作为样例，将其中想要要抓取的数据做内容映射(所谓映射，是指在网页上标定哪个内容是要抓取下来的)，然后对第一行和第二行做样例复制映射，这样就能够把整个表格的数据抓取下来。如果需要翻页，在爬虫路线中设置翻页就可以了。

下面是本教程的采集流程——

一、加载页面，定义主题名

本教程的样本页面为：http://data.eastmoney.com/notice/
1、将需要需要采集数据的页面网址复制粘贴到MS谋数台网址处，点击enter回车键，等待页面加载完成。
2、加载页面完成后（即谋数台浏览器窗口显示页面信息，并右上角页面地址自动填上网址），在右上方主题名处填写主题名，点击查重按钮，检查主题名是否被占用，主题名被占用将无法保存规则。

7_1.png

二、完成抓取内容映射

本教程用到了MS谋数台的直观标注功能，操作之前要先开启显示标注功能。

7_2.png

下面开始定义采集规则啦~
1、点击MS谋数台右上方的创建规则跳转到创建规则工作台。
2、点击要采集的内容，这里点击代码，代码会变成黄底，表示该信息被选中。
3、再击一次会弹出一个输入框，输入抓取内容的名称。
4、点击勾选之后，会弹出创建整理箱的弹窗，输入整理箱名称后点击确认。这时候规则也相应的创建了。

7_3.png

5、对其他需要抓取的内容重复做2、3步。

7_4.png

6、点击测试按钮，弹出提示框，勾选关键内容（为了给爬虫执行采集提供判断标志，对于页面一定会出现的内容可以勾上“关键内容）。

7_5.png

7、再次点击测试，可以看到下方输出信息窗口显示采集内容。目前采集到的只是一个商品的信息，要把整个页面上结构相同的商品信息都采集下来，就需要做样例复制。

7_6.png

三、采集整页表格数据——样例复制

1、点击整理箱名，勾选启用样例复制功能；
2、选择第一行数据的样例节点，右击->样例复制映射->第一个。

7_7.png

3、同理对第二行数据做样例复制。

7_8.png

4、再点击测试，可以看到输出信息已有多行数据。

7_9.png

注：同一表格也可能会有不同的结构，从而造成漏抓或者抓错，这也是表格型数据的难点，可以通过调整整理箱定位偏好或自定义XPATH。后面高级教程会讲到。

四、采集翻页后的表格数据——翻页采集

7_10.png

1、点开爬虫路线跳转到爬虫路线工作台，新建一条线索，选择记号线索，并勾取连贯抓取。
2、点击浏览器中的翻页标志——下一页，将翻页标志对应的text节点做线索记号映射：右击->线索映射->记号线索。
3、将翻页区域对应的div节点做线索定位映射：右击->线索映射->定位->线索1。

五、存规则，DS打数机抓取数据

7_11.png

7_12.png

1、点击存规则，弹出提示框保存成功。
2、点击爬数据，启动打数机开始抓取数据。
3、数据以XML格式默认存放在C盘用户文件夹的DataScraperWorks中，可在DS打数机点击文件->存储路径，修改采集结果文件的存储位置。
4、最后将数据转换成excel格式。将XML结果转成Excel参看：【04】基础：将采集结果转成Excel。

下面是结果文件部分截图——