大数据人|大数据第一社区

 找回密码
 注册会员

扫一扫,访问微社区

【07】中级:表格采集(以股吧股票信息采集为例)

2016-9-19 15:11| 发布者: 集搜客GooSeeker| 查看: 702| 评论: 0|原作者: 集搜客GooSeeker|来自: gooseeker.com

摘要: 一些网页上的数据是以表格的形式呈现的,对于采集这种表格数据,跟采集其他的网页数据的基本操作是一样的。

请先安装爬虫软件。 爬虫软件安装

前言

一些网页上的数据是以表格的形式呈现的,对于采集这种表格数据,跟采集其他的网页数据的基本操作是一样的。具体的操作是,把第一行表格的数据作为样例,将其中想要要抓取的数据做内容映射(所谓映射,是指在网页上标定哪个内容是要抓取下来的),然后对第一行和第二行做样例复制映射,这样就能够把整个表格的数据抓取下来。如果需要翻页,在爬虫路线中设置翻页就可以了。

下面是本教程的采集流程——

一、加载页面,定义主题名

本教程的样本页面为:http://data.eastmoney.com/notice/
1、将需要需要采集数据的页面网址复制粘贴到MS谋数台网址处,点击enter回车键,等待页面加载完成。
2、加载页面完成后(即谋数台浏览器窗口显示页面信息,并右上角页面地址自动填上网址),在右上方主题名处填写主题名,点击查重按钮,检查主题名是否被占用,主题名被占用将无法保存规则。

7_1.png

二、完成抓取内容映射

本教程用到了MS谋数台的直观标注功能,操作之前要先开启显示标注功能。

7_2.png

下面开始定义采集规则啦~
1、点击MS谋数台右上方的创建规则跳转到创建规则工作台。
2、点击要采集的内容,这里点击代码,代码会变成黄底,表示该信息被选中。
3、再击一次会弹出一个输入框,输入抓取内容的名称。
4、点击勾选之后,会弹出创建整理箱的弹窗,输入整理箱名称后点击确认。这时候规则也相应的创建了。

7_3.png

5、对其他需要抓取的内容重复做2、3步。

7_4.png

6、点击测试按钮,弹出提示框,勾选关键内容(为了给爬虫执行采集提供判断标志,对于页面一定会出现的内容可以勾上“关键内容)。

7_5.png

7、再次点击测试,可以看到下方输出信息窗口显示采集内容。目前采集到的只是一个商品的信息,要把整个页面上结构相同的商品信息都采集下来,就需要做样例复制。

7_6.png

三、采集整页表格数据——样例复制

1、点击整理箱名,勾选启用样例复制功能;
2、选择第一行数据的样例节点,右击->样例复制映射->第一个。

7_7.png

3、同理对第二行数据做样例复制。

7_8.png

4、再点击测试,可以看到输出信息已有多行数据。

7_9.png

注:同一表格也可能会有不同的结构,从而造成漏抓或者抓错,这也是表格型数据的难点,可以通过调整整理箱定位偏好或自定义XPATH。后面高级教程会讲到。

四、采集翻页后的表格数据——翻页采集

7_10.png

1、点开爬虫路线跳转到爬虫路线工作台,新建一条线索,选择记号线索,并勾取连贯抓取。
2、点击浏览器中的翻页标志——下一页,将翻页标志对应的text节点做线索记号映射:右击->线索映射->记号线索。
3、将翻页区域对应的div节点做线索定位映射:右击->线索映射->定位->线索1。

五、存规则,DS打数机抓取数据

7_11.png

7_12.png

1、点击存规则,弹出提示框保存成功。
2、点击爬数据,启动打数机开始抓取数据。
3、数据以XML格式默认存放在C盘用户文件夹的DataScraperWorks中,可在DS打数机点击文件->存储路径,修改采集结果文件的存储位置。
4、最后将数据转换成excel格式。将XML结果转成Excel参看:【04】基础:将采集结果转成Excel

下面是结果文件部分截图——

7_13.png

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

关闭

站长推荐上一条 /2 下一条


id="mn_portal" >首页Portalid="mn_P18" onmouseover="navShow('P18')">应用id="mn_P15" onmouseover="navShow('P15')">技术id="mn_P37" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">前沿id="mn_P36" onmouseover="navShow('P36')">宝箱id="mn_P61" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">专栏id="mn_P65" >企业id="mn_Nd633" >导航 折叠导航 关注微信 关注微博 关注我们

QQ|广告服务|关于我们|Archiver|手机版|小黑屋|大数据人 ( 鄂ICP备14012176号-2  

GMT+8, 2024-10-30 09:25 , Processed in 0.199430 second(s), 22 queries .

Powered by 小雄! X3.2

© 2014-2020 bigdataer Inc.

返回顶部