请先安装爬虫软件。 爬虫软件安装 前言一些网页上的数据是以表格的形式呈现的,对于采集这种表格数据,跟采集其他的网页数据的基本操作是一样的。具体的操作是,把第一行表格的数据作为样例,将其中想要要抓取的数据做内容映射(所谓映射,是指在网页上标定哪个内容是要抓取下来的),然后对第一行和第二行做样例复制映射,这样就能够把整个表格的数据抓取下来。如果需要翻页,在爬虫路线中设置翻页就可以了。 下面是本教程的采集流程—— 一、加载页面,定义主题名本教程的样本页面为:http://data.eastmoney.com/notice/ 二、完成抓取内容映射本教程用到了MS谋数台的直观标注功能,操作之前要先开启显示标注功能。 下面开始定义采集规则啦~ 5、对其他需要抓取的内容重复做2、3步。 6、点击测试按钮,弹出提示框,勾选关键内容(为了给爬虫执行采集提供判断标志,对于页面一定会出现的内容可以勾上“关键内容)。 7、再次点击测试,可以看到下方输出信息窗口显示采集内容。目前采集到的只是一个商品的信息,要把整个页面上结构相同的商品信息都采集下来,就需要做样例复制。 三、采集整页表格数据——样例复制1、点击整理箱名,勾选启用样例复制功能; 3、同理对第二行数据做样例复制。 4、再点击测试,可以看到输出信息已有多行数据。 注:同一表格也可能会有不同的结构,从而造成漏抓或者抓错,这也是表格型数据的难点,可以通过调整整理箱定位偏好或自定义XPATH。后面高级教程会讲到。 四、采集翻页后的表格数据——翻页采集1、点开爬虫路线跳转到爬虫路线工作台,新建一条线索,选择记号线索,并勾取连贯抓取。 五、存规则,DS打数机抓取数据1、点击存规则,弹出提示框保存成功。 下面是结果文件部分截图—— |
|广告服务|关于我们|Archiver|手机版|小黑屋|大数据人 ( 鄂ICP备14012176号-2 )
GMT+8, 2024-10-30 09:25 , Processed in 0.199430 second(s), 22 queries .
Powered by 小雄! X3.2
© 2014-2020 bigdataer Inc.