概述
前三篇介绍了如何从零开始获取链接集合和获取所需的数据,创建规则表和数据表,有了前面的各种准备好了的前提,这篇就介绍如何自动获取资料并保存,及一些补充的操作,可适应获取各类不同网页格式和数据格式;
下面具体举例说明如何获取不同的资料,前面介绍了获取中药材的资料,今天介绍中药方剂的资料,打开已存在的规则表文件:
选择【说明】列001的行,右击菜单选【提取数据】,看到如下获取的数据,这里要补充说明的是补充表列名称+行位置的设置;
为了演示,我把001行上一行的【获取列】内容剪切,然后【提取数据】:
再来获取002行的数据:
发现001和002获取到的内容缺【名称】这样的文字作为数据表列标题,而其【功效与作用】前面冠以方剂名称,因此,也不能作为数据表列标题,【主治】等也是一样,因此,就不像前面介绍的采集数据中可设置统一的列标题,因此,为了解决各网站不同的数据风格的缺失和不统一,新添加了补充列名这个设置功能,在快捷菜单中,如下:
为了有统一列标题,插入了“名称”文字,同时标示出要添加的位置所在文字行的值,用+这个符号进行连接,这里规定每行文字所在的行数为要插入的序号,“名称”文字插入0行,则《伤科补要》的序号就变为1了,之下分别插入了个个列标题文字及要插入的行序号值,如“名称”所示,就不一一列举了,因此,对应没统一标题的数据,采用补充列名的方法,就可很容易的自己定义数据表的列名了,哪怕网站的数据没列名也能照样自己定义后获取到数据表,非常地方便使用。
做好了上面各种准备后,自动提取数据就一切准备就绪了,快捷菜单【自动提取】操作即可让软件自动工作了,自动提取工作最小化,提取工作完成后恢复界面最大化,当然,这期间是可以停止自动提取工作的,快捷菜单【停止提取】即可。
这里要说明的是,数据表也应该对应,这里展示的是已经存在的数据表,要打开对应的数据表,假如数据表的列标题不对应,数据是无法添加到数据表中的;
另外两个要补充说明的是:1.文字有不需要的可设置移出;2.补全网址可一对应多设置;
下一篇介绍数据的使用方法。
最后
以上就是傻傻汉堡为你收集整理的软件功能介绍之(数据采集)1.4自动获取数据到表格及一些补充说明的全部内容,希望文章能够帮你解决软件功能介绍之(数据采集)1.4自动获取数据到表格及一些补充说明所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复