概述
上一篇介绍了创建数据表,这篇介绍如何获取所选的链接网址,用于自动提取数据;
用第一篇https://blog.csdn.net/xianfajushi/article/details/86980085介绍的方法兴建一个规则表,获取有链接的网页内容,下面进行一些设置;
首先要知道需要的链接网址在哪,在文本框中找到它所在的位置;
同之前篇章介绍的方法一样,选中包含要获得的内容的头尾区间文字,在弹出菜单中设置为[获取标志];
此时,文本框中一片空白,没关系,双击列表框网址,即可再次获得网页内容,继续设置;
默认的是保留含有http的内容,这里看到的是隐藏头地址的网址,因此,需要选择保留筛选项,选中html设置为[保留标记];
此时把文本框往下滚动就可以看到设置的效果了,查看整个文本框内容,发现有些是不需要的,因此,要设置移出筛选,选中包含具有共同文字的部分,设置为[移出标记];
再次查看整个文本框内容,继续设置移出标记,直到完全符合想要的纯净内容;
再次查看整个文本框,此时已经获得了想要的纯净内容了,但是不要忘记了,此时获取的是隐藏了头地址的网址,因此,还要进行网址补全,才能获取到这些链接的网页内容;
标记为网址补全需要进行2次操作,即需要补全的头地址文字,和需要连接在一起的后地址文字;
这样就获得了所有的链接的完整地址,下一步即可提取到规则表,并进行保存;
下一篇将介绍自动获取数据.
最后
以上就是奋斗荷花为你收集整理的软件功能介绍之(数据采集)1.3获取所选链接网址的全部内容,希望文章能够帮你解决软件功能介绍之(数据采集)1.3获取所选链接网址所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复