概述
如果要大批量采集的文章数据,一般是要寻找网站的翻页规律或者文章网址变化的规律。
网站中的文章一般都被放在很多列表页中(翻页),而这些列表页的链接地址一般都是有规律的(等差递增1,2..n,或是字母a-z变化),为了采集到全部列表页,就可使用文章采集器的【按规则生成网址】来批量生成,并作为采集的列表入口网址。
1. 获取翻页网址规律
场景:大批量数据采集,一般是采集列表页+文章页模式,列表页一般都有很多页(翻页),页面链接一般都是有规律的(等差递增,或是字母a-z变化)。
示例:
第一页:https://www.域名.com/sitehome/p/1
第二页:https://www.域名.com/sitehome/p/2
第三页:https://www.域名.com/sitehome/p/3
分析得出,列表页网址最后的数字是页码,每次翻页都是加1递增。
2. 批量生成网址
接下来就是按规律批量生成网址,我们可以在简数采集器中把网址变化的数字替换为参数#sd_pageNo#
-
删掉数字,鼠标放在要插入的位置,点击右边的蓝色字体 ‘参数#sd_pageNo#’,就会自动填写 ‘#sd_pageNo#’,不用手动输入的;
-
步长指的是数字的递增间隔,默认是1一般不修改;
-
输入要采集的页数,最后保存生成网址;
3. 批量生成非规律的网址
上面是按有规律连续变化的数字生成网址,如果是没有规律的,可以在翻页范围选择【按指定一组值】来生成,即可以使用自定义的一组字符串来生成网址,中间用,分隔开(半角逗号,即英文输入法的),例如下图为按照一串英文字母来批量生成网址。
4. 手动输入网址
如果不需要批量生成网址,只是想采集零散的几条数据该怎么办?
这个可以用手动输入网址,直接粘贴想要采集的网址即可,多个网址以回车换行分隔开。
如下图:
最后
以上就是正直大树为你收集整理的大批量采集网站的数据的全部内容,希望文章能够帮你解决大批量采集网站的数据所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复