我是靠谱客的博主 聪慧大白,最近开发中收集的这篇文章主要介绍python从0开始遍历_用python写网络爬虫 -从零开始 3 编写ID遍历爬虫,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

我们在访问网站的时候,发现有些网页ID 是按顺序排列的数字,这个时候我们就可以使用ID遍历的方式来爬取内容。但是局限性在于有些ID数字在10位数左右,那么这样爬取效率就会很低很低!

import itertools

from common import download

def iteration():

max_errors = 5 # maximum number of consecutive download errors allowed

num_errors = 0 # current number of consecutive download errors

for page in itertools.count(1):

url = 'http://example.webscraping.com/view/-{}'.format(page)

html = download(url)

if html is None:

# received an error trying to download this webpage

num_errors += 1

if num_errors == max_errors:

# reached maximum amount of errors in a row so exit

break

# so assume have reached the last country ID and can stop downloading

else:

# success - can scrape the result

# ...

num_errors = 0

最后

以上就是聪慧大白为你收集整理的python从0开始遍历_用python写网络爬虫 -从零开始 3 编写ID遍历爬虫的全部内容,希望文章能够帮你解决python从0开始遍历_用python写网络爬虫 -从零开始 3 编写ID遍历爬虫所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(46)

评论列表共有 0 条评论

立即
投稿
返回
顶部