爬虫之url爬取 1、访问链接,获得链接网页源码难点:反爬虫可以用headers和proxy解决2、识别网页中的链接链接形式不统一,有绝对链接和相对链接,urljoin()3、链接储存分为两部分,第一部分是进行识别链接是否已经被访问,第二部分进行储存所有链接(1): 运用crawl_queue堆栈,将未被访问的链接进栈,在crawl_queue非空时,出栈一个url,访问此url并获取新的url,以此... Other 2024-01-15 48 点赞 0 评论 72 浏览