我是靠谱客的博主 苹果大象,最近开发中收集的这篇文章主要介绍Python采集代理ip并判断是否可用和定时更新,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

网上有很多免费的ip地址,都是可以使用的,但是如果手动来获取太麻烦,这里通过Python自动抓取,可以批量获取。代码如下:

# -*- coding: utf-8 -*-

import re
import urllib2
import json
import os
import time
import socket


class ProxyIp(object):

    def __init__(self):
        self.path = os.path.split(os.path.realpath(__file__))[0]

    # Get latest proxy ip and download to json
    def update_ip(self):
        print 'Update Ip'
        url = 'http://www.ip3366.net/free/'
        req = urllib2.Request(url)
        response = urllib2.urlopen(req)
        matches = re.findall(
            ur'(d+.d+.d+.d+)</td>s+<td>(d+)</td>s+<td>.*?</td>s+<td>(HTTPS?)</td>',
            response.read(),
            re.I
        )
        ls = []
        for match in matches:
            if self.is_open(match[0], match[1]):
                ls.append({'ip':match[0], 'port':match[1], 'protocol': match[2]})

        with open('%s/ip.json' % self.path, 'w') as f:
            json.dump(ls, f)
        return ls

    # whether the ips is last or old.
    def is_last(self):
        m_time = int(os.path.getmtime('%s/ip.json' % self.path))
        now_time = int(time.time())
        return (now_time - m_time) > 60*60*4  # 4 hours

    @staticmethod
    def is_open(ip, port):
        s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
        try:
            s.connect(ip, int(port))
            return True
        except:
            print 'Faild IP: %s:%s' % (ip, port)
            return False

    def get_proxy_ips(self):
        if not self.is_last():
            return self.update_ip()
        else:
            with open('%s/ip.json' % self.path, 'r') as f:
                return json.load(f)

最后

以上就是苹果大象为你收集整理的Python采集代理ip并判断是否可用和定时更新的全部内容,希望文章能够帮你解决Python采集代理ip并判断是否可用和定时更新所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(46)

评论列表共有 0 条评论

立即
投稿
返回
顶部