我是靠谱客的博主 虚拟龙猫,最近开发中收集的这篇文章主要介绍Python爬虫随机UserAgent库,让你不再手动敲UA!,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

前言

之前也懵懵懂懂写过python爬虫,但是经常被网站的反爬机制干趴下,然后手动写了个随机UA库,情况才好些。今天在互联网畅游时发现,有一个能够产生随机UA的第三方库!

安装第三方库

老生常谈啦,pip安装运行以下代码即可~

pip install fake-useragent

简单上手

简单上手很简单的,上代码~

from fake_useragent import UserAgent
ua = UserAgent()
print(ua.random)
# 输出:Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US) AppleWebKit/533.20.25 (KHTML, like Gecko) Version/5.0.3 Safari/533.19.4

ua.random就能产生一个随机UA了!这不禁让我想起了以前手动复制数个UA,然后再随机选择的代码…代码量蹭蹭的就下去了。

几十行->三行

正好体现了Python的简洁之美!

拓展(中文帮助文档)

fake-useragent: github

作者的信息概要也很精简:

Up to date simple useragent faker with real world database

帮助文档:

fake-useragent将会把收集到的数据存储在你的系统临时文件夹中,比如/temp

如果你想更新已有的数据库只需要这样:

from fake_useragent import UserAgent
ua = UserAgent()
ua.update()

如果你不想缓存数据库或者不生成写入文件:

from fake_useragent import UserAgent
ua = UserAgent(cache=False)	

有时候, useragentstring.com or w3schools.com 更改他们的网址或者关闭网站,在这种情况下,fake-useragent 将会使用 heroku 的返回结果。

如果你不想使用托管缓存服务器:

from fake_useragent import UserAgent
ua = UserAgent(use_cache_server=False)

在非常罕见的情况下,如果托管的缓存服务器和源不可用,fake-useragent将无法下载数据:

from fake_useragent import UserAgent
ua = UserAgent()
# Traceback (most recent call last):
#   ...
# fake_useragent.errors.FakeUserAgentError
# You can catch it via
from fake_useragent import FakeUserAgentError
try:
    ua = UserAgent()
except FakeUserAgentError:
    pass

最后

以上就是虚拟龙猫为你收集整理的Python爬虫随机UserAgent库,让你不再手动敲UA!的全部内容,希望文章能够帮你解决Python爬虫随机UserAgent库,让你不再手动敲UA!所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(68)

评论列表共有 0 条评论

立即
投稿
返回
顶部