Python爬虫随机UserAgent库，让你不再手动敲UA！

345 阅读 0 评论 228 点赞

我是靠谱客的博主虚拟龙猫，这篇文章主要介绍Python爬虫随机UserAgent库，让你不再手动敲UA！，现在分享给大家，希望可以做个参考。

前言

之前也懵懵懂懂写过python爬虫，但是经常被网站的反爬机制干趴下，然后手动写了个随机UA库，情况才好些。今天在互联网畅游时发现，有一个能够产生随机UA的第三方库！

安装第三方库

老生常谈啦，pip安装运行以下代码即可~

pip install fake-useragent

简单上手

简单上手很简单的，上代码~

from fake_useragent import UserAgent
ua = UserAgent()
print(ua.random)
# 输出：Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US) AppleWebKit/533.20.25 (KHTML, like Gecko) Version/5.0.3 Safari/533.19.4

ua.random就能产生一个随机UA了！这不禁让我想起了以前手动复制数个UA，然后再随机选择的代码…代码量蹭蹭的就下去了。

几十行->三行

正好体现了Python的简洁之美！

拓展（中文帮助文档）

fake-useragent： github

作者的信息概要也很精简：

Up to date simple useragent faker with real world database

帮助文档：

fake-useragent将会把收集到的数据存储在你的系统临时文件夹中，比如/temp

如果你想更新已有的数据库只需要这样：

from fake_useragent import UserAgent
ua = UserAgent()
ua.update()

如果你不想缓存数据库或者不生成写入文件：

from fake_useragent import UserAgent
ua = UserAgent(cache=False)

有时候， useragentstring.com or w3schools.com 更改他们的网址或者关闭网站，在这种情况下，fake-useragent 将会使用 heroku 的返回结果。

如果你不想使用托管缓存服务器：

from fake_useragent import UserAgent
ua = UserAgent(use_cache_server=False)

在非常罕见的情况下，如果托管的缓存服务器和源不可用，fake-useragent将无法下载数据:

from fake_useragent import UserAgent
ua = UserAgent()
# Traceback (most recent call last):
#   ...
# fake_useragent.errors.FakeUserAgentError
# You can catch it via
from fake_useragent import FakeUserAgentError
try:
    ua = UserAgent()
except FakeUserAgentError:
    pass