概述
下载的megaface测试数据集
megaface测试数据集和devkit,下载的文件有:
①MegaFace Dataset(65GB),即Gallery dataset,或Distractors
②FaceScrub full tgz —16.4 GB,即probe(我选的是原始图片,即uncropped)
③Linux Development Kit (.zip) (.tar.gz) —16 MB,python程序,给定特征文件,用来计算测试结果的
MegaFace数据集 组成和介绍
- 干扰样本集, 即Gallery dataset,或Distractors:100w张图片,69w个人,为Megaface数据集的主体部分。
训练集:采用MF2训练集,取自Flickr(雅虎数据集),含470w张图片,67w个人,平均每个人有7张图片(最少3张,最多2469张)。用于challenge2。- 测试集, 即probe, 分两个:FaceScrub Celebrities和FGNet Age-invariant non-celebrities。
- facescrub包含530个人的10万幅图像,其中55742幅男性图像,52076幅女性图像。为了提高效率,算法评估中只随机选取其中每人含图像超过50张的80人(40男40女),并每人中随机选50张图像,进行测试。
- FGNet是跨年龄的人脸数据集,包含来自于82个人的1002幅图像。每个人有来自于不同年龄(从1到69)的多幅图像。主要用于评估算法在年龄跨度大的情况下的识别性能。正对的数量。
- 挑战项分两个:Challenge 1是在任意数据库上进行训练,然后在100w干扰图片下进行测试;
Challenge 2是在给定的470w图片67w人的MF2训练集上进行训练后测试。
MegaFace数据的清洗
对于提供的probe set和distractors,其中有很多错误(probe set中有些图片并不是本人,然后distractors中有些图片是probe set中的人)。参照Insight face给出的nosies.txt,作者从Facesrub数据集中删除了605幅噪声图像,从MegaFace gallary set中删除了707幅噪声图像。作者公布了这些噪声图像的编号单,进行清除,然后生成特征进行比对。
对于官方给的Identification.bin评测程序,注意的就是要把json文件的名称和特征名称匹配就行了。参照Insight face,用LResNet50E-IR,模型进行测试得到rank1=97.2%
Megaface Challenge1 评测步骤
Gallery中的每个图片的身份标签是没有给的,当我们使用Probe去探测时,探测完成后我们找到了一张和Probe最相近的图像,但是由于没有身份标签,我们怎么判断找到的这张图像和Probe的身份是否相同呢?
Identification逻辑
Identification评测逻辑,就是假设 probe set 有N个人,每个人有M张图片,每次选取一张图片作为probe photo,然后把剩余的M-1张,在单独每一张和distractors一起组成gallery,然后进行比对,计算rank1,rank10到rank=k的准确率,最终得到CMC曲线,其中相当于比对了N∗M∗(M−1)次。
即为 每次从 probe set 选取1张图片(需要选取 N * M 次)
probe photo = 选取的这张图片
gallery photo = distractors + 这张图片的人的剩下(M-1)张图片中的一张 (需要选取 M-1 次)
最相似的预测是prob set 放进去gallery的那张,是有标签的,可以直接进行判断。
(共 N * M * M-1 次测试)
识别率:
I
d
e
n
t
i
f
i
c
a
t
i
o
n
R
a
t
e
=
识
别
成
功
次
数
/
(
N
∗
M
∗
(
M
−
1
)
)
Identification Rate = 识别成功次数 / (N * M *(M-1))
IdentificationRate=识别成功次数/(N∗M∗(M−1))
结果以累积特征匹配(CMC, Cumulative Match Characteristics)呈现出来,CMC即从probe集合中被抽取放到gallery中的那张图像,在测试时被任意probe以rank=K成功挑选出来的概率。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GJHyaHlg-1592023765859)(https://cjmcv.github.io/deeplearning-paper-notes/images/pdDataset/megaface2.png)]
图表解释:
1. 上面三张图片为 FaceScrub 测试集 ,下面的三张图片为 FGNET 测试集
2. 横坐标为 Rank ,纵坐标为 Identification Rate
3. 曲线解释:Rank 越大,Identification Rate越高;
当 Rank >= 测试集总量时,Identification Rate 必定为 100%
性能以ROC曲线来评估,共有三个指标:rank-N、识别率、干扰图像数量。
rank-1表示正确匹配的结果在整个数据集上取得最高分,rank-10即正确匹配结果的评分排在前10位。
(MegaFace竞赛中主要看的是rank-1,以识别率为纵坐标,以干扰图像数量为横坐标,分别算出在10, 100, 1000, 10000, 100000, 1000000个干扰图像下的识别率,作出ROC曲线。)~~
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tms5aTiV-1592023765860)(https://cjmcv.github.io/deeplearning-paper-notes/images/pdDataset/megaface3.png)]
Verification逻辑
人脸验证,即给定一对图像,由算法去判断这两张图像内是否同一个人。
(这里以facescrub随机选取的的80人(40男40女),并每人中随机选50张图像 为标准)
- 正样本: probe数据集 每个人自己的图片 组合对 ,共 80 * 50 * 50 个正对
- 负样本: probe数据集和Megaface干扰数据集的所有图像对,共 80 * 50 * 100 万 = 40亿个负对
结果以ROC曲线呈现出来,能在FP误报(falsely accepting non-match pairs)和FN拒识(falsely rejecting match pairs)之间权衡。
FPR=FP/N
N是真实负样本的个数,
FP是N个负样本中被分类器预测为正样本的个数。
FPR是将负样本识别为正样本
TPR=TP/P
P是真实正样本的个数,
TP是P个正样本中被分类器预测为正样本的个数。
TPR是将正样本识别为正样本
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GFD2V7E0-1592023765862)(https://cjmcv.github.io/deeplearning-paper-notes/images/pdDataset/megaface4.png)]
图表解释:
1. 上面两张图片为 FaceScrub 测试集 ,下面的两张图片为 FGNET 测试集
2. 横坐标为 FPR ,纵坐标为 TPR
3. 曲线解释:FPR 越大 ==> 表示判断两张图片相似的阈值越大 ==> TPR 越大;
FPR 极低的时候,阈值越小,正样本越容易判断为负样本,使得 TPR 非常小。
参考
- https://cjmcv.github.io/deeplearning-paper-notes/fdataset/2016/10/01/MegaFace.html
- https://blog.csdn.net/liuweiyuxiang/article/details/88600407
- https://blog.csdn.net/realmanma/article/details/77429726
最后
以上就是粗犷茉莉为你收集整理的megaface 数据集组成,介绍,Identification/Verification逻辑下载的megaface测试数据集MegaFace数据集 组成和介绍MegaFace数据的清洗Megaface Challenge1 评测步骤参考的全部内容,希望文章能够帮你解决megaface 数据集组成,介绍,Identification/Verification逻辑下载的megaface测试数据集MegaFace数据集 组成和介绍MegaFace数据的清洗Megaface Challenge1 评测步骤参考所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复