我是靠谱客的博主 优雅草丛,最近开发中收集的这篇文章主要介绍【知识星球】视频分类模型和数据集板块汇总介绍,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

欢迎大家来到《知识星球》专栏,这里是网络结构1000变和数据集小专题。

作者&编辑 | 言有三

1 视频分类问题

基于深度学习的视频分类包含非常多的方法,如3D卷积,双流法,LSTM时序模型等,在有三AI知识星球中有非常多的相关模型解读,案例如下:

有三AI知识星球-网络结构1000变

LiteFlowNet

640?wx_fmt=png

FlowNet以及FlowNet2证明了CNN可以用于光流估计,尤其是FlowNet2已经达到了传统变分法的精度,但是模型超过100M,SPyNet虽然只有1.2M但是精度不够。LiteFlowNet是一个兼顾精度和模型大小,速度优势的轻量级模型,大小只有FlowNet2的30分之一,速度是它的1.36倍。

作者/编辑 言有三

如上图所示,LiteFlowNet由两个紧凑的子网络NetC和NetE组成,分别用于金字塔特征提取和光流估计,与同样采用金字塔结构的SPyNet相比,这种策略将特征提取和光流估计分为两个步骤,方便更好地控制模型性能。

NETC为一个两输入的网络,两个网络共享滤波器权重。注意这里的warp操作使用的是特征warp,而不是在FlowNet中使用的图片warp。

其一,在FLowNet中会将image2和光流进行warping操作,然后对其提取特征,这里就将其合并为一个操作,直接在特征层面完成,这样精度反而更高,计算代价也更低。

其二,NetE也是一种级联形式的方法,这样的金字塔式的结构学习光流的过程更加稳定,也逐步降低学习误差。

640?wx_fmt=png

该学习包括两个步骤,分别是M和S。

M过程即descriptor matching,输入上一级的光流估计和特征F2,F1,估计残差。

640?wx_fmt=png

S过程即sub-pixel refinement,是在M过程的基础上进一步提高精度。

640?wx_fmt=png

其三,对光流估计每一层都做了正则化约束,其实就是一个平滑操作使得光流的边界更加平滑。


整个网络非常的复杂,细节也很多,感兴趣的同学需要去细读原文。以上三个技术的实际效果展示如下,可知道对改善效果都是正向的作用。

640?wx_fmt=png

在数据集上完整的实验结果如下,兼顾性能和精度优势。

640?wx_fmt=png

640?wx_fmt=png

[1] Hui T W, Tang X, Change Loy C. Liteflownet: A lightweight convolutional neural network for optical flow estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8981-8989.

另外也有非常多的数据集提供解读和下载。

有三AI知识星球-数据集

Kinetics-700 dataset

640?wx_fmt=gif

Kinetics-700 dataset是一个视频分类/行为识别数据集,被用于ActivityNet比赛,包含约650000个视频,700个类别。

作者/编辑 言有三

数据集地址:https://deepmind.com/research/open-source/open-source-datasets/kinetics/,发布于2019年。

ActivityNet比赛始于2016的CVPR,是与ImageNet齐名的在视频理解方面最重要的比赛。在这个比赛下的Task A–Trimmed Action Recognition比赛是一个视频分类比赛,2019年的比赛使用kinetics-700数据集,在此之前还有2017年的kinetics-400和2018年的kinetics-600。

数据集是Google的deepmind团队提供,每个类别至少600个视频以上,每段视频持续10秒左右,标注一个唯一的类别。

行为主要分为三大类:

(1) 人与物互动,比如演奏乐器;

(2) 人人互动,比如握手、拥抱;

(3) 运动等。


虽然每一个视频只会标记一个标签,但是它可以包含几种动作。例如开车”时“发短信”,“弹奏尤克里里”时“跳草裙舞”等,因此取top-5的准确率更为合适。另外很多的运动也容易混淆,比如跳远和三级跳远,吃汉堡和吃甜甜圈,因此这个数据集具有非常高的难度,仍然是当前算法的评测基准。


一些类别的展示如下:

640?wx_fmt=jpeg

[1] Kay W, Carreira J, Simonyan K, et al. The kinetics human action video dataset[J]. arXiv preprint arXiv:1705.06950, 2017.

2 如何掌握网络设计和数据使用

关于如何系统性学习网络结构设计和数据使用,可以阅读我们对星球生态的介绍,有三风格的干货,相信你不会失望。

如何系统性掌握深度学习模型设计和优化

如何系统性掌握深度学习中的数据使用

有三AI知识星球的内容非常多,大家可以预览一些内容如下。

640?wx_fmt=png

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg


以上所有内容

加入有三AI知识星球即可获取

来日方长

点击加入

不见不散

更多精彩

每日更新


640?wx_fmt=jpeg

转载文章请后台联系

侵权必究

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

往期精选

  • 揭秘7大AI学习板块,这个星球推荐你拥有

  • 有三AI 1000问回归,备战秋招,更多,更快,更好,等你来战!

  • 【知识星球】做作业还能赢奖金,传统图像/机器学习/深度学习尽在不言

  • 【知识星球】颜值,自拍,美学三大任务简介和数据集下载

  • 【知识星球】数据集板块重磅发布,海量数据集介绍与下载

  • 【知识星球】猫猫狗狗与深度学习那些事儿

  • 【知识星球】超3万字的网络结构解读,学习必备

  • 【知识星球】视频分类/行为识别网络和数据集上新

  • 【知识星球】3D网络结构解读系列上新

  • 【知识星球】动态推理网络结构上新,不是所有的网络都是不变的

  • 【知识星球】Attention网络结构上新,聚焦才能赢

  • 【知识星球】几个人像分割数据集简介和下载

  • 【知识星球】总有些骨骼轻奇,姿态妖娆的模型结构设计,不知道你知不知道,反正我知道一些

  • 【知识星球】从SVM对偶问题,到疲劳驾驶检测,到实用工业级别的模型压缩技

  • 【知识星球】图像降噪模型和数据集内容开启更新,经典问题永垂不朽!

最后

以上就是优雅草丛为你收集整理的【知识星球】视频分类模型和数据集板块汇总介绍的全部内容,希望文章能够帮你解决【知识星球】视频分类模型和数据集板块汇总介绍所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(37)

评论列表共有 0 条评论

立即
投稿
返回
顶部