视频目标检测算法之Track&detection背景公式推导在两步法检测器中的应用效果

115 阅读 0 评论 76 点赞

我是靠谱客的博主典雅机器猫，这篇文章主要介绍视频目标检测算法之Track&detection背景公式推导在两步法检测器中的应用效果，现在分享给大家，希望可以做个参考。

视频目标检测之Track&detection

背景
公式推导
在两步法检测器中的应用
效果

之前的文章介绍了视频目标检测之后处理方法，接下来我们要介绍用于视频目标检测的Track&detection方法，这种方法就是在一个模型里同时实现了追踪和目标检测，具体要介绍的文章是：
Integrated Object Detection and Tracking with Tracklet-Conditioned Detection

背景

最开始的追踪和检测算法是在每一帧中进行目标检测，再将所有帧的检测结果组合成目标轨迹。这种方法简单，但追踪对目标检测是完全没有帮助的。为了解决这一问题，有些方法是将上一帧的bounding box传播到当前帧再加上当前帧的目标检测结果作为新的目标检测结果。整个算法流程如下图所示。显然改进后的方法并没有提高目标检测器本身的效果。因此作者提出了一种将追踪和目标检测融合在一起的新方法。
在这里插入图片描述

公式推导

作者的目标是通过利用之前的目标检测和追踪来提高当前帧的检测结果。转换为数学表达式就是：已知当前帧候选框和之前所有的目标轨迹，求每个候选框类分数的条件概率， $P(c|b^{t}_{i},(d^{t-1}_{j}))$ 。
根据概率论，可以直接展开为 $P(c|b^{i}_{t},(d^{j}_{t-1}))=sum_{j=0}^{m}omega(b^{t}_{i},(d^{t-1}_{j}))P(c|b^{t}_{i},d^{t-1}_{j})$

该式子可以理解为所有追踪轨迹对预测类别的影响=每个追踪轨迹对预测类别的影响的求和。显然不同轨迹对预测类别影响肯定是不一样的，所有这里需要加一个权重 $ω$ 。

求解上式，只需要知道 $omega(b^{t}_{i},(d^{t-1}_{j}))$ 和 $P(c|b^{t}_{i},d^{t-1}_{j})$ 这两部分。先看看怎么求 $P(c|b^{t}_{i},d^{t-1}_{j})$

根据p(x|y,z)=p(x|y)·p(x|z)，可展开得到 $P(c|b^{t}_{i},d^{t-1}_{j})=P(c|b^{t}_{i})·P(c|d^{t-1}_{j})$ , 同样可以写成 $P(c|b^{t}_{i},d^{t-1}_{j})=exp(logP_{det}(c|b^{t}_{i})+alpha logP_{tr}(c|d^{t-1}_{i}))$

公式中加 $α$ 同样是为了衡量目标检测器和轨迹对类分数的影响。最后作者还对其进行了归一化。在这个式子中 $P_{det}(c|b^{t}_{i})$ 是已知的，即目标检测器预测的类分数，整个式子只有 $P_{tr}(c|d^{t-1}_{i})$ 未知。

作者给出了求解式子，如图所示。简单来说，对于t时刻，每一个轨迹都会维护一个 $P^{t}_{tr}$ 值，它是由 $P^{t-1}_{tr}$ 和 $P(c|b^{t-1}_{i},(d^{t-2}_{j}))$ 计算得到。

到这里 $P(c|b^{t}_{i},d^{t-1}_{j})$ 就已经求得了，接下来看怎么求解 $omega(b^{t}_{i},(d^{t-1}_{j}))$ 。在下图底部给出了。

改式表达的是计算不同候选框的特征相似度

到这一步就可以求出整个式子了，接下来看如何使用
在这里插入图片描述

在两步法检测器中的应用

通过上一部分的介绍，可以求出每个候选框的类分数，具体的算法流程如下。
在这里插入图片描述
显然作者提出的算法可以插入到任何一个有候选框的算法里面。在论文里，作者举了在两步法中的应用。在RPN和Detection阶段都可以应用该算法。在RPN中，轨迹更加稠密，并且只有两个类别(背景+前景)，而detection阶段，轨迹更加稀疏，有c+1类(1代表背景)。
在这里插入图片描述