首页 > 新闻中心 > 掌酷科技 > 数码 > VRAR >

不是所有图像都值16x16个词,清华与华为提出动态(2)
2021-06-05 13:01 量子位

研究团队在此基础上,还进一步提出了 特征重用机制关系重用机制,它们都能够通过最小化计算成本来显著提高测试精度,以减少冗余计算。

前者允许在先前提取的深度特征的基础上训练下游数据,而后者可以利用现有的上游的自注意力模型来学习更准确的注意力。

这种对“简单”“困难”动态分配的方法,其现实效果可以由下图的实例给出说明。

那么,接下来让我们来看看这两种机制具体是怎么做的?

特征重用机制

因此,下游模型应该在之前获得的深度特征的基础上进行学习,而不是从零开始提取特征。

在上游模型中执行的计算对其自身和后续模型都有贡献,这样会使模型效率更高。

为了实现这个想法,研究团队提出了一个特征重用机制。

简单来说,就是利用上游Transformer最后一层输出的图像tokens,来学习逐层的上下文嵌入,并将其集成到每个下游Transformer的MLP块中。

关系重用机制

Transformer的一个突出优点是:

自注意力块能够整合整个图像中的信息,从而有效地模型化了数据中的长期依赖关系。

通常,模型需要在每一层学习一组注意力图来描述标记之间的关系。

除了上面提到的深层特征外,下游模型还可以获得之前模型中产生的自注意力图。

研究团队认为,这些学习到的关系也能够被重用,以促进下游Transformer学习,具体采用的是对数的加法运算。

效果如何?

多说无益,让我们看看实际效果如何?

在ImageNet上的 Top-1准确率v.s.吞吐量如下图。

可以看出,DVT比T2T-VIT计算效果要更好:

当预算范围在0.5-2 GFLOPs内时,DVT的计算量比相同性能的T2T-ViT少了1.7-1.9倍。

此外,这种方法可以灵活地达到每条曲线上的所有点,只需调整一次DVT的置信阈值即可。

标签: 清华 华为 提出 图像
0

上一篇:红色教育系统之VR狼牙山五壮士模拟体验
下一篇:没有了
官方微信公众号:掌酷门户(wapzknet)

首页 > 新闻中心 > 掌酷科技 > 数码 > VRAR >
相关资讯

新闻热点
精选美图


客户端合作免责友链
Copyright 2009-2021 蜀ICP备09035849号