继承ConvNet和Transformer优点的位置敏感的循环卷积。
01
概述
最近,vision transformers开始显示出令人印象深刻的结果,显着优于基于大型卷积的模型。然而, 在移动或资源受限设备的小型模型领域 ,ConvNet在性能和模型复杂度方面仍然具有自己的优势。研究者提出了ParC-Net,这是一种纯基于ConvNet的骨干模型,通过将vision transformers的优点融合到ConvNet 中,进一步增强了这些优势。 ConvNet与ViT模型图像分类实验结果对比 具体来说,研究者提出了位置感知循环卷积(ParC),这是一种轻量级的卷积运算,它拥有全局感受野,同时产生与局部卷积一样的位置敏感特征。将 ParCs 和 squeeze-exictation ops 结合起来形成一个类似于元模型的模型块,它还具有类似于transformers的注意力机制。上述块可以 即插即用 的方式使用,以替换ConvNets或transformers中的相关块。 实验结果表明,在常见的视觉任务和数据集中,所提出的ParC-Net比流行的轻量级ConvNets和基于vision transformers的模型具有更好的性能,同时具有更少的参数和更快的推理速度。对于ImageNet-1k上的分类,ParC-Net在大约500万个参数的情况下实现了 78.6%的top-1准确率 , 节省了11%的参数和13%的计算成本,但准确率提高了0.2 %,推理速度提高了23% (基于ARM的Rockchip RK3288)与MobileViT相比,仅使用0.5倍的参数,但与DeIT相比获得了2.7%的准确度。在MS-COCO目标检测和PASCAL VOC分割任务上,ParC-Net也表现出更好的性能。