一个简单、渐进、但必须知道的基线:用于 Vision Transformer 的自监督学习。尽管标准卷积网络的训练方法已经非常成熟且鲁棒,然而ViT的训练方案仍有待于构建,特别是自监督场景下的训练极具挑战。
1
背景
一个简单、渐进、但必须知道的基线:用于 Vision Transformer 的自监督学习。尽管标准卷积网络的训练方法已经非常成熟且鲁棒,然而ViT的训练方案仍有待于构建,特别是自监督场景下的训练极具挑战。
1
背景