Meta披露性能超越生成式方法的计算机视觉模型，学习方式更接近人类

Meta首席人工智能科学家Yann LeCun提出了一种新的人工智能模型架构，能够克服当今人工智能系统的限制，获得更好的性能。而现在Meta披露了使用这个新架构所开发的计算机视觉模型I-JEPA（Image Joint Embedding Predictive Architecture），其特色在于能够关注真正的图像重点，并以更少的GPU训练时间获得更好的模型性能。

I-JEPA在多项计算机视觉任务表现，较当前广泛使用的计算机模型高上不少，而且计算效率也更好，I-JEPA模型所学习的资料表示（Representation），也可以在不需要大量微调的情况下，用在许多不同的应用程序。在机器学习中，表示指得是输入资料被转化成机器可以理解和处理的形式，也就是所捕捉到原始资料的特征和模式。

基于I-JEPA架构，研究人员使用16个A100 GPU，以72小时训练了一个6.32亿参数的视觉Transformer模型，在ImageNet资料集中的少样本分类任务性能表现，超越当前所有模型。研究人员提到，其他方法通常需要2到10倍的GPU训练时间，而且在使用相同资料训练时，错误率通常会高得多。

而I-JEPA高性能的秘密，就在其能够以更像人类理解抽象表示的方式，来预测缺失的资讯。一般生成式模型的预测发生在像素空间，而I-JEPA则是使用抽象的预测目标，而这也潜当地消除了像素空间中不必要的细节，进而使模型学习更多语义特征。

另一个I-JEPA重要设计，是使用一种称为多区块屏蔽策略（Multi-Block Masking Strategy）。I-JEPA在处理图像复杂输入时，不只是关注一小部分，而是放眼更大的范围，以便理解和学习更多的语义资讯，也就是说，多区块屏蔽策略的重要性，在于预测包含语义资讯的大块区域，而且这些区域的范围要足够大，才能有足够丰富的上下文来进行预测。

I-JEPA以高层次预测表示而非直接预测像素值，能够学习有用的表示，避开生成式方法的局限。研究人员指出，生成式方法通过删除和扭曲模型输入的部分内容来进行学习，像是抹除照片的一部分，或是隐藏文本段落中的某些单词，接着要求模型尝试预测丢失的像素和单词，来完成训练目的。

但这也造成生成式方法一个明显的缺点，生成式模型会尝试填补每一个缺失的资讯，即便是现实世界的本质并不可预测。由于生成式方法过于关注不重要的细节，导致容易出现人类永远不可能犯的错误，例如在生成人手的时候，可能出现不同数量的手指，或是其他明显的错误。

I-JEPA预训练非常高效，而且不需要使用复杂的资料增强方法，经过实验证实，I-JEPA能够学习出强大的语义表示，在ImageNet-1K的线性探索和半监督评估上，超越了像素和权限重建（Token-Reconstruction）方法，且与依赖人工资料增强的方法相比，I-JEPA在低端的视觉任务，像是物体计数和深度预测上表现得更好。I-JEPA架构的模型更简单，也更能够适应广泛的任务。

相关推荐: Wish公布消费者可将包裹寄存在Collect+零售商处

厦门 商城系统开发7月22日消息，日前，PayPoint集团旗下的Collect+和Wish签署了一项合作伙伴关系，Wish将允许消费者点击并从Collect+零售商处领取包裹。随着数百万买家和数十万商家使用Wish市场，这种合作伙伴关系为在线购物者提供了进一步…

码刀科技（www.lekshop.cn）是国内知名企业级电商平台提供商，为企业级商家提供最佳的电商平台搭建（多种模式电商平台搭建：B2B/B2B2C/B2C/O2O/新零售/跨境等）、平台管理系统开发及互联网采购解决方案服务, 联系客服了解更多.