Skip to content

Meta披露性能超越生成式方法的计算机视觉模型,学习方式更接近人类

Meta披露性能超越生成式方法的计算机视觉模型,学习方式更接近人类

Meta首席人工智能科学家Yann LeCun提出了一种新的人工智能模型架构,能够克服当今人工智能系统的限制,获得更好的性能。而现在Meta披露了使用这个新架构所开发的计算机视觉模型I-JEPA(Image Joint Embedding Predictive Architecture),其特色在于能够关注真正的图像重点,并以更少的GPU训练时间获得更好的模型性能。

I-JEPA在多项计算机视觉任务表现,较当前广泛使用的计算机模型高上不少,而且计算效率也更好,I-JEPA模型所学习的资料表示(Representation),也可以在不需要大量微调的情况下,用在许多不同的应用程序。在机器学习中,表示指得是输入资料被转化成机器可以理解和处理的形式,也就是所捕捉到原始资料的特征和模式。

基于I-JEPA架构,研究人员使用16个A100 GPU,以72小时训练了一个6.32亿参数的视觉Transformer模型,在ImageNet资料集中的少样本分类任务性能表现,超越当前所有模型。研究人员提到,其他方法通常需要2到10倍的GPU训练时间,而且在使用相同资料训练时,错误率通常会高得多。

而I-JEPA高性能的秘密,就在其能够以更像人类理解抽象表示的方式,来预测缺失的资讯。一般生成式模型的预测发生在像素空间,而I-JEPA则是使用抽象的预测目标,而这也潜当地消除了像素空间中不必要的细节,进而使模型学习更多语义特征。

另一个I-JEPA重要设计,是使用一种称为多区块屏蔽策略(Multi-Block Masking Strategy)。I-JEPA在处理图像复杂输入时,不只是关注一小部分,而是放眼更大的范围,以便理解和学习更多的语义资讯,也就是说,多区块屏蔽策略的重要性,在于预测包含语义资讯的大块区域,而且这些区域的范围要足够大,才能有足够丰富的上下文来进行预测。

I-JEPA以高层次预测表示而非直接预测像素值,能够学习有用的表示,避开生成式方法的局限。研究人员指出,生成式方法通过删除和扭曲模型输入的部分内容来进行学习,像是抹除照片的一部分,或是隐藏文本段落中的某些单词,接着要求模型尝试预测丢失的像素和单词,来完成训练目的。

但这也造成生成式方法一个明显的缺点,生成式模型会尝试填补每一个缺失的资讯,即便是现实世界的本质并不可预测。由于生成式方法过于关注不重要的细节,导致容易出现人类永远不可能犯的错误,例如在生成人手的时候,可能出现不同数量的手指,或是其他明显的错误。

I-JEPA预训练非常高效,而且不需要使用复杂的资料增强方法,经过实验证实,I-JEPA能够学习出强大的语义表示,在ImageNet-1K的线性探索和半监督评估上,超越了像素和权限重建(Token-Reconstruction)方法,且与依赖人工资料增强的方法相比,I-JEPA在低端的视觉任务,像是物体计数和深度预测上表现得更好。I-JEPA架构的模型更简单,也更能够适应广泛的任务。

相关推荐: Wish公布消费者可将包裹寄存在Collect+零售商处

厦门商城系统开发7月22日消息,日前,PayPoint集团旗下的Collect+和Wish签署了一项合作伙伴关系,Wish将允许消费者点击并从Collect+零售商处领取包裹。随着数百万买家和数十万商家使用Wish市场,这种合作伙伴关系为在线购物者提供了进一步…

    码刀科技(www.lekshop.cn)是国内知名企业级电商平台提供商,为企业级商家提供最佳的电商平台搭建(多种模式电商平台搭建:B2B/B2B2C/B2C/O2O/新零售/跨境等)、平台管理系统开发及互联网采购解决方案服务, 联系客服了解更多.

    电子商务网站建设的重要性和好处