
Meta上周发布了可同时支持文本与图像生成的CM3Leon模型,这是史上第一个由纯文本语言模型配方所训练的多模态模型,并宣称其图像生成所使用的训练计算资源只要其它方法的1/5,即可达到先进性能。
CM3Leon是个基于Token、检索增强与decoder-only的模型,它采用因果隐蔽混合模态(Causal Masked Mixed-Modal,CM3)架构,代表该模型得以仅关注之前的元素来生成输出串行,确保生成内容的连贯性,且于训练过程中能够忽视或隐蔽某些组件,以生成更好的结果,还可同时处理文本及图像的输入。
Meta强调CM3Leon是个通用模型,通过单一模型即可处理许多不同的任务,像是以文本描述来生成图像,也能以文本描述来编辑图像,或者是要求该模型替图像生成图说等。
例如以文本要求它生成“在撒哈拉沙漠的一株小仙人掌戴上了一顶内嵌霓虹太阳眼镜的草帽”的图像;也能利用文本帮《戴珍珠耳环的少女》戴上墨镜,或是以文本调整天空的颜色;用户还可要求CM3Leon替图像生成图说,以文本描绘图像中的元素。
图片来源_Meta
研究人员表示,CM3Leon仅使用30亿个Token的文本数据进行训练,大幅低于OpenFlamingo的400亿个Token与Flamingo的1,000亿个Token,但它却能在替图像产生图说,以及回答图像问题等两个任务上,达到与OpenFlamingo相当的zero-shot性能等级。此外,它在回答VizWiz数据集中图像问题的表现还胜过Flamingo。
有别于今年5月大方开源集成文本、声音与视觉数据的多模态AI模型ImageBind,此次Meta并未公布是否或何时发布CM3Leon。
相关推荐: 《POPPY PLAYTIME》侵权风险不输《鱿鱼游戏》
图片来源:图虫创意 4月11日小Jude预警过《POPPY PLAYTIME》产生潜在侵权风险,没想到暴风雨来得这么快。 2022年4月22日,ENCHANTEDMOB, INC.委托了GBC代理维权: 22-cv-02094 22-cv-02095 22-c…
码刀科技(www.lekshop.cn)是国内知名企业级电商平台提供商,为企业级商家提供最佳的电商平台搭建(多种模式电商平台搭建:B2B/B2B2C/B2C/O2O/新零售/跨境等)、平台管理系统开发及互联网采购解决方案服务, 联系客服了解更多.