Skip to content

Google发布地理多样性图片说明资料集

Google发布地理多样性图片说明资料集

Google发布图片说明评估资料集Crossmodal-3600,该资料集可作为语言图像说明的基准,使研究人员可以更可靠地研究该领域。Crossmodal-3600以36种语言,对世界各地不同的3,600张照片,加上261,375个人工生成的参考说明,研究人员提到,Crossmodal-3600的图片说明品质很好,而且在不同语言中维持风格一致。

替图像自动产生说明是近年新兴的机器学习领域,针对给定的图像自动生成自然语言文本,这项工作有助改善视障用户的可访问性,Google提到,目前用于图像字幕的资料集主要以英文为主,只有少数资料集涵盖有限数量的语言,而且这些资料集无法表现全球文化的丰富性和多样性,也就阻碍了各种语言对图片说明的研究。

Crossmodal-3600包含36种语言,由人工手动对Open Images资料集中3,600张具地理多样性的图片,添加261,375个人工生成的参考说明。研究人员选择英语之外的30种语言,大致根据网络内容所占的百分比,另外,他们还另外选择了5种资源较少的语言,将英文当作基准,最终产生36种语言的图片说明。

Crossmodal-3600中的图像使用具有元数据的Open Images资料集,但因为有许多区域使用一种以上的语言,而且这些图像并没有良好地覆盖部分区域,因此研究人员设计了算法,来最大化所选图像和目标语言区域之间的对应关系。

Google在各语言区域都对应了100幅图像,总共3,600张图片用36种语言进行注解,每种语言平均有两种注解,总共产生261,375个图说。经过训练的模型会先对图片产生初始的图说,Google再请注解者评估模型产生的说明,并且随后要求注解者单独对每张图像,添加目标语言的描述性说明,Crossmodal-3600资料集便是由这些注解者编写的说明组成。

研究人员通过训练4种图片说明生成模型变体,并使用Crossmodal-3600资料集,比较CIDEr指标和人工评估的输出,研究人员提到,CIDEr分数差异与人工评估有很强的关联性,也就是说Crossmodal-3600可针对英语之外的语言,实现自动比较图片说明品质。

相关推荐: 英国购物趋势:空气炸锅、保暖内衣和羽绒被等遭疯抢

英国零售商协会(BRC)表示,英国消费者正在抢购毯子、蜡烛和空气炸锅等产品,试图在今年冬天降低家庭能源成本。数据分析机构Kantar表示,截至9月4日的4周内,慢炖锅、空气炸锅和三明治机在内的节能烹饪用具,销售额同比增长了53%。 10月,英国消费者对羽绒被和…

    码刀科技(www.lekshop.cn)是国内知名企业级电商平台提供商,为企业级商家提供最佳的电商平台搭建(多种模式电商平台搭建:B2B/B2B2C/B2C/O2O/新零售/跨境等)、平台管理系统开发及互联网采购解决方案服务, 联系客服了解更多.

    电子商务网站建设的重要性和好处