Skip to content

AWS开源支持51种语言的数字助理AI训练资料集、程序代码

AWS开源支持51种语言的数字助理AI训练资料集、程序代码

Amazon本周发布名为MASSIVE的资料集,供开发商训练能理解多种语言的数字助理使用的AI模型。

到2023年全球将因智能手机的普及而有80多亿个AI虚拟助理,还有超过1亿台智能音箱。然而大部分虚拟助理都仅能使用1种或仅数种主流语言。此外这些数字助理的训练还面临标注资料不足、去除资料讹误、维护和更新模型的成本等问题,进一步限制了数字助理的口语翻译的能力。

大量多语自然语言理解(massively multilingual natural-language understanding,MMNLU)模型即希望解决这个问题。Amazon Alexa AI自然语言理解部门科学家Jack FitzGerald指出,这愿景下,单一机器学习模型能分析和理解多种语言。通过学习跨语言的共享资料展现(data representation),这个模型可以从有很丰富训练资料的主流语言学习到的知识,转移到资料很稀少的语言上。

为推动MMNLU模型创建,Amazon宣布发布MASSIVE资料集。MASSIVE资料集包含跨51种语言加注过的100万项话语或单词(utterance)及开源程序代码。资料集包括训练、验证和测试资料,后者则提供MMNLU模型的执行范例,协助AI项目人员创建意图分类(intent classification)或词槽填充(Slot Filling)的结果基准线(baseline)。

MASSIVE为平行资料集,意味每个单词都有51种语言版本,这可让模型学习到同一意图的共享表达方式,可加速自然语言理解(NLP)任务的跨语言训练,也能用于其他NLP任务,如机器翻译、多语复述(multilingual paraphrasing)等等。MASSIVE通过CC BY 4.0授权开源,以鼓励学界及业界使用。

Amazon同时还宣布MMNLU-22竞赛(Massively Multilingual NLU 2022),鼓励开发人员利用MASSIVE资料集创建模型。

相关推荐: B2B电子商务平台EC21通过集成Payoneer的担保解决方案,推出交易功能

纽约,2017年6月8日– EC21宣布推出由Payoneer派安盈的担保服务提供技术支持的全新交易功能。EC21是全球B2B平台之一,是连接全球数百万供应商和买家的桥梁和纽带。通过集成Payoneer的担保服务API,EC21现在可以从局限于促进贸易询盘的传…

    码刀科技(www.lekshop.cn)是国内知名企业级电商平台提供商,为企业级商家提供最佳的电商平台搭建(多种模式电商平台搭建:B2B/B2B2C/B2C/O2O/新零售/跨境等)、平台管理系统开发及互联网采购解决方案服务, 联系客服了解更多.

    电子商务网站建设的重要性和好处
    Tags: