Meta运用圣经译本与录音改进语音模型,现可支持超过千种语言
Meta大幅推进语音识别技术,发布的单一多语言语音识别模型MMS(Massively Multilingual Speech)模型,能够识别超过4,000种的口说语言,而这个数量是目前已知技术的40倍。MMS也使得文本转语音,以及语音转文本技术,从原本只能用于约100种语言,现在扩展到1,107种。 要训练出能够识别大量语言的模型,Meta第一个遭遇到的困难是收集各种语言的音频资料,目前最大的语音资料集,也只不过涵盖100种语言而已,研究人员想到一个克服难题的方法,是利用圣经等宗教文本,这些文本已经被大量翻译成各种不同的语言,而且圣经翻译本也被广泛地用在文本语言翻译研究上。 这些宗教文本翻译也有公开的录音,因此Meta研究人员利用这些录音,创建出1,100多种语言的新约圣经音频资料集,每种语言平均有32小时的录音资料。除了圣经之外,还有许多基督教宗教读物无标签录音,也能够被拿来训练模型,使Meta得以将可用语言数量扩张至4,000多种。… Read More »Meta运用圣经译本与录音改进语音模型,现可支持超过千种语言