和 OpenAI、Google 分道扬镳,Meta 在开源大模型方向上越走越深。
今日,Meta 在 GitHub 上再次开源了一款全新的 AI 语言模型——Massively Multilingual Speech (MMS,大规模多语种语音),它与 ChatGPT 有着很大的不同,这款新的语言模型可以识别 4000 多种口头语言并生成 1100 多种语音(文本到语音)。
(资料图片)
在上线短短的几个小时,该 GitHub 库便收获了 23k Star,Fork 数量高达 5.5k。
GitHub 地址:https://github.com/facebookresearch/fairseq/tree/main/examples/mms
01.初衷
对于开发这款 MMS 模型,Meta 表示,「为设备配备识别和产生语音的能力可以让更多的人访问信息」。
不过,虽然全球已知的语言种类高达 7000 多种,但是现有的 AI 语音识别模型仅能够涵盖 100 种语言,范围太小了。
同时,语音识别和文本转语音模型通常需要对数千小时的音频进行训练,对于大多数语言而言,这些数据根本就不存在。甚至全球多种语言在时代不断发展中,会有不少在未来几十年有消失的危险。
为了能够保护世界上语言的多样性,也想要为濒临消失的语言做一些贡献,Meta 研究团队研发并开源了 MMS,「我们公开分享我们的模型和代码,以便研究界的其他人可以在我们工作的基础上进行构建」。
当然,想要收集数千种语言的音频数据是开发这款大模型首先需要克服的困难。
在最新的 MMS 开源语音模型中,Meta 使用了一种非常规的方法来收集音频数据,他们使用了圣经等宗教文本。
Meta 对此解释称,“我们使用宗教文本,是因为这些文本已被翻译成多种不同的语言,并且其译文已被广泛研究用于基于文本的语言翻译研究。这些翻译有公开的录音,记录了人们用不同的语言阅读这些文本的情况。”
作为大模型项目的一部分,Meta 创建了 1100 多种语言的数据集,每种语言平均提供 32 小时的数据。
另外,结合圣经和类似文本的未标记录音,Meta 的研究人员将模型的可用语言增加到 4,000 多种。
02.支持数千种语言的单一语音模型
当然,依靠这些数据,很多人认为这个是偏向宗教的一种 AI 模型。事实上,Meta 表示,并非如此。
Meta 在公告中写道,“虽然录音的内容是宗教的,但我们的分析表明,这并没有使模型过度偏向于产生更多的宗教语言。我们认为这是因为我们使用了连接主义时间分类 (CTC) 方法,与用于语音识别的大型语言模型 (LLM) 或序列到序列模型相比,这种方法受到的限制要大得多。”
在训练这个模型时,Meta 结合使用了自家公司的“自监督语音表示学习”模型——wav2vec 2.0,它可以在未标记的数据上进行训练。结合非常规数据源和自我监督的语音模型能够带来不错的效果。
根据官方测试数据表明,与现有的模型相比,Meta 在使用 1B 参数 wav2vec 2.0 模型在 1,100 多种语言上训练了多语言语音识别模型。随着语言数量的增加,性能确实会下降,但幅度很小:从 61 种语言增加到 1,107 种语言,字符错误率仅增加了约 0.4%,但语言覆盖率增加了 18 倍以上。
在与 OpenAI 的 Whisper 模型比较时,其在 Massively Multilingual Speech 数据上训练的模型实现了一半的单词错误率,但 Massively Multilingual Speech 涵盖的语言是其 11 倍。
毋庸置疑,MMS 开源模型的到来,不仅扩大了文本生成语音的语言范围,也极大地提升了准确率。
03.局限性
不过,Meta 警告说它的新模型并不完美。该公司写道:“例如,语音转文本模型可能会错误转录选定的单词或短语,这存在一定风险。”
“根据输出结果,这可能会导致攻击性或不准确的语言。我们仍然相信,整个 AI 社区的协作对于负责任地开发 AI 技术至关重要。”
对于语音大模型的未来,Meta 称也做了设想,希望可以通过一个模型解决所有语言的多个语音任务。“虽然我们为语音识别、语音合成和语言识别训练了不同的模型,但我们相信在未来,一个模型将能够完成所有这些任务以及更多任务,从而带来更好的整体性能”,Meta 说道。
当然,我们也期望这一天能够早日到来。
下一篇: 最后一页
X 关闭
X 关闭
爱美之心人皆有之。都说头发是人的第二张脸,如果头发毛躁、像枯草一样,就算再美的颜值,在别人眼中也会大打折扣。怎么样打造柔顺健康的秀
(上海战疫录)上海高校架“云梯” 校企隔空交流保就业服务不断线 中新网上海4月23日电(记者陈静)新冠肺炎疫情防控之下,即将走上社
中新网西宁4月23日电 (孙睿 赵倩)记者23日从青海省格尔木市官方获悉,柴达木盆地首家“护蕾女童温馨小屋”——青海省妇女儿童保护“
(上海战疫录)守“沪”日志:沪人居家“读”处 “文艺团购”线上送“书香” 中新网上海4月23日电 题:守“沪”日志:沪人居家“读
(抗击新冠肺炎)内蒙古满洲里新增3例本土确诊病例 年龄最大的86岁 中新网满洲里4月23日电 (记者 张玮)23日,内蒙古自治区满洲里市
中新网北京4月23日电 (徐婧)北京市疾病预防控制中心副主任、全国新型冠状病毒肺炎专家组成员庞星火在23日的疫情防控新闻发布会上通报
中新网兰州4月23日电 (记者 冯志军)中国核城“四〇四”,曾被网友称为“一个地图上找不到的地方”,近年开始在甘肃嘉峪关市城区建起
(上海战疫录)增援民警诉说方舱里的“生活百态” 中新网上海4月23日电 题:增援民警诉说方舱里的“生活百态” 作者 李姝徵 宋
中新网北京4月23日电(徐婧)北京市朝阳区人民政府副区长杨蓓蓓在23日召开的北京疫情防控新闻发布会上表示,全区学校每周进行三次全员核
中新网北京4月23日电(徐婧)北京市朝阳区人民政府副区长杨蓓蓓在23日召开的北京疫情防控新闻发布会上表示,潘家园街道松榆东里11号楼、4