开源历史上最强大的元语音“基础模型”:同时支持 1,600 多种语言

刚刚,Meta AI FAIR团队公布了他们在自动语音识别(ASR)领域的最新成果:全语言ASR。这是一组可以提供1600多种语言的自动语音识别能力的模型。其规模和质量均迈上新台阶。值得注意的是,这个框架的设计是社区驱动的,允许世界各地的人们只需提供一些他们自己的例子就可以将全语言 ASR 扩展到新的语言。同时,还有一些相关的开源项目。全语言 ASR 语料库:350 种服务不足的语言的大规模转录语音数据集 全语言 wav2vec 2.0:可扩展至 70 亿个参数的大规模多语言语音表示模型 语言探索演示:允许您探索模型所针对的语言的演示。目前,大多数ASR系统都集中在互联网上资源丰富的少数语言上,加剧了资源较少的语言使用者面临数字鸿沟。全语言 ASR 由 Meta FAIR 团队推出,旨在通过通用转录系统为代表性不足的语言社区带来高质量的语音转文本技术。其最终目标是打破语言障碍,实现语言和文化背景之间的交流。下载:https://github.com/facebookresearch/omnilingual-asr 语言探索演示:https://aidemos.atmeta.com/omnilingualasr/ language-globe 转录工具:https://huggingface.co/spaces/facebook/omniasr-transcriptionspaper: https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-langages/前所未有的语言覆盖范围和性能虽然ASR技术近年来在许多高资源语言上已接近完成,但扩大语言覆盖范围一直是一项资源密集型任务,并且现有的AI架构对数据要求较高帽子太高而无法实现普遍规模。全语言 ASR 通过引入两种架构变体解决了这一研究瓶颈。首先,该团队首次将 wav2vec 2.0 音频编码器扩展至 70 亿个参数,从未转录的音频数据生成丰富、大规模的多语言语义表示。然后,该团队构建了两个解码器变体,将这些表示映射到字符序列。 1. 一是基于联结主义时间分类(CTC)的传统目标。 2.另一种采用LLM中常见的传统Transformer解码器。这种方法称为 LLM-ASR,实现了 ASR 性能的增量改进,尤其是对于长尾语言。结果显示,该公司的 7B-LLM-ASR 系统在 1,600 多种语言中实现了 SOTA 性能,语言字符错误率 (CER) 低于 10,为 78%。 引入独特语言 除了扩展到 1,600 多种语言之外,全语言 ASR 还形成了引入新语言的范例。大多数现有系统需要专家调整才能添加新语言。全语言 ASR 提出了第一个大规模 ASR 框架,只需使用几个示例上下文即可扩展到全新的语言。这是由于受法学硕士启发的系统提供了大规模语言模型领域的上下文学习能力。在实践中,这意味着不支持的语言的用户只需提供几对音频和文本样本即可获得可用的转录质量,而不需要大量的数据、培训、经验或高级计算资源。针对不同用例的一组模型。元是一组综合的模型和数据集。我们发布了该应用程序的第一个版本,为利益相关者提供了扩展和改进任何语言的语音技术所需的一切。型号系列:有两种解码器变体可供选择,从专为低功耗设备设计的轻量级 300M 版本强大的 7B 模型为各种用例提供​​了高水平的准确性。基础模型:wav2vec 2.0 通用语音基础模型还有各种尺寸可供选择,可用于 ASR 以外的语音相关任务。所有模型均在宽松的 Apache 2.0 许可证下发布,并且数据可在 CC-BY 许可证下获取。这些资产基于 FAIR 的开源 Fairseq2 框架,并与全球合作伙伴合作创建。 ASR 全语言训练语料库是迄今为止在数量和语言多样性方面最大的 ASR 语料库之一,并集成了公开可用的数据集和通过多个合作伙伴收集的社区来源的录音。为了接触数字足迹较低的语言,该团队与当地组织合作,招募母语人士并为其提供报酬,这些地区通常是在偏远和记录匮乏的地区。这部分委托培训语料库已作为全语言 ASR 语料库发布。时间这是有史以来创建的最大的超低资源自然语音 ASR 数据集,涵盖 ASR 系统中从未见过的数百种语言。此外,通过语言技术合作伙伴计划,该团队与 Mozilla 基金会的 Common Voice 和 Lanfrica/Naija Voices 等组织合作,直接与当地社区合作。这些协会将深厚的语言知识和文化理解融入全语言 ASR,确保该技术满足当地需求。参考:https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition/?utm_source=twitter utm_medium=organic_social utm_content=video utm_campaign=omnilingual
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号的用户,网易号是一个仅提供信息存储服务的社交媒体平台。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注