酷迪网

摩尔线程创新开源-音频理解大模型MooER的诞生

发布于:2024-08-26

2024年8月23日,摩尔线程(MooreThreads)宣布推出了他们的大模型MooER(摩耳),该模型现在已在GitHub上正式开源:。开源内容包含了推理代码以及用5000小时的数据量训练得到的模型。并且,未来他们还将公布使用8万小时数据量训练完成的更大模型以及相应的训练代码。摩尔线程期望通过开源他们的大模型以及相关技术,在语音识别及翻译的技术领域为社区提供帮助,并推动相关技术的发展和应用。

MooER模型采用国产全功能GPU进行训练和推理,它基于摩尔线程的夸娥(KUAE)智算平台,并利用自研的算法和强大的计算资源,在短短38小时内完成了5000小时音频数据的深度学习训练。这种效率的提升显示了MooER在数据处理及学习效率方面的显著优势。

MooER模型不仅支持中文和英文的语音识别,还具备将中文语音翻译成英文的能力,在多个语音识别领域的测试集中表现优异或至少持平。其结构由三个主要部分组成:Encoder、Adapter和Decoder(LLM)。Encoder负责对原始语音信号进行建模,提取特征并进行表征;Adapter进一步对Encoder的输出进行下采样,形成每120ms音频一组的Embedding;这些Embedding随后与文本的PromptEmbedding结合后输入至LLM模块,进行语音识别(ASR)或语音翻译(AST)等任务。

在训练过程中,摩尔线程使用了开源的Paraformer语音编码器和Qwen2-7B-instruct大语言模型对Encoder和LLM模块进行初始化,而Adapter模块则是随机初始化的。值得注意的是,在训练过程中,Encoder保持参数不变,而Adapter和LLM会参与训练和梯度更新。摩尔线程还使用DeepSpeed框架与Zero2策略,在BF16精度上执行训练和推理,进一步优化了训练效率。

为了提高音频理解任务的效果,实验发现在训练过程中更新LLM参数是有益的。同时,为了进一步提升训练效率,摩尔线程采用了LoRA技术,仅更新了2%的LLM参数。

MooER使用的MT5K(MT5000h)训练数据由部分开源数据和摩尔线程的内部数据组成,内部数据的语音识别标签由第三方云服务生成的伪标签。这些伪标签经过文本翻译模型处理,得到语音翻译的伪标签,并且没有经过人工筛选。

摩尔线程将MooER的性能与多个知名开源音频理解模型进行了对比,包括Paraformer、SenseVoice、Qwen-audio、Whisper-large-v3及SeamlessM4T-v2等。这些模型的训练规模从几万小时到上百万小时不等。对比结果显示,MooER-5K在六个中文测试集上的CER(Character Error Rate)达到了4.21%,在六个英文测试集上的WER(Word Error Rate)为17.98%,与其它开源模型相比性能更为优越或至少持平。MooER在特定中译英测试集Covost2zh2en上的BLEU分数达到了25.2,明显优于其它模型,接近工业水平。基于8万小时数据训练的MooER-80k模型在中文测试集上的CER达到了3.50%,在英文测试集上的WER达到了12.66%,进一步展示了其强大的性能。

摩尔线程的实验还为资源有限的开发者提供了一些有益的建议,如在选择Encoder时,无监督训练的W2v-bert2.0、半监督训练的Whisperv3和有监督训练的Paraformer均被考虑。最终选择了Paraformer,它在效果、参数量以及训练和推理的效率方面表现最为出色。对音频建模的粒度也很关键,这直接影响了最终模型的性能和效率。

摩尔线程的MooER大模型展示了其在语音识别和翻译领域的强大能力,并且通过开源社区,它有望推动相关技术的进一步发展。

摩尔线程创新开源-音频理解大模型MooER的诞生