2024年8月23日,摩尔线程(MooreThreads)宣布推出了他们的大模型MooER(摩耳),该模型现在已在GitHub上正式开源:。开源内容包含了推理代码以及用5000小时的数据量训练得到的模型。并且,未来他们还将公布使用8万小时数据量训练完成的更大模型以及相应的训练代码。摩尔线程期望通过开源他们的大模型以及相关技术,在语音识别及翻译的技术领域为社区提供帮助,并推动相关技术的发展和应用。
MooER模型采用国产全功能GPU进行训练和推理,它基于摩尔线程的夸娥(KUAE)智算平台,并利用自研的算法和强大的计算资源,在短短38小时内完成了5000小时音频数据的深度学习训练。这种效率的提升显示了MooER在数据处理及学习效率方面的显著优势。
MooER模型不仅支持中文和英文的语音识别,还具备将中文语音翻译成英文的能力,在多个语音识别领域的测试集中表现优异或至少持平。其结构由三个主要部分组成:Encoder、Adapter和Decoder(LLM)。Encoder负责对原始语音信号进行建模,提取特征并进行表征;Adapter进一步对Encoder的输出进行下采样,形成每120ms音频一组的Embedding;这些Embedding随后与文本的PromptEmbedding结合后输入至LLM模块,进行语音识别(ASR)或语音翻译(AST)等任务。
在训练过程中,摩尔线程使用了开源的Paraformer语音编码器和Qwen2-7B-instruct大语言模型对Encoder和LLM模块进行初始化,而Adapter模块则是随机初始化的。值得注意的是,在训练过程中,Encoder保持参数不变,而Adapter和LLM会参与训练和梯度更新。摩尔线程还使用DeepSpeed框架与Zero2策略,在BF16精度上执行训练和推理,进一步优化了训练效率。
为了提高音频理解任务的效果,实验发现在训练过程中更新LLM参数是有益的。同时,为了进一步提升训练效率,摩尔线程采用了LoRA技术,仅更新了2%的LLM参数。
MooER使用的MT5K(MT5000h)训练数据由部分开源数据和摩尔线程的内部数据组成,内部数据的语音识别标签由第三方云服务生成的伪标签。这些伪标签经过文本翻译模型处理,得到语音翻译的伪标签,并且没有经过人工筛选。
摩尔线程将MooER的性能与多个知名开源音频理解模型进行了对比,包括Paraformer、SenseVoice、Qwen-audio、Whisper-large-v3及SeamlessM4T-v2等。这些模型的训练规模从几万小时到上百万小时不等。对比结果显示,MooER-5K在六个中文测试集上的CER(Character Error Rate)达到了4.21%,在六个英文测试集上的WER(Word Error Rate)为17.98%,与其它开源模型相比性能更为优越或至少持平。MooER在特定中译英测试集Covost2zh2en上的BLEU分数达到了25.2,明显优于其它模型,接近工业水平。基于8万小时数据训练的MooER-80k模型在中文测试集上的CER达到了3.50%,在英文测试集上的WER达到了12.66%,进一步展示了其强大的性能。
摩尔线程的实验还为资源有限的开发者提供了一些有益的建议,如在选择Encoder时,无监督训练的W2v-bert2.0、半监督训练的Whisperv3和有监督训练的Paraformer均被考虑。最终选择了Paraformer,它在效果、参数量以及训练和推理的效率方面表现最为出色。对音频建模的粒度也很关键,这直接影响了最终模型的性能和效率。
摩尔线程的MooER大模型展示了其在语音识别和翻译领域的强大能力,并且通过开源社区,它有望推动相关技术的进一步发展。
版权声明
2 本网站永久网址:www.1314dg.com
3 本网站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责
4 本网站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
5 本网站的文章部分内容可能来源于网络,仅供大家学习与参考,请勿违法
6 本网站如有侵权,请联系站长邮箱:353531@163.com 进行删除处理
7 无特别声明本文即为原创文章仅代表个人观点,版权归《酷迪网》所有,欢迎转载,转载请保留原链接:http://www.1314dg.com/article/264.html