语言:
- 英文
许可证: apache-2.0
库名称: transformers
标签:
- 多模态
- 语音语言
数据集:
- mozilla-foundation/common_voice_16_1
- openslr/librispeech_asr
- MLCommons/ml_spoken_words
- Ar4ikov/iemocap_audio_text_splitted
评估指标:
- 词错误率(WER)
- 准确率
模型索引:
- 名称: SpeechLLM
结果:
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: LibriSpeech (clean)
类型: librispeech_asr
配置: clean
分割: test
参数:
语言: en
评估指标:
- 类型: wer
值: 6.73
名称: 测试WER
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: LibriSpeech (other)
类型: librispeech_asr
配置: other
分割: test
参数:
语言: en
评估指标:
- 类型: wer
值: 9.13
名称: 测试WER
- 任务:
类型: 自动语音识别
名称: 自动语音识别
数据集:
名称: Common Voice 16.1
类型: common_voice_16_1
分割: test
参数:
语言: en
评估指标:
- 类型: wer
值: 25.66
名称: 测试WER
- 任务:
类型: 音频分类
名称: 音频分类
数据集:
名称: Common Voice 16.1
类型: common_voice_16_1
分割: test
参数:
语言: en
评估指标:
- 类型: 准确率
值: 60.41
名称: 测试年龄准确率
- 类型: 准确率
值: 69.59
名称: 测试口音准确率
SpeechLLM


SpeechLLM是一个多模态大型语言模型,训练用于预测对话中说话者轮次的元数据。speechllm-2B模型基于HubertX音频编码器和TinyLlama LLM。该模型预测以下内容:
- 语音活动:音频信号是否包含语音(True/False)
- 转录文本:音频的自动语音识别(ASR)转录
- 说话者性别(女性/男性)
- 说话者年龄(青年/中年/老年)
- 说话者口音(非洲/美洲/凯尔特/欧洲/大洋洲/南亚/东南亚)
- 说话者情绪(快乐/悲伤/愤怒/中性/沮丧)
使用方法
from transformers import AutoModel
model = AutoModel.from_pretrained("skit-ai/speechllm-2B", trust_remote_code=True)
model.generate_meta(
audio_path="音频文件路径.wav",
audio_tensor=torchaudio.load("音频文件路径.wav")[1],
instruction="提供音频的以下信息[语音活动, 转录文本, 性别, 情绪, 年龄, 口音]",
max_new_tokens=500,
return_special_tokens=False
)
'''
{
"语音活动" : "True",
"转录文本": "是的,我明白了。我现在就付款。",
"性别": "女性",
"情绪": "中性",
"年龄": "青年",
"口音" : "美洲",
}
'''
可在Google Colab笔记本中试用该模型。另请查看我们关于端到端对话代理(用户语音->响应)的SpeechLLM博客。
模型详情
检查点结果
数据集 |
类型 |
词错误率 |
性别准确率 |
年龄准确率 |
口音准确率 |
librispeech-test-clean |
朗读语音 |
6.73 |
0.9496 |
|
|
librispeech-test-other |
朗读语音 |
9.13 |
0.9217 |
|
|
CommonVoice测试集 |
多样化口音和年龄 |
25.66 |
0.8680 |
0.6041 |
0.6959 |
引用
@misc{Rajaa_SpeechLLM_多模态_LLM,
作者 = {Rajaa, Shangeth 和 Tushar, Abhinav},
标题 = {{SpeechLLM: 用于语音理解的多模态LLM}},
网址 = {https://github.com/skit-ai/SpeechLLM}
}