SpeechLLM-2B开源多模态语言模型 - 免费预测对话说话者多重元数据

首页

Speechllm 2B

由 skit-ai 开发

SpeechLLM是一个多模态大型语言模型，训练用于预测对话中说话者轮次的元数据，包括语音活动、转录文本、说话者性别、年龄、口音和情绪。

文本生成音频

Transformers

英语开源协议:Apache-2.0 #多模态语音理解 #说话者元数据预测 #低词错误率ASR

下载量 237

发布时间 : 6/4/2024

模型简介

基于HubertX音频编码器和TinyLlama LLM的多模态模型，能够从音频信号中提取丰富的元数据信息。

模型特点

多模态处理能力

同时处理音频和文本信息，实现语音理解和元数据预测

丰富的元数据预测

可预测语音活动、转录文本、性别、年龄、口音和情绪等多种信息

高性能ASR

在LibriSpeech测试集上达到6.73-9.13的WER表现

模型能力

语音活动检测

自动语音识别

说话者性别分类

说话者年龄分类

说话者口音分类

说话者情绪识别

使用案例

语音分析

客服对话分析

分析客服对话中的说话者特征和情绪

可识别客户情绪状态和人口统计信息

语音转录增强

在语音转录基础上增加丰富的元数据

提供更全面的对话分析维度

🚀 SpeechLLM

SpeechLLM是一个多模态大语言模型，经过训练可预测对话中说话者话语的元数据。它能够预测说话者的语音活动、转录内容、性别、年龄、口音和情感等信息，为语音理解和处理提供了强大的支持。

🚀 快速开始

SpeechLLM可直接从Hugging Face加载使用。以下是一个简单的使用示例：

# Load model directly from huggingface
from transformers import AutoModel
model = AutoModel.from_pretrained("skit-ai/speechllm-2B", trust_remote_code=True)

model.generate_meta(
    audio_path="path-to-audio.wav", #16k Hz, mono
    audio_tensor=torchaudio.load("path-to-audio.wav")[1], # [Optional] either audio_path or audio_tensor directly
    instruction="Give me the following information about the audio [SpeechActivity, Transcript, Gender, Emotion, Age, Accent]",
    max_new_tokens=500, 
    return_special_tokens=False
)

# Model Generation
'''
{
  "SpeechActivity" : "True",
  "Transcript": "Yes, I got it. I'll make the payment now.",
  "Gender": "Female",
  "Emotion": "Neutral",
  "Age": "Young",
  "Accent" : "America",
}
'''

你可以在 Google Colab Notebook 中尝试使用该模型。此外，还可以查看我们关于SpeechLLM的博客，了解其在端到端对话代理中的应用（用户语音 -> 响应）。

✨ 主要特性

SpeechLLM基于HubertX音频编码器和TinyLlama大语言模型，能够预测以下信息：

语音活动：判断音频信号中是否包含语音（是/否）
转录内容：音频的自动语音识别转录结果
说话者性别（女/男）
说话者年龄（青年/中年/老年）
说话者口音（非洲/美洲/凯尔特/欧洲/大洋洲/南亚/东南亚）
说话者情感（高兴/悲伤/愤怒/中立/沮丧）

📚 详细文档

模型详情

开发者：Skit AI
作者：Shangeth Rajaa，Abhinav Tushar
语言：英语
微调基础模型：HubertX，TinyLlama
模型大小：21亿参数
检查点：2000k步（批次大小 = 1）
适配器：r = 4，alpha = 8
学习率：1e - 4
梯度累积步数：8

检查点结果

数据集	类型	单词错误率	性别准确率	年龄准确率	口音准确率
librispeech-test-clean	朗读语音	6.73	0.9496
librispeech-test-other	朗读语音	9.13	0.9217
CommonVoice test	多样口音和年龄	25.66	0.8680	0.6041	0.6959

引用

如果你使用了SpeechLLM，请引用以下文献：

@misc{Rajaa_SpeechLLM_Multi-Modal_LLM,
author = {Rajaa, Shangeth and Tushar, Abhinav},
title = {{SpeechLLM: Multi-Modal LLM for Speech Understanding}},
url = {https://github.com/skit-ai/SpeechLLM}
}