SpeechLLM - 1.5B开源模型，精准预测对话说话者元数据，含情绪口音等！

首页

Speechllm 1.5B

由 skit-ai 开发

SpeechLLM是一个多模态大型语言模型，用于预测对话中说话者轮次的元数据，包括语音活动、转录文本、性别、年龄、口音和情绪。

文本生成音频

Transformers

英语开源协议:Apache-2.0 #多模态语音理解 #说话者元数据预测 #低资源ASR

下载量 40

发布时间 : 6/20/2024

模型简介

SpeechLLM基于HubertX音频编码器和TinyLlama LLM，能够处理语音信号并生成丰富的元数据信息。

模型特点

多模态处理能力

结合音频信号处理和语言模型能力，能够理解语音内容并生成元数据

丰富的元数据预测

可预测语音活动、转录文本、说话者性别、年龄、口音和情绪等多种信息

多样化数据集训练

在多种语音数据集上训练，包括Common Voice、LibriSpeech等，提高了模型的泛化能力

模型能力

语音活动检测

自动语音识别

说话者性别分类

说话者年龄分类

说话者口音分类

情绪识别

使用案例

语音分析

客服对话分析

分析客服对话中的说话者特征和情绪状态

可识别客户情绪和人口统计信息，帮助改进服务质量

语音转录增强

在语音转录基础上增加说话者元数据

提供更丰富的转录文本信息，包括说话者特征

对话系统

智能语音助手

构建能够理解说话者特征的对话代理

可根据说话者特征提供个性化响应

🚀 SpeechLLM

SpeechLLM是一个多模态大语言模型（LLM），经过训练可预测对话中说话者轮次的元数据。它能有效处理语音相关信息，为语音理解和分析提供全面的解决方案，在语音识别、说话者特征预测等方面具有重要价值。

🚀 快速开始

你可以通过以下步骤快速使用SpeechLLM模型：

从Hugging Face直接加载模型。
调用模型的generate_meta方法进行元数据生成。

# 从Hugging Face直接加载模型
from transformers import AutoModel
model = AutoModel.from_pretrained("skit-ai/speechllm-1.5B", trust_remote_code=True)

model.generate_meta(
    audio_path="path-to-audio.wav", # 16k Hz，单声道
    audio_tensor=torchaudio.load("path-to-audio.wav")[1], # [可选] 可以是音频路径或直接传入音频张量
    instruction="Give me the following information about the audio [SpeechActivity, Transcript, Gender, Emotion, Age, Accent]",
    max_new_tokens=500, 
    return_special_tokens=False
)

# 模型生成结果
'''
{
    "SpeechActivity": "True",
    "Transcript": "Yes, I got it. I'll make the payment now.",
    "Gender": "Female",
    "Emotion": "Neutral",
    "Age": "Young",
    "Accent": "America"
}
'''

你可以在Google Colab Notebook中尝试该模型。此外，还可以查看我们关于SpeechLLM用于端到端对话代理（用户语音 -> 响应）的博客。

✨ 主要特性

SpeechLLM模型具有以下主要特性：

多模态预测：能够预测语音信号的多种元数据，包括语音活动、转录文本、说话者的性别、年龄、口音和情感等。
基于强大架构：speechllm - 2B模型基于HubertX音频编码器和TinyLlama LLM构建。

📚 详细文档

模型详情

属性	详情
开发者	Skit AI
作者	Shangeth Rajaa，Abhinav Tushar
语言	英语
微调基础模型	WavLM，TinyLlama
模型大小	1.5B
检查点	1200k步（bs = 1）
适配器	r = 8，alpha = 16
学习率	1e - 4
梯度累积步数	8

检查点结果

数据集	类型	字错误率	性别准确率	年龄准确率	口音准确率
librispeech - test - clean	朗读语音	11.51	0.9594
librispeech - test - other	朗读语音	16.68	0.9297
CommonVoice test	多样口音、年龄	26.02	0.9476	0.6498	0.8121

📄 许可证

本项目采用Apache 2.0许可证。

📚 引用

如果你使用了该模型，请按照以下格式进行引用：

@misc{Rajaa_SpeechLLM_Multi-Modal_LLM,
author = {Rajaa, Shangeth and Tushar, Abhinav},
title = {{SpeechLLM: Multi-Modal LLM for Speech Understanding}},
url = {https://github.com/skit-ai/SpeechLLM}
}