S

Speechllm 1.5B

由 skit-ai 开发
SpeechLLM是一个多模态大型语言模型,用于预测对话中说话者轮次的元数据,包括语音活动、转录文本、性别、年龄、口音和情绪。
下载量 40
发布时间 : 6/20/2024
模型介绍
内容详情
替代品

模型简介

SpeechLLM基于HubertX音频编码器和TinyLlama LLM,能够处理语音信号并生成丰富的元数据信息。

模型特点

多模态处理能力
结合音频信号处理和语言模型能力,能够理解语音内容并生成元数据
丰富的元数据预测
可预测语音活动、转录文本、说话者性别、年龄、口音和情绪等多种信息
多样化数据集训练
在多种语音数据集上训练,包括Common Voice、LibriSpeech等,提高了模型的泛化能力

模型能力

语音活动检测
自动语音识别
说话者性别分类
说话者年龄分类
说话者口音分类
情绪识别

使用案例

语音分析
客服对话分析
分析客服对话中的说话者特征和情绪状态
可识别客户情绪和人口统计信息,帮助改进服务质量
语音转录增强
在语音转录基础上增加说话者元数据
提供更丰富的转录文本信息,包括说话者特征
对话系统
智能语音助手
构建能够理解说话者特征的对话代理
可根据说话者特征提供个性化响应