SpeechLLM是一个多模态大型语言模型,用于预测对话中说话者轮次的元数据,包括语音活动、转录文本、性别、年龄、口音和情绪。
下载量 40
发布时间 : 6/20/2024
模型简介
SpeechLLM基于HubertX音频编码器和TinyLlama LLM,能够处理语音信号并生成丰富的元数据信息。
模型特点
多模态处理能力
结合音频信号处理和语言模型能力,能够理解语音内容并生成元数据
丰富的元数据预测
可预测语音活动、转录文本、说话者性别、年龄、口音和情绪等多种信息
多样化数据集训练
在多种语音数据集上训练,包括Common Voice、LibriSpeech等,提高了模型的泛化能力
模型能力
语音活动检测
自动语音识别
说话者性别分类
说话者年龄分类
说话者口音分类
情绪识别
使用案例
语音分析
客服对话分析
分析客服对话中的说话者特征和情绪状态
可识别客户情绪和人口统计信息,帮助改进服务质量
语音转录增强
在语音转录基础上增加说话者元数据
提供更丰富的转录文本信息,包括说话者特征
对话系统
智能语音助手
构建能够理解说话者特征的对话代理
可根据说话者特征提供个性化响应
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文