ast-finetuned-model开源音频模型 - 免费部署精准实现语音情感分类

首页

Ast Finetuned Model

由 forwarder1121 开发

这是一个基于音频频谱图变压器（AST）的微调模型，专门用于语音音频中的情感分类。

音频分类

Transformers

英语开源协议:Apache-2.0 #语音情感识别 #频谱图分析 #多情感分类

下载量 174

发布时间 : 11/17/2024

模型简介

该模型在CREMA-D数据集上进行了微调，专注于六种情感类别（愤怒、厌恶、恐惧、快乐、中性、悲伤），适用于语音情感识别任务。

模型特点

基于音频频谱图变压器

采用先进的音频频谱图变压器架构，能够有效捕捉语音中的情感特征。

六种情感分类

支持愤怒、厌恶、恐惧、快乐、中性和悲伤六种情感类别的识别。

数据增强

训练过程中使用了噪声注入、时间偏移和速度扰动等数据增强技术，提升模型鲁棒性。

模型能力

语音情感识别

音频分类

情感分析

使用案例

人机交互

智能客服情感分析

用于分析用户在客服通话中的情感状态，提升服务质量。

心理健康

情绪状态监测

通过语音分析用户的情绪变化，用于心理健康应用。

🚀 AST情感分类微调模型

这是一个经过微调的音频频谱图Transformer（AST）模型，专门用于对语音音频中的情感进行分类。该模型在CREMA - D数据集上进行了微调，聚焦于六种情感类别。基础模型源自麻省理工学院（MIT）预训练的AST模型。

🚀 快速开始

加载模型

from transformers import AutoModelForAudioClassification, AutoProcessor

# 加载模型和处理器
model = AutoModelForAudioClassification.from_pretrained("forwarder1121/ast-finetuned-model")
processor = AutoProcessor.from_pretrained("forwarder1121/ast-finetuned-model")

# 将输入音频（例如波形）转换为对数梅尔频谱图
inputs = processor("path_to_audio.wav", sampling_rate=16000, return_tensors="pt")

# 进行预测
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()

print(f"预测的情感: {model.config.id2label[str(predicted_class)]}")

✨ 主要特性

针对语音音频情感分类进行微调。
基于MIT预训练的AST模型，在CREMA - D数据集上微调。
支持六种常见情感类别的分类。

📦 安装指南

原文档未提供安装步骤，此部分跳过。

📚 详细文档

模型详情

属性	详情
基础模型	`MIT/ast-finetuned-audioset-10-10-0.4593`
微调数据集	CREMA - D
架构	音频频谱图Transformer（AST）
模型类型	单标签分类
输入特征	对数梅尔频谱图（128个梅尔频段）
输出类别	愤怒（ANG）、厌恶（DIS）、恐惧（FEA）、快乐（HAP）、中性（NEU）、悲伤（SAD）

模型配置

属性	详情
隐藏层大小	768
注意力头数量	12
隐藏层数量	12
补丁大小	16
最大长度	1024
丢弃概率	0.0
激活函数	GELU（高斯误差线性单元）
优化器	Adam
学习率	1e - 4

训练详情

数据集：CREMA - D（情感标注的语音数据）
数据增强：
- 噪声注入
- 时间偏移
- 速度扰动
微调轮数：5
批次大小：16
学习率调度器：线性衰减
最佳验证准确率：60.71%
最佳检查点：./results/checkpoint-1119

评估指标

验证结果

最佳验证准确率：60.71%
验证损失：1.1126

评估详情

评估数据集：CREMA - D测试集
批次大小：16
步数：94

🔧 技术细节

原文档未提供足够详细的技术实现细节，此部分跳过。

📄 许可证

该模型遵循MIT许可证。请参考仓库中的许可详情。

🔖 引用

如果您在工作中使用了此模型，请引用：

@misc{ast-finetuned-model,
  author = {forwarder1121},
  title = {Fine-Tuned Audio Spectrogram Transformer for Emotion Classification},
  year = {2024},
  url = {https://huggingface.co/forwarder1121/ast-finetuned-model},
}