语言:
- 英文
数据集:
- CREMA-D
库名称: transformers
标签:
- 情感分类
- 音频分类
- 音频频谱图
- 变压器模型
- 微调模型
许可证: apache-2.0
管道标签: 音频分类
基础模型: "MIT/ast-finetuned-audioset-10-10-0.4593"
评估指标:
- 准确率
- F1分数
任务类别:
- 音频分类
用于情感分类的AST微调模型
用于情感分类的AST微调模型
这是一个经过微调的音频频谱图变压器(AST)模型,专门设计用于语音音频中的情感分类。该模型在CREMA-D数据集上进行了微调,专注于六种情感类别。基础模型来自MIT预训练的AST模型。
模型详情
- 基础模型:
MIT/ast-finetuned-audioset-10-10-0.4593
- 微调数据集: CREMA-D
- 架构: 音频频谱图变压器(AST)
- 模型类型: 单标签分类
- 输入特征: 对数梅尔频谱图(128个梅尔频段)
- 输出类别:
- ANG: 愤怒
- DIS: 厌恶
- FEA: 恐惧
- HAP: 快乐
- NEU: 中性
- SAD: 悲伤
模型配置
- 隐藏层大小: 768
- 注意力头数量: 12
- 隐藏层数量: 12
- 补丁大小: 16
- 最大长度: 1024
- 丢弃概率: 0.0
- 激活函数: GELU(高斯误差线性单元)
- 优化器: Adam
- 学习率: 1e-4
训练详情
- 数据集: CREMA-D(带情感标签的语音数据)
- 数据增强:
- 微调周期: 5
- 批量大小: 16
- 学习率调度器: 线性衰减
- 最佳验证准确率: 60.71%
- 最佳检查点:
./results/checkpoint-1119
使用方法
加载模型
from transformers import AutoModelForAudioClassification, AutoProcessor
model = AutoModelForAudioClassification.from_pretrained("forwarder1121/ast-finetuned-model")
processor = AutoProcessor.from_pretrained("forwarder1121/ast-finetuned-model")
inputs = processor("path_to_audio.wav", sampling_rate=16000, return_tensors="pt")
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(-1).item()
print(f"预测情感: {model.config.id2label[str(predicted_class)]}")
评估指标
验证结果
- 最佳验证准确率: 60.71%
- 验证损失: 1.1126
评估详情
- 评估数据集: CREMA-D测试集
- 批量大小: 16
- 步骤数量: 94
局限性
- 该模型在CREMA-D数据集上训练,该数据集具有特定的语音数据。对于不同口音、说话风格或语言的数据集,可能泛化能力有限。
- 验证准确率为60.71%,表明在实际应用中仍有改进空间。
致谢
本工作基于**MIT的音频频谱图变压器(AST)**模型,并针对情感分类进行了微调。特别感谢Hugging Face的开发者和CREMA-D数据集的贡献者。
许可证
该模型在MIT许可证下共享。请参阅存储库中的许可详情。
引用
如果您在工作中使用此模型,请引用:
@misc{ast-finetuned-model,
author = {forwarder1121},
title = {用于情感分类的微调音频频谱图变压器},
year = {2024},
url = {https://huggingface.co/forwarder1121/ast-finetuned-model},
}
联系方式
如有问题,请联系forwarder1121@naver.com
。