wav2vec2-ser-english-finetuned开源模型 - 精准识别英语语音六种情绪，准确率92.42%

首页

Wav2vec2 Ser English Finetuned

由 dihuzz 开发

该模型基于Wav2Vec2架构微调训练，专门用于识别英语语音中的六种情绪状态（悲伤、愤怒、厌恶、恐惧、快乐、中性），准确率达92.42%。

音频分类

Safetensors

英语#高精度情绪识别 #英语语音分析 #Wav2Vec2微调

下载量 68

发布时间 : 4/11/2025

模型简介

一个经过微调的Wav2Vec2模型，用于英语语音情绪识别任务，能够准确分类六种基本情绪。

模型特点

高准确率

在测试集上达到92.42%的准确率，损失值仅为0.219

多情绪识别

可识别六种基本情绪：悲伤、愤怒、厌恶、恐惧、快乐和中性

基于Wav2Vec2架构

利用Wav2Vec2的强大特征提取能力进行语音情绪分类

轻量级推理

适合实时应用场景，可在普通GPU上高效运行

模型能力

英语语音情绪分类

实时情绪分析

语音情感识别

使用案例

心理健康

心理状态监测

通过语音分析用户情绪状态，用于心理健康应用

可自动识别用户情绪变化

客户服务

客服质量评估

分析客服通话中的情绪状态

帮助提升服务质量

人机交互

情感化语音助手

使语音助手能够理解用户情绪并做出相应回应

提升用户体验

🚀 🎤 Wav2Vec2英文语音情感识别

本项目基于Wav2Vec2架构，专注于英文语音的情感识别。通过对特定模型的微调，能够准确识别多种常见情感，为语音情感分析提供了有效的解决方案。

🚀 快速开始

🔌 安装

pip install transformers torch torchaudio

💻 使用示例

以下是使用该模型对 .wav 格式的英文音频文件进行情感分类的示例代码：

import torch
from transformers import Wav2Vec2ForSequenceClassification, Wav2Vec2FeatureExtractor
import torchaudio  

# Set device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("Using device:", device)

# Load the fine-tuned model and feature extractor
model_name = "dihuzz/wav2vec2-ser-english-finetuned"
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_name).to(device)
feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name)

# Set the model to evaluation mode
model.eval()

# Load and preprocess the audio file
def predict_emotion(audio_path):
    # Load audio
    waveform, sample_rate = torchaudio.load(audio_path) 
    # Alternatively, librosa can also be used to load the audio file

    # Resample if necessary
    if sample_rate != 16000:
        resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
        waveform = resampler(waveform)

    # Convert to mono if stereo
    if waveform.shape[0] > 1:
        waveform = torch.mean(waveform, dim=0, keepdim=True)

    # Extract features and move them to device
    inputs = feature_extractor(
        waveform.squeeze().numpy(),
        sampling_rate=16000,
        return_tensors="pt",
        padding=True
    )
    inputs = {k: v.to(device) for k, v in inputs.items()}

    # Perform inference (here we are using a batch size of 1 but you can increase batch size for faster inference)
    with torch.no_grad():
        outputs = model(**inputs)
        logits = outputs.logits
        predicted_class_id = torch.argmax(logits, dim=-1).item()

    # Map predicted class ID to emotion label
    label = model.config.id2label[predicted_class_id]
    return label

# Example usage
audio_file = "/path/to/your/audio.wav"
predicted_emotion = predict_emotion(audio_file)
print(f"Predicted Emotion: {predicted_emotion}")

📝 示例输出

模型会返回一个表示预测情感的字符串：

Predicted Emotion: <emotion_label>

✨ 主要特性

情感识别能力：能够识别悲伤、愤怒、厌恶、恐惧、快乐和中性六种常见情感。
高精度表现：在相关数据集上达到了 92.42% 的准确率。

📦 安装指南

使用以下命令安装所需的库：

pip install transformers torch torchaudio

📚 详细文档

🧠 模型概述

模型名称：dihuzz/wav2vec2-ser-english-finetuned
模型功能：该模型基于Wav2Vec2架构进行微调，用于识别英文语音中的情感。可检测的情感包括：
- 😢 悲伤
- 😠 愤怒
- 🤢 厌恶
- 😨 恐惧
- 😊 快乐
- 😐 中性
模型创建方式：通过在多个包含英文情感语音样本的著名语音情感识别数据集上微调 r-f/wav2vec-english-speech-emotion-recognition 模型而创建。

📊 性能指标：

🎯 准确率：92.42%
📉 损失：0.219

🏋️ 训练过程

⚙️ 训练详情

基础模型：r-f/wav2vec-english-speech-emotion-recognition
💻 硬件：Kaggle上的P100 GPU
⏱ 训练时长：10个epoch
📚 学习率：5e-4
🧩 批量大小：4
📈 梯度累积步数：8
⚖️ 优化器：AdamW (β₁=0.9, β₂=0.999)
📉 损失函数：交叉熵损失
⏳ 学习率调度器：无

📜 训练结果

轮次	损失	准确率
1	1.0257	61.20%
2	0.7025	73.88%
3	0.5901	78.25%
4	0.4960	81.56%
5	0.4105	85.04%
6	0.3516	87.70%
7	0.3140	88.87%
8	0.2649	90.45%
9	0.2178	92.42%
10	0.2187	92.29%

🔧 技术细节

该模型基于Wav2Vec2架构，通过在特定数据集上的微调，使其能够适应英文语音情感识别任务。在训练过程中，采用了AdamW优化器和交叉熵损失函数，经过10个epoch的训练，达到了较高的准确率。

⚠️ 局限性

⚠️ 重要提示

该模型存在以下重要局限性：

🌐 语言特定性：仅支持英文。

🗣️ 方言敏感性：在不同口音上的性能表现有所差异。

🎧 音频质量要求：需要干净、清晰的录音。

⚖️ 潜在偏差：可能反映训练数据中的文化偏差。

6️⃣ 类别有限：仅能检测6种基本情感。

🧠 上下文无关：不考虑语音内容的含义。