模型介绍
内容详情
替代品
模型简介
这是一个基于Whisper-Large-v3的蒸馏模型,专为7种欧洲语言(英语、法语、西班牙语、德语、意大利语、葡萄牙语和荷兰语)的自动语音识别优化。模型具有2个解码器层,特别支持语码转换功能,能自动检测并处理多语言混合的语音输入。
模型特点
多语言支持
支持7种欧洲语言的语音识别(英语、法语、西班牙语、德语、意大利语、葡萄牙语和荷兰语)
语码转换能力
能够自动检测语音中的语言变化并生成相应的语言标记,实现无缝的多语言转录
高效蒸馏架构
仅保留2个解码器层,在保持良好性能的同时提高推理效率
模型能力
自动语音识别
多语言转录
语码转换检测
语音到文本转换
使用案例
多语言转录
多语言会议记录
自动转录包含多种语言的会议录音
能准确识别语言切换并生成相应语言的文本
多语言媒体内容处理
处理包含多种语言的播客、视频等媒体内容
生成带语言标记的转录文本
语音分析
多语言语音数据分析
分析包含多种语言的语音数据集
提供准确的文本转录用于后续分析
语言:
- 英语
- 法语
- 西班牙语
- 德语
- 意大利语
- 葡萄牙语
- 荷兰语 许可证: MIT 库名称: transformers 标签:
- 音频
- 自动语音识别
- transformers.js 小部件:
- 示例标题: LibriSpeech样本1 来源: https://cdn-media.huggingface.co/speech_samples/sample1.flac
- 示例标题: LibriSpeech样本2 来源: https://cdn-media.huggingface.co/speech_samples/sample2.flac 管道标签: 自动语音识别
Whisper-Large-V3-Distil-Multi7-v0.2
一个多语言蒸馏版Whisper模型,具有2个解码器层,支持7种欧洲语言:英语、法语、西班牙语、德语、意大利语、葡萄牙语和荷兰语。
该模型是在我开发Distil-Large-v3.5期间训练的。
一个显著特点是其原生支持语码转换。该模型能够在单个片段转录中自动检测语言变化并生成新的语言标记(如下例所示)。
训练过程中重新利用了<|yue|>
语言标记,使其在推理时能作为自动语言检测标记实现语码转换功能。要使用此功能,只需将语言参数设为cantonese
(默认使用)。
该模型的性能低于单语言蒸馏版本和Whisper-Large-v3-Turbo。未来工作应探索更好的训练方法,并可能纳入更多数据,以有效将多语言能力压缩到单一模型中。
目录
使用方法
import torch
from datasets import load_dataset
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
# 加载模型
model_name_or_path = "bofenghuang/whisper-large-v3-distil-multi7-v0.2"
processor = AutoProcessor.from_pretrained(model_name_or_path)
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_name_or_path, torch_dtype=torch_dtype)
model.to(device)
# 示例音频
dataset = load_dataset("bofenghuang/asr-dummy", "cs", split="test")
sample, text = dataset[0]["audio"], dataset[0]["text"]
# 真实文本
print(text)
# Aber sei ihnen nicht böse, Habibi, vergib ihnen, sie vergaßen die Liebe, sie vergaßen die Bibel,
# wünsch ihnen den Frieden. Nous allons construire des radiotélescopes géants comme celui-ci,
# qui est mon préféré. Questa è un'immagine di Cairo Open City, una mostra che il museo Folkwang di
# Essen ha dedicato al ruolo della mobile photography nella primavera Araba.
# 提取特征
input_features = processor(
sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt"
).input_features
# 生成标记
predicted_ids = model.generate(
input_features.to(device, dtype=torch_dtype),
max_new_tokens=128,
)
# 解码为文本
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
print(transcription)
# Aber sei ihnen nicht böse, Habibi, vergib ihn. Sie vergaßen die Liebe, sie vergaßen die Liebe.
# Wünsche ihnen dem Frieden. Nous allons construire des radiotelescopes géants, comme celui-ci qui
# est mon préféré. Esta es una imagen de Cairo Open City, una muestra que el Museo Folk Punk de Essen
# ha dedicado al ruolo de la mobile fotografía en la primavera árabe.
# 查看生成标记
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)[0]
print(transcription)
# <|de|> Aber sei ihnen nicht böse, Habibi, vergib ihn. Sie vergaßen die Liebe, sie vergaßen die Liebe.
# Wünsche ihnen dem Frieden.<|fr|> Nous allons construire des radiotelescopes géants, comme celui-ci qui
# est mon préféré.<|es|> Esta es una imagen de Cairo Open City, una muestra que el Museo Folk Punk de Essen
# ha dedicado al ruolo de la mobile fotografía en la primavera árabe.
评估
英语
模型 | LIUM_tedlium | mcv17 | voxpopuli | fleurs | kensho_spgispeech | librispeech-test_clean | librispeech-test_other | speechcolab_gigaspeech |
---|---|---|---|---|---|---|---|---|
openai/whisper-large-v3 | 10.58 | 10.13 | 8.93 | 5.72 | 2.95 | 1.87 | 3.58 | 10.07 |
openai/whisper-large-v3-turbo | 10.20 | 11.74 | 11.78 | 6.13 | 2.95 | 1.98 | 3.94 | 10.11 |
distil-whisper/distil-large-v3 | 8.93 | 12.41 | 7.72 | 7.59 | 3.25 | 2.42 | 5.11 | 10.08 |
distil-whisper/distil-large-v3.5 | 8.65 | 11.07 | 7.54 | 6.74 | 2.86 | 2.28 | 4.94 | 9.84 |
bofenghuang/whisper-large-v3-distil-multi4-v0.2 | 8.88 | 11.33 | 7.60 | 6.97 | 3.03 | 2.51 | 5.24 | 10.12 |
bofenghuang/whisper-large-v3-distil-multi7-v0.2 | 9.36 | 11.32 | 7.65 | 7.02 | 2.99 | 2.46 | 5.24 | 10.06 |
法语
模型 | mcv17 | mls | voxpopuli | mtedx | af_accented | fleurs | hf_dev_data_chunk30 | hf_dev_data_sequential | mtedx_chunk30 | mtedx_sequential |
---|---|---|---|---|---|---|---|---|---|---|
openai/whisper-large-v3 | 10.98 | 4.69 | 11.15 | 8.67 | 7.51 | 5.4 | 9.87 | 8.97 | 9 | 8.01 |
openai/whisper-large-v3-turbo | 12.41 | 5.1 | 12.21 | 9.87 | 8.37 | 5.48 | 10.12 | 9 | 8.49 | 8.39 |
bofenghuang/whisper_large_v3_distil_fr_v0.2 | 11.1 | 5 | 10.68 | 8.75 | 7.09 | 6.35 | 9.44 | 9.84 | 8.94 | 8.93 |
bofenghuang/whisper-large-v3-distil-multi4-v0.2 | 11.96 | 6.04 | 11.07 | 9.16 | 7.99 | 7.10 | 10.42 | 12.61 | 9.06 | 11.75 |
bofenghuang/whisper-large-v3-distil-multi7-v0.2 | 12.19 | 6.2 | 11.29 | 9.13 | 8.26 | 7.17 | 10.04 | 12.26 | 8.93 | 11.56 |
西班牙语
模型 | mcv17 | mls | voxpopuli | mtedx | fleurs | hf_dev_data_chunk30 | hf_dev_data_sequential | mtedx_chunk30 | mtedx_sequential |
---|---|---|---|---|---|---|---|---|---|
openai/whisper-large-v3 | 4.91 | 3.97 | 11.06 | 6.52 | 4.22 | 10.85 | 10.36 | 5.90 | 5.22 |
openai/whisper-large-v3-turbo | 5.74 | 4.41 | 16.02 | 6.66 | 4.59 | 11.55 | 10.68 | 6.46 | 5.41 |
bofenghuang/whisper-large-v3-distil-multi4-v0.2 | 5.58 | 4.34 | 8.52 | 7.43 | 5.20 | 11.26 | 13.43 | 5.69 | 8.95 |
bofenghuang/whisper-large-v3-distil-multi7-v0.2 | 5.70 | 4.35 | 8.55 | 7.56 | 5.15 | 11.45 | 13.54 | 5.84 | 8.27 |
德语
模型 | mcv17 | mls | voxpopuli | mtedx | fleurs | hf_dev_data_chunk30 | hf_dev_data_sequential | mtedx_chunk30 | mtedx_sequential |
---|---|---|---|---|---|---|---|---|---|
openai/whisper-large-v3 | 6.11 | 5.60 | 17.75 | 19.63 | 5.92 | 11.21 | 10.35 | 17.64 | 17.76 |
openai/whisper-large-v3-turbo | 7.45 | 6.43 | 20.48 | 20.00 | 6.45 | 10.57 | 9.70 | 18.04 | 18.37 |
bofenghuang/whisper-large-v3-distil-multi4-v0.2 | 7.31 | 6.45 | 12.41 | 21.48 | 8.20 | 11.04 | 13.55 | 19.54 | 21.76 |
bofenghuang/whisper-large-v3-distil-multi7-v0.2 | 7.57 | 6.67 | 12.42 | 21.95 | 8.28 | 11.21 | 13.84 | 19.90 | 21.67 |
意大利语
模型 | mcv17 | mls | voxpopuli | mtedx | fleurs | hf_dev_data_chunk30 | hf_dev_data_sequential | mtedx_chunk30 | mtedx_sequential |
---|---|---|---|---|---|---|---|---|---|
openai/whisper-large-v3 | 5.71 | 9.58 | 28.45 | 7.21 | 4.28 | 6.95 | 6.37 | 6.83 | 7.28 |
openai/whisper-large-v3-turbo | 6.77 | 10.64 | 30.69 | 7.41 | 4.69 | 6.88 | 6.52 | 7.98 | 7.37 |
bofenghuang/whisper_large_v3_distil_it_v0.2 | 6.15 | 9.22 | 17.27 | 7.52 | 5.26 | 6.06 | 6.99 | 7.84 | 8.42 |
bofenghuang/whisper-large-v3-distil-multi7-v0.2 | 6.78 | 11.42 | 17.53 | 8.07 | 5.68 | 7.04 | 9.51 | 7.51 | 10.47 |
葡萄牙语
模型 | mcv17 | mls | mtedx | fleurs | hf_dev_data_chunk30 | hf_dev_data_sequential | mtedx_chunk30 | mtedx_sequential |
---|---|---|---|---|---|---|---|---|
openai/whisper-large-v3 | 6.76 | 7.04 | 8.91 | 5.86 | 12.11 | 12.39 | 8.70 | 8.98 |
openai/whisper-large-v3-turbo | 7.66 | 6.64 | 8.84 | 6.11 | 12.42 | 11.62 | 10.97 | 9.04 |
bofenghuang/whisper-large-v3-distil-multi7-v0.2 | 8.31 | 6.75 | 10.11 | 7.10 | 12.74 | 14.97 | 9.64 | 11.78 |
荷兰语
模型 | mcv17 | mls | voxpopuli | fleurs |
---|---|---|---|---|
openai/whisper-large-v3 | 4.51 | 66.95 | 23.35 | 6.99 |
openai/whisper-large-v3-turbo | 6.16 | 52.37 | 27.42 | 7.59 |
bofenghuang/whisper-large-v3-distil-multi7-v0.2 | 6.76 | 14.82 | 14.92 | 10.86 |
Voice Activity Detection
MIT
基于pyannote.audio 2.1版本的语音活动检测模型,用于识别音频中的语音活动时间段
语音识别
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
这是一个针对葡萄牙语语音识别任务微调的XLSR-53大模型,基于Common Voice 6.1数据集训练,支持葡萄牙语语音转文本。
语音识别
其他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型,在超过500万小时的标注数据上训练,具有强大的跨数据集和跨领域泛化能力。
语音识别
支持多种语言
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI开发的最先进的自动语音识别(ASR)和语音翻译模型,经过超过500万小时标记数据的训练,在零样本设置下展现出强大的泛化能力。
语音识别
Transformers

支持多种语言
W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的俄语语音识别模型,支持16kHz采样率的语音输入
语音识别
其他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的中文语音识别模型,支持16kHz采样率的语音输入。
语音识别
中文
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的荷兰语语音识别模型,在Common Voice和CSS10数据集上训练,支持16kHz音频输入。
语音识别
其他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53模型微调的日语语音识别模型,支持16kHz采样率的语音输入
语音识别
日语
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
基于Hugging Face预训练模型的文本与音频强制对齐工具,支持多种语言,内存效率高
语音识别
Transformers

支持多种语言
M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
基于facebook/wav2vec2-large-xlsr-53微调的阿拉伯语语音识别模型,在Common Voice和阿拉伯语语音语料库上训练
语音识别
阿拉伯语
W
jonatasgrosman
2.3M
37
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文