language:
- 多语言
- 阿拉伯语
- 阿萨姆语
- 布列塔尼语
- 加泰罗尼亚语
- 哈卡钦语
- 捷克语
- 楚瓦什语
- 威尔士语
- 德语
- 迪维希语
- 希腊语
- 英语
- 世界语
- 西班牙语
- 爱沙尼亚语
- 巴斯克语
- 波斯语
- 芬兰语
- 法语
- 印地语
- 上索布语
- 匈牙利语
- 国际语
- 印尼语
- 日语
- 格鲁吉亚语
- 吉尔吉斯语
- 卢干达语
- 立陶宛语
- 利维亚语
- 蒙古语
- 马耳他语
- 荷兰语
- 奥里亚语
- 波兰语
- 葡萄牙语
- 罗马尼亚语
- 俄语
- 雅库特语
- 斯洛文尼亚语
- 泰米尔语
- 泰语
- 土耳其语
- 鞑靼语
- 乌克兰语
- 越南语
license: Apache-2.0
tags:
- 音频
- 自动语音识别
- HF-ASR排行榜
- 鲁棒语音事件
- 语音
- XLSR微调周
datasets:
- 通用语音
language_bcp47:
- 西弗里西亚语(荷兰)
- 爱尔兰盖尔语
- 旁遮普语(印度)
- 罗曼什语(苏尔塞尔瓦方言)
- 罗曼什语(瓦拉迪尔方言)
- 瑞典语
- 中文(简体)
- 中文(香港)
- 中文(繁体)
model-index:
- name: Voidful开发的56语言XLSR Wav2Vec2模型
results:
- task:
type: 自动语音识别
name: 语音识别
dataset:
name: 通用语音
type: common_voice
metrics:
- type: 字符错误率(CER)
value: 23.21
name: 测试CER
56语言多语种Wav2Vec2-XLSR模型卡片
模型详情
模型描述
- 开发者: voidful
- 共享者(可选): Hugging Face
- 模型类型: 自动语音识别
- 支持语言(NLP): 多语言(56种语言,1个多语种ASR模型)
- 许可证: Apache-2.0
- 相关模型:
- 更多信息资源:
用途
直接使用
本模型可用于自动语音识别任务
下游应用[可选]
需要更多信息
超出范围的使用
不得使用该模型故意制造敌对或疏远人群的环境
偏见、风险与限制
大量研究已探讨语言模型的偏见与公平性问题(参见Sheng等人(2021)和Bender等人(2021))。模型生成的预测可能包含针对受保护群体、身份特征以及敏感社会职业群体的令人不安的有害刻板印象。
建议
应让用户(包括直接使用者和下游使用者)了解模型的风险、偏见和局限性。需要更多信息以提供进一步建议。
训练详情
训练数据
参见通用语音数据集卡片
基于facebook/wav2vec2-large-xlsr-53在56种语言上使用通用语音进行微调。
训练流程
预处理
需要更多信息
速度、规模与时间
使用本模型时,请确保语音输入采样率为16kHz
评估
测试数据、因素与指标
测试数据
需要更多信息
因素
指标
需要更多信息
结果
点击展开
通用语音语言 |
数据量 |
小时数 |
WER |
CER |
阿拉伯语 |
21744 |
81.5 |
75.29 |
31.23 |
阿萨姆语 |
394 |
1.1 |
95.37 |
46.05 |
布列塔尼语 |
4777 |
7.4 |
93.79 |
41.16 |
加泰罗尼亚语 |
301308 |
692.8 |
24.80 |
10.39 |
哈卡钦语 |
1563 |
2.4 |
68.11 |
23.10 |
捷克语 |
9773 |
39.5 |
67.86 |
12.57 |
楚瓦什语 |
1749 |
5.9 |
95.43 |
34.03 |
威尔士语 |
11615 |
106.7 |
67.03 |
23.97 |
德语 |
262113 |
822.8 |
27.03 |
6.50 |
迪维希语 |
4757 |
18.6 |
92.16 |
30.15 |
希腊语 |
3717 |
11.1 |
94.48 |
58.67 |
英语 |
580501 |
1763.6 |
34.87 |
14.84 |
世界语 |
28574 |
162.3 |
37.77 |
6.23 |
西班牙语 |
176902 |
337.7 |
19.63 |
5.41 |
爱沙尼亚语 |
5473 |
35.9 |
86.87 |
20.79 |
巴斯克语 |
12677 |
90.2 |
44.80 |
7.32 |
波斯语 |
12806 |
290.6 |
53.81 |
15.09 |
芬兰语 |
875 |
2.6 |
93.78 |
27.57 |
法语 |
314745 |
664.1 |
33.16 |
13.94 |
西弗里西亚语 |
6717 |
27.2 |
72.54 |
26.58 |
爱尔兰盖尔语 |
1038 |
3.5 |
92.57 |
51.02 |
印地语 |
292 |
2.0 |
90.95 |
57.43 |
上索布语 |
980 |
2.3 |
89.44 |
27.19 |
匈牙利语 |
4782 |
9.3 |
97.15 |
36.75 |
国际语 |
5078 |
10.4 |
52.00 |
11.35 |
印尼语 |
3965 |
9.9 |
82.50 |
22.82 |
意大利语 |
70943 |
178.0 |
39.09 |
8.72 |
日语 |
1308 |
8.2 |
99.21 |
62.06 |
格鲁吉亚语 |
1585 |
4.0 |
90.53 |
18.57 |
吉尔吉斯语 |
3466 |
12.2 |
76.53 |
19.80 |
卢干达语 |
1634 |
17.1 |
98.95 |
43.84 |
立陶宛语 |
1175 |
3.9 |
92.61 |
26.81 |
拉脱维亚语 |
4554 |
6.3 |
90.34 |
30.81 |
蒙古语 |
4020 |
11.6 |
82.68 |
30.14 |
马耳他语 |
3552 |
7.8 |
84.18 |
22.96 |
荷兰语 |
14398 |
71.8 |
57.18 |
19.01 |
奥里亚语 |
517 |
0.9 |
90.93 |
27.34 |
旁遮普语 |
255 |
0.8 |
87.95 |
42.03 |
波兰语 |
12621 |
112.0 |
56.14 |
12.06 |
葡萄牙语 |
11106 |
61.3 |
53.24 |
16.32 |
罗曼什语(苏) |
2589 |
5.9 |
78.17 |
23.31 |
罗曼什语(瓦) |
931 |
2.3 |
73.67 |
21.76 |
罗马尼亚语 |
4257 |
8.7 |
83.84 |
21.95 |
俄语 |
23444 |
119.1 |
61.83 |
15.18 |
雅库特语 |
1847 |
4.4 |
94.38 |
38.46 |
斯洛文尼亚语 |
2594 |
6.7 |
84.21 |
20.54 |
瑞典语 |
4350 |
20.8 |
83.68 |
30.79 |
泰米尔语 |
3788 |
18.4 |
84.19 |
21.60 |
泰语 |
4839 |
11.7 |
141.87 |
37.16 |
土耳其语 |
3478 |
22.3 |
66.77 |
15.55 |
鞑靼语 |
13338 |
26.7 |
86.80 |
33.57 |
乌克兰语 |
7271 |
39.4 |
70.23 |
14.34 |
越南语 |
421 |
1.7 |
96.06 |
66.25 |
中文(简体) |
27284 |
58.7 |
89.67 |
23.96 |
中文(香港) |
12678 |
92.1 |
81.77 |
18.82 |
中文(繁体) |
6402 |
56.6 |
85.08 |
29.07 |
模型检验
需要更多信息
环境影响
碳排放量可使用Lacoste等人(2019)提出的机器学习影响计算器进行估算。
- 硬件类型: 需要更多信息
- 使用时长: 需要更多信息
- 云服务商: 需要更多信息
- 计算区域: 需要更多信息
- 碳排放量: 需要更多信息
技术规格[可选]
模型架构与目标
需要更多信息
计算基础设施
需要更多信息
硬件
需要更多信息
软件
需要更多信息
引用
BibTeX:
需要更多信息
APA:
需要更多信息
术语表[可选]
需要更多信息
更多信息[可选]
需要更多信息
模型卡片作者[可选]
voidful与Ezi Ozoani及Hugging Face团队合作
模型卡片联系方式
需要更多信息
快速开始指南
使用以下代码开始使用模型
点击展开
环境设置:
!pip install torchaudio
!pip install datasets transformers
!pip install asrp
!wget -O lang_ids.pk https://huggingface.co/voidful/wav2vec2-xlsr-multilingual-56/raw/main/lang_ids.pk
使用方法
import torchaudio
from datasets import load_dataset, load_metric
from transformers import (
Wav2Vec2ForCTC,
Wav2Vec2Processor,