标签:
- 多语言语音识别
语言:
- 阿布哈兹语
- 南非荷兰语
- 阿坎语
- 阿姆哈拉语
- 阿拉伯语
- 阿萨姆语
- 阿瓦尔语
- 艾马拉语
- 阿塞拜疆语
- 巴什基尔语
- 班巴拉语
- 白俄罗斯语
- 孟加拉语
- 比斯拉马语
- 藏语
- 塞尔维亚-克罗地亚语
- 布列塔尼语
- 保加利亚语
- 加泰罗尼亚语
- 捷克语
- 车臣语
- 楚瓦什语
- 库尔德语
- 威尔士语
- 丹麦语
- 德语
- 迪维希语
- 宗卡语
- 希腊语
- 英语
- 世界语
- 爱沙尼亚语
- 巴斯克语
- 埃维语
- 法罗语
- 波斯语
- 斐济语
- 芬兰语
- 法语
- 西弗里西亚语
- 富拉语
- 爱尔兰语
- 加利西亚语
- 瓜拉尼语
- 古吉拉特语
- 中文
- 海地克里奥尔语
- 豪萨语
- 希伯来语
- 印地语
- 塞尔维亚-克罗地亚语
- 匈牙利语
- 亚美尼亚语
- 伊博语
- 国际语
- 马来语
- 冰岛语
- 意大利语
- 爪哇语
- 日语
- 卡纳达语
- 格鲁吉亚语
- 哈萨克语
- 卡努里语
- 高棉语
- 基库尤语
- 卢旺达语
- 吉尔吉斯语
- 韩语
- 科米语
- 老挝语
- 拉丁语
- 拉脱维亚语
- 林加拉语
- 立陶宛语
- 卢森堡语
- 卢干达语
- 马绍尔语
- 马拉雅拉姆语
- 马拉地语
- 马来语
- 马其顿语
- 马尔加什语
- 马耳他语
- 蒙古语
- 毛利语
- 缅甸语
- 中文
- 荷兰语
- 挪威语
- 挪威语
- 尼泊尔语
- 齐切瓦语
- 奥克语
- 奥罗莫语
- 奥里亚语
- 奥塞梯语
- 旁遮普语
- 波兰语
- 葡萄牙语
- 马来语
- 普什图语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 克丘亚语
- 罗马尼亚语
- 基隆迪语
- 俄语
- 桑戈语
- 斯洛伐克语
- 斯洛文尼亚语
- 萨摩亚语
- 绍纳语
- 信德语
- 索马里语
- 西班牙语
- 阿尔巴尼亚语
- 巽他语
- 瑞典语
- 斯瓦希里语
- 泰米尔语
- 鞑靼语
- 泰卢固语
- 塔吉克语
- 他加禄语
- 泰语
- 提格里尼亚语
- 聪加语
- 土耳其语
- 乌克兰语
- 马来语
- 越南语
- 沃洛夫语
- 科萨语
- 马来语
- 约鲁巴语
- 马来语
- 祖鲁语
- 壮语
许可证: CC-BY-NC-4.0
数据集:
- google/fleurs
评估指标:
- 准确率
大规模多语言语音模型(MMS) - 微调版语言识别
本模型是基于Facebook大规模多语言语音项目微调的语言识别(LID)模型。该模型基于Wav2Vec2架构,可将原始音频输入分类为126种语言的概率分布(每个类别代表一种语言)。该模型包含10亿参数,是在facebook/mms-1b基础上针对126种语言微调而成。
目录
使用示例
本MMS模型可与Transformers库配合使用,识别音频的语种。它能识别以下126种语言。
请看简单示例:
首先安装transformers及其他依赖库
pip install torch accelerate torchaudio datasets
pip install --upgrade transformers
注意:使用MMS需要安装至少transformers >= 4.30
版本。如果PyPI上尚未发布4.30版本,请从源码安装:
pip install git+https://github.com/huggingface/transformers.git
接着通过datasets
加载音频样本,确保音频采样率为16kHz:
from datasets import load_dataset, Audio
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "en", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
en_sample = next(iter(stream_data))["audio"]["array"]
stream_data = load_dataset("mozilla-foundation/common_voice_13_0", "ar", split="test", streaming=True)
stream_data = stream_data.cast_column("audio", Audio(sampling_rate=16000))
ar_sample = next(iter(stream_data))["audio"]["array"]
加载模型和处理器:
from transformers import Wav2Vec2ForSequenceClassification, AutoFeatureExtractor
import torch
model_id = "facebook/mms-lid-126"
processor = AutoFeatureExtractor.from_pretrained(model_id)
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_id)
处理音频数据并分类:
inputs = processor(en_sample, sampling_rate=16_000, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs).logits
lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
inputs = processor(ar_sample, sampling_rate=16_000, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs).logits
lang_id = torch.argmax(outputs, dim=-1)[0].item()
detected_lang = model.config.id2label[lang_id]
查看所有支持语言:
processor.id2label.values()
架构详情请参阅官方文档。
支持语言
本模型支持126种语言。点击下方查看完整列表(ISO 639-3代码),更多语言覆盖详情请见MMS语言覆盖概览。
点击展开
- 阿拉伯语
- 普通话
- 英语
- 西班牙语
- 法语
- 马尔加什语
- 瑞典语
- 葡萄牙语
- 越南语
- 富拉语
- 巽他语
- 阿萨姆语
- 孟加拉语
- 马来语
- 韩语
- 印尼语
- 印地语
- 土库曼语
- 乌尔都语
- 阿塞拜疆语
- 斯洛文尼亚语
- 蒙古语
- 豪萨语
- 泰卢固语
- 斯瓦希里语
- 藏语
- 俄语
- 土耳其语
- 希伯来语
- 马拉地语
- 索马里语
- 他加禄语
- 鞑靼语
- 泰语
- 加泰罗尼亚语
- 罗马尼亚语
- 马拉雅拉姆语
- 白俄罗斯语
- 波兰语
- 约鲁巴语
- 荷兰语
- 保加利亚语
- 海地克里奥尔语
- 南非荷兰语
- 冰岛语
- 阿姆哈拉语
- 泰米尔语
- 匈牙利语
- 克罗地亚语
- 立陶宛语
- 威尔士语
- 波斯语
- 马其顿语
- 希腊语
- 波斯尼亚语
- 德语
- 阿尔巴尼亚语
- 爪哇语
- 挪威语
- 乌兹别克语
- 信德语
- 拉丁语
- 齐切瓦语
- 瓜拉尼语
- 缅甸语
- 奥罗莫语
- 林加拉语
- 亚美尼亚语
- 粤语
- 旁遮普语
- 日语
- 哈萨克语
- 尼泊尔语
- 格鲁吉亚语
- 古吉拉特语
- 卡纳达语
- 塔吉克语
- 乌克兰语
- 捷克语
- 拉脱维亚语
- 巴什基尔语
- 高棉语
- 法罗语
- 加利西亚语
- 卢森堡语
- 老挝语
- 马耳他语
- 僧伽罗语
- 绍纳语
- 意大利语
- 塞尔维亚语
- 毛利语
- 挪威尼诺斯克语
- 普什图语
- 巴斯克语
- 奥里亚语
- 卢干达语
- 布列塔尼语
- 卢奥语
- 斯洛伐克语
- 芬兰语
- 丹麦语
- 意第绪语
- 爱沙尼亚语
- 宿务语
- 瓦瑞语
- 梵语
- 吉尔吉斯语
- 奥克语
- 沃洛夫语
- 夏威夷语
- 坎巴语
- 翁本杜语
- 科萨语
- 世界语
- 祖鲁语
- 伊博语
- 阿布哈兹语
- 库尔德语
- 北索托语
- 爱尔兰语
- 卡布佛得鲁语
- 阿斯图里亚斯语
- 苏格兰语
- 曼岛语
- 国际语
模型详情
-
开发者: Vineel Pratap等
-
模型类型: 多语言自动语音识别模型
-
支持语言: 126种,详见支持语言
-
许可证: CC-BY-NC 4.0
-
参数量: 10亿
-
音频采样率: 16kHz
-
引用文献:
@article{pratap2023mms,
title={Scaling Speech Technology to 1,000+ Languages},
author={Vineel Pratap and Andros Tjandra and Bowen Shi and Paden Tomasello and Arun Babu and Sayani Kundu and Ali Elkahky and Zhaoheng Ni and Apoorv Vyas and Maryam Fazel-Zarandi and Alexei Baevski and Yossi Adi and Xiaohui Zhang and Wei-Ning Hsu and Alexis Conneau and Michael Auli},
journal={arXiv},
year={2023}
}
相关链接