许可证: cc-by-nc-4.0
语言:
- 南非荷兰语
- 阿姆哈拉语
- 阿拉伯语
- 阿萨姆语
- 阿塞拜疆语
- 白俄罗斯语
- 孟加拉语
- 波斯尼亚语
- 保加利亚语
- 加泰罗尼亚语
- 捷克语
- 中文
- 威尔士语
- 丹麦语
- 德语
- 希腊语
- 英语
- 爱沙尼亚语
- 芬兰语
- 法语
- 奥里亚语
- 奥罗莫语
- 爱尔兰语
- 加利西亚语
- 古吉拉特语
- 豪萨语
- 希伯来语
- 印地语
- 克罗地亚语
- 匈牙利语
- 亚美尼亚语
- 伊博语
- 印尼语
- 冰岛语
- 意大利语
- 爪哇语
- 日语
- 卡纳达语
- 格鲁吉亚语
- 哈萨克语
- 蒙古语
- 高棉语
- 吉尔吉斯语
- 韩语
- 老挝语
- 林加拉语
- 立陶宛语
- 卢森堡语
- 卢干达语
- 拉脱维亚语
- 马拉雅拉姆语
- 马拉地语
- 马其顿语
- 马耳他语
- 毛利语
- 缅甸语
- 荷兰语
- 挪威书面语
- 尼泊尔语
- 齐切瓦语
- 奥克语
- 旁遮普语
- 普什图语
- 波斯语
- 波兰语
- 葡萄牙语
- 罗马尼亚语
- 俄语
- 斯洛伐克语
- 斯洛文尼亚语
- 绍纳语
- 信德语
- 索马里语
- 西班牙语
- 塞尔维亚语
- 瑞典语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 塔吉克语
- 他加禄语
- 泰语
- 土耳其语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 沃洛夫语
- 科萨语
- 约鲁巴语
- 马来语
- 祖鲁语
- 摩洛哥阿拉伯语
- 埃及阿拉伯语
- 粤语
- 佛得角克里奥尔语
评估指标:
推理: 不支持
任务标签: 自动语音识别
标签:
库名称: transformers
示例:
- 输入音频: [链接]
示例标题: Librispeech样本1
输出文本: "沿着泥泞的乡间小路行进,连续两周在通风的教室里对着潮湿的听众演讲,他必须在周日早晨出现在某个礼拜场所,之后可以立即来我们这里"
- 输入音频: [链接]
示例标题: Librispeech样本2
输出文本: "在他有时间回答之前,满身是泥的薇拉冲进房间问道:我能把这些放这儿吗?这些是一只小黑猪和一只有活力的黑红色斗鸡"
SeamlessM4T v2
SeamlessM4T是我们基础性的全能大规模多语言多模态机器翻译模型,为近100种语言的语音和文本提供高质量翻译。
SeamlessM4T模型支持以下任务:
- 语音到语音翻译(S2ST)
- 语音到文本翻译(S2TT)
- 文本到语音翻译(T2ST)
- 文本到文本翻译(T2TT)
- 自动语音识别(ASR)。
SeamlessM4T模型支持:
- 🎤 101种语言的语音输入
- 💬 96种语言的文本输入/输出
- 🔊 35种语言的语音输出
🌟 我们发布了SeamlessM4T v2,这是采用新型UnitY2架构的升级版本。该模型在语音生成任务的质量和推理速度上均优于SeamlessM4T v1。
SeamlessM4T v2是我们新型UnitY2架构的多任务适配版本。UnitY2通过其分层字符到单元的升采样和非自回归文本到单元解码,在质量和推理速度上显著超越了SeamlessM4T v1。
SeamlessM4T v2也支持🤗 Transformers,更多详情请见下方专门章节。

SeamlessM4T模型
我们在上述metrics
文件中提供了论文中报告的seamlessM4T-Large和SeamlessM4T-Medium的广泛评估结果(平均值)。
FLEURS、CoVoST2和CVSS-C的评估数据ID可在此处找到。
评估SeamlessM4T模型
要复现我们的结果或在自己的测试集上使用相同指标进行评估,请查看评估README。
微调SeamlessM4T模型
请查看微调README。
Transformers使用
SeamlessM4T已在🤗 Transformers库中可用,依赖项极少。入门步骤如下:
- 首先从主分支安装🤗 Transformers库和sentencepiece:
pip install git+https://github.com/huggingface/transformers.git sentencepiece
- 运行以下Python代码生成语音样本。这里目标语言是俄语:
from transformers import AutoProcessor, SeamlessM4Tv2Model
import torchaudio
processor = AutoProcessor.from_pretrained("facebook/seamless-m4t-v2-large")
model = SeamlessM4Tv2Model.from_pretrained("facebook/seamless-m4t-v2-large")
text_inputs = processor(text = "Hello, my dog is cute", src_lang="eng", return_tensors="pt")
audio_array_from_text = model.generate(**text_inputs, tgt_lang="rus")[0].cpu().numpy().squeeze()
audio, orig_freq = torchaudio.load("https://www2.cs.uic.edu/~i101/SoundFiles/preamble10.wav")
audio = torchaudio.functional.resample(audio, orig_freq=orig_freq, new_freq=16_000)
audio_inputs = processor(audios=audio, return_tensors="pt")
audio_array_from_audio = model.generate(**audio_inputs, tgt_lang="rus")[0].cpu().numpy().squeeze()
- 在ipynb笔记本中收听音频样本:
from IPython.display import Audio
sample_rate = model.config.sampling_rate
Audio(audio_array_from_text, rate=sample_rate)
或使用第三方库(如scipy
)将其保存为.wav
文件:
import scipy
sample_rate = model.config.sampling_rate
scipy.io.wavfile.write("out_from_text.wav", rate=sample_rate, data=audio_array_from_text)
有关使用🤗 Transformers库进行SeamlessM4T模型推理的更多详情,请参考**SeamlessM4T v2文档或这个实践Google Colab。**
支持的语言:
下表列出了SeamlessM4T-large (v1/v2)支持的语言。source
列指定语言是否支持作为源语音(Sp
)和/或源文本(Tx
)。target
列指定语言是否支持作为目标语音(Sp
)和/或目标文本(Tx
)。
代码 |
语言 |
文字 |
源 |
目标 |
afr |
南非荷兰语 |
拉丁 |
Sp, Tx |
Tx |
amh |
阿姆哈拉语 |
埃塞俄比亚 |
Sp, Tx |
Tx |
arb |
现代标准阿拉伯语 |
阿拉伯 |
Sp, Tx |
Sp, Tx |
... (其余语言列表保持原格式) |
|
|
|
|
注意:seamlessM4T-medium在文本模态下支持200种语言,基于NLLB-200(完整列表见资源卡)。
引用
对于SeamlessM4T v2,请引用:
@inproceedings{seamless2023,
title="Seamless: Multilingual Expressive and Streaming Speech Translation",
author="{Seamless Communication}, Loïc Barrault, Yu-An Chung, Mariano Coria Meglioli, David Dale, Ning Dong, Mark Duppenthaler, Paul-Ambroise Duquenne, Brian Ellis, Hady Elsahar, Justin Haaheim, John Hoffman, Min-Jae Hwang, Hirofumi Inaguma, Christopher Klaiber, Ilia Kulikov, Pengwei Li, Daniel Licht, Jean Maillard, Ruslan Mavlyutov, Alice Rakotoarison, Kaushik Ram Sadagopan, Abinesh Ramakrishnan, Tuan Tran, Guillaume Wenzek, Yilin Yang, Ethan Ye, Ivan Evtimov, Pierre Fernandez, Cynthia Gao, Prangthip Hansanti, Elahe Kalbassi, Amanda Kallet, Artyom Kozhevnikov, Gabriel Mejia, Robin San Roman, Christophe Touret, Corinne Wong, Carleigh Wood, Bokai Yu, Pierre Andrews, Can Balioglu, Peng-Jen Chen, Marta R. Costa-jussà, Maha Elbayad, Hongyu Gong, Francisco Guzmán, Kevin Heffernan, Somya Jain, Justine Kao, Ann Lee, Xutai Ma, Alex Mourachko, Benjamin Peloquin, Juan Pino, Sravya Popuri, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Anna Sun, Paden Tomasello, Changhan Wang, Jeff Wang, Skyler Wang, Mary Williamson",
journal={ArXiv},
year={2023}
}