🚀 NLLB - MoE
NLLB - MoE 是一款在机器翻译领域表现出色的模型。它支持众多语言,通过升级相关组件提升了加载速度,虽推理速度较慢,但仍是当前开源机器翻译的前沿模型。
🚀 快速开始
此模型的运行需将 bitsandbytes
升级到最新版本,并安装 hf transformers
的这个拉取请求:https://github.com/huggingface/transformers/pull/26037。它仅需 37GB 的显存,加载时间从 15 分钟缩短至约 20 秒,不过推理速度较慢。
✨ 主要特性
- 多语言支持:支持众多语言,包括 ace、acm、acq 等多种语言。
- 训练优化:采用 Expert Output Masking 进行训练,通过丢弃某些标记的全部贡献来优化模型。
- 前沿成果:是当前开源机器翻译领域的前沿模型。
📦 安装指南
要使用此模型,需将 bitsandbytes
升级到最新版本,并安装 hf transformers
的这个拉取请求:https://github.com/huggingface/transformers/pull/26037。
💻 使用示例
基础用法
以下示例展示了如何使用 facebook/nllb - moe - 54b 模型将英语翻译成法语。注意,这里使用了法语的 BCP - 47 代码 fra_Latn
。所有 Flores 200 数据集中的 BCP - 47 代码列表可查看 此处。
>>> from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/nllb-moe-54b")
>>> model = AutoModelForSeq2SeqLM.from_pretrained("facebook/nllb-moe-54b")
>>> batched_input = [
'We now have 4-month-old mice that are non-diabetic that used to be diabetic," he added.',
"Dr. Ehud Ur, professor of medicine at Dalhousie University in Halifax, Nova Scotia and chair of the clinical and scientific division of the Canadian Diabetes Association cautioned that the research is still in its early days."
"Like some other experts, he is skeptical about whether diabetes can be cured, noting that these findings have no relevance to people who already have Type 1 diabetes."
"On Monday, Sara Danius, permanent secretary of the Nobel Committee for Literature at the Swedish Academy, publicly announced during a radio program on Sveriges Radio in Sweden the committee, unable to reach Bob Dylan directly about winning the 2016 Nobel Prize in Literature, had abandoned its efforts to reach him.",
'Danius said, "Right now we are doing nothing. I have called and sent emails to his closest collaborator and received very friendly replies. For now, that is certainly enough."',
"Previously, Ring's CEO, Jamie Siminoff, remarked the company started when his doorbell wasn't audible from his shop in his garage.",
]
>>> inputs = tokenizer(batched_input, return_tensors="pt", padding = True)
>>> translated_tokens = model.generate(
... **inputs, forced_bos_token_id=tokenizer.lang_code_to_id["fra_Latn"]
... )
>>> tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)
['"Nous avons maintenant des souris de 4 mois non diabétiques qui étaient diabétiques", a-t-il ajouté.',
"Le docteur Ehud Ur, professeur de médecine à l'université Dalhousie, à Halifax, en Nouvelle-Écosse, et président de la division clinique et scientifique de l'Association canadienne du diabète, prévient que la recherche n'en est qu'à ses débuts.",
"Comme d'autres spécialistes, il est sceptique quant à la guérison du diabète, notant que ces résultats ne sont pas pertinents pour les personnes atteintes de diabète de type 1.",
"Lundi, Sara Danius, secrétaire permanente du Comité Nobel de littérature à l'Académie suédoise, a annoncé publiquement lors d'une émission de radio sur Sveriges Radio en Suède que le comité, incapable de contacter Bob Dylan directement au sujet du prix Nobel de littérature 2016, avait abandonné ses efforts pour le joindre.",
"Danius a déclaré: \"Pour le moment, nous ne faisons rien. J'ai appelé et envoyé des courriels à son plus proche collaborateur et j'ai reçu des réponses très amicales. Pour l'instant, c'est certainement suffisant\".",
"Auparavant, le PDG de Ring, Jamie Siminoff, a fait remarquer que la société avait commencé lorsque sa sonnette n'était pas audible depuis son magasin dans son garage.",
"Il a construit une sonnette WiFi, il a dit.",
]
📚 详细文档
🔧 技术细节
- 训练算法:使用 Expert Output Masking 进行训练,该方法通过丢弃某些标记的全部贡献来优化模型训练过程。
- 资源需求:模型运行需要将
bitsandbytes
升级到最新版本,并安装 hf transformers
的特定拉取请求。运行时需要 37GB 的 VRAM,加载时间约 20 秒。可用的检查点大约需要 350GB 的存储空间。
📄 许可证
本模型使用的许可证为 CC - BY - NC - 4.0。
补充信息
属性 |
详情 |
支持语言 |
ace、acm、acq 等众多语言 |
数据集 |
flores - 200 |
评估指标 |
bleu、spbleu、chrf++ |
推理功能 |
不可用 |
训练算法 |
Expert Output Masking |
论文引用 |
NLLB Team et al, No Language Left Behind: Scaling Human - Centered Machine Translation, Arxiv, 2022 |
问题反馈地址 |
https://github.com/facebookresearch/fairseq/issues |