language:
xlm-clm-ende-1024
目录
- 模型详情
- 用途
- 偏见、风险与局限性
- 训练
- 评估
- 环境影响
- 技术规格
- 引用
- 模型卡片作者
- 如何开始使用该模型
模型详情
XLM模型由Guillaume Lample和Alexis Conneau在论文《跨语言语言模型预训练》中提出。xlm-clm-ende-1024是一个基于因果语言建模(CLM)目标(即下一个词预测)预训练的英德双语Transformer模型。
模型描述
用途
直接使用
该模型是一个语言模型,可用于因果语言建模任务。
下游使用
关于该任务及潜在下游应用的更多信息,请参阅Hugging Face多语言推理文档。
超出范围的使用
该模型不应被用于故意制造敌对或排斥性的环境。
偏见、风险与局限性
已有大量研究探讨了语言模型中的偏见与公平性问题(参见Sheng等(2021)和Bender等(2021))。
建议
用户(包括直接使用和下游使用者)应了解该模型的风险、偏见和局限性。
训练
训练数据和训练过程的详细信息请参阅相关论文。
评估
测试数据、因素与指标
测试数据、因素和指标的详细信息请参阅相关论文。
结果
xlm-clm-ende-1024的结果请参见相关论文中的表2。
环境影响
碳排放量可通过Lacoste等(2019)提出的机器学习影响计算器进行估算。
- 硬件类型: 需更多信息
- 使用时长: 需更多信息
- 云服务提供商: 需更多信息
- 计算区域: 需更多信息
- 碳排放量: 需更多信息
技术规格
模型开发者写道:
我们使用PyTorch(Paszke等,2017)实现所有模型,语言建模任务在64块Volta GPU上训练,机器翻译任务在8块GPU上训练。采用float16运算以加速训练并降低模型内存占用。
更多细节请参阅相关论文。
引用
BibTeX:
@article{lample2019cross,
title={Cross-lingual language model pretraining},
author={Lample, Guillaume and Conneau, Alexis},
journal={arXiv preprint arXiv:1901.07291},
year={2019}
}
APA:
- Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.
模型卡片作者
本模型卡片由Hugging Face团队撰写。
如何开始使用该模型
使用以下代码开始使用该模型。
点击展开
import torch
from transformers import XLMTokenizer, XLMWithLMHeadModel
tokenizer = XLMTokenizer.from_pretrained("xlm-clm-ende-1024")
model = XLMWithLMHeadModel.from_pretrained("xlm-clm-ende-1024")
input_ids = torch.tensor([tokenizer.encode("Wikipedia was used to")])
language_id = tokenizer.lang2id["en"]
langs = torch.tensor([language_id] * input_ids.shape[1])
langs = langs.view(1, -1)
outputs = model(input_ids, langs=langs)