语言:
- 英语
- 德语
- 法语
- 中文
- 葡萄牙语
- 荷兰语
- 俄语
- 韩语
- 意大利语
- 西班牙语
许可证: cc-by-nc-4.0
评估指标:
- comet
任务标签: 翻译
TowerInstruct-Mistral-7B-v0.2 模型卡
模型详情
模型描述
TowerInstruct-Mistral-7B-v0.2 是基于 Mistral 版本的 TowerBase 模型,在 TowerBlocks 监督微调数据集上进一步微调得到的语言模型。该模型能够处理多种翻译相关任务,包括通用机器翻译(如句子级和段落/文档级翻译、术语感知翻译、上下文感知翻译)、自动后编辑、命名实体识别、语法纠错以及改写生成。
该模型性能与 TowerInstruct-13B-v0.2 相当,但体积仅为后者的一半。详见我们在 COLM 2024 的论文。
- 开发团队: Unbabel, 里斯本高等理工学院, 巴黎萨克雷中央理工-高等电力学院
- 模型类型: 70亿参数模型,基于公开翻译任务数据集、合成数据、对话数据集及代码指令混合微调
- 支持语言: 英语、葡萄牙语、西班牙语、法语、德语、荷兰语、意大利语、韩语、中文、俄语
- 许可证: CC-BY-NC-4.0
使用范围与限制
模型初始微调数据来自经过筛选和预处理的 TowerBlocks 数据集(链接),包含以下多样化数据源:
- 翻译(句子与段落级)
- 自动后编辑
- 机器翻译评估
- 上下文感知翻译
- 术语感知翻译
- 多参考译文
- 命名实体识别
- 改写生成
- 合成对话数据
- 代码指令
使用 🤗 Transformers 库运行模型的示例:
import torch
from transformers import pipeline
pipe = pipeline("text-generation", model="Unbabel/TowerInstruct-Mistral-7B-v0.2", torch_dtype=torch.bfloat16, device_map="auto")
messages = [
{"role": "user", "content": "将以下葡萄牙语文本翻译成英语。\n葡萄牙语: Um grupo de investigadores lançou um novo modelo para tarefas relacionadas com tradução.\n英语:"},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt, max_new_tokens=256, do_sample=False)
print(outputs[0]["generated_text"])
非适用场景
该模型不保证支持10种指定语言之外的其他语言性能。虽然包含对话数据和代码指令训练,但不应作为聊天机器人或代码助手使用。当前正在提升文档级翻译质量,暂不建议用于文档级翻译场景。
偏见、风险与限制
本模型未经过人类偏好对齐,可能产生问题输出(如幻觉内容、有害信息或错误陈述)。
提示词格式
模型采用无系统提示的ChatML模板格式:
<|im_start|>user
{用户提示}<|im_end|>
<|im_start|>assistant
{模型响应}<|im_end|>
<|im_start|>user
[...]
监督任务提示
所有监督任务的提示模板可在 TowerBlocks 查看。每个任务设计有多种提示模板,不同模板可能导致输出差异,但对下游任务性能影响极小。
训练详情
训练数据
详见 TowerBlocks 数据集。
引用文献
@inproceedings{
alves2024tower,
title={Tower: An Open Multilingual Large Language Model for Translation-Related Tasks},
author={Duarte Miguel Alves and Jos{\'e} Pombal and Nuno M Guerreiro and Pedro Henrique Martins and Jo{\~a}o Alves and Amin Farajian and Ben Peters and Ricardo Rei and Patrick Fernandes and Sweta Agrawal and Pierre Colombo and Jos{\'e} G. C. de Souza and Andre Martins},
booktitle={First Conference on Language Modeling},
year={2024},
url={https://openreview.net/forum?id=EHPns3hVkj}
}
