语言:
- 英语
- 德语
- 法语
- 中文
- 葡萄牙语
- 荷兰语
- 俄语
- 韩语
- 意大利语
- 西班牙语
许可证: cc-by-nc-4.0
评估指标:
- comet
任务标签: 翻译
TowerInstruct-7B-v0.2 模型卡
模型详情
模型描述
TowerInstruct-7B 是通过在 TowerBlocks 监督微调数据集上对 TowerBase 进行微调得到的语言模型。TowerInstruct-7B-v0.2 是该系列中的第一个模型。
该模型经过训练,能够处理多种翻译相关任务,例如通用机器翻译(如句子和段落/文档级翻译、术语感知翻译、上下文感知翻译)、自动后编辑、命名实体识别、语法错误纠正和释义生成。
我们将在即将发布的技术报告中提供更多细节。目前,您可以在此处查看模型获得的结果。
- 开发团队: Unbabel, 里斯本高等理工学院, 巴黎萨克雷中央理工-高等电力学院
- 模型类型: 一个70亿参数的模型,基于公开可用的翻译相关任务合成数据集、对话数据集和代码指令进行微调。
- 支持语言 (NLP): 英语、葡萄牙语、西班牙语、法语、德语、荷兰语、意大利语、韩语、中文、俄语
- 许可证: CC-BY-NC-4.0, Llama 2 遵循 LLAMA 2 社区许可证, 版权所有 © Meta Platforms, Inc. 保留所有权利。
- 基础模型: TowerBase
更新: 与 TowerInstruct-7B-v0.1 相比,TowerInstruct-7B-v0.2 具备更可靠的文档级翻译能力。用于训练 v0.2 的新版 TowerBlocks 数据集也已包含在 Tower 系列中。
预期用途与限制
该模型最初是在经过筛选和预处理的监督微调数据集 (TowerBlocks) 上进行微调的,该数据集包含多样化的数据来源:
- 翻译(句子和段落级别)
- 自动后编辑
- 机器翻译评估
- 上下文感知翻译
- 术语感知翻译
- 多参考翻译
- 命名实体识别
- 释义生成
- 合成对话数据
- 代码指令
您可以在 TowerBlocks 中找到数据集及其所有数据来源。
以下是使用 🤗 Transformers 的 pipeline()
函数运行模型的方法:
import torch
from transformers import pipeline
pipe = pipeline("text-generation", model="Unbabel/TowerInstruct-7B-v0.2", torch_dtype=torch.bfloat16, device_map="auto")
messages = [
{"role": "user", "content": "将以下葡萄牙语文本翻译成英语。\n葡萄牙语: Um grupo de investigadores lançou um novo modelo para tarefas relacionadas com tradução.\n英语:"},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt, max_new_tokens=256, do_sample=False)
print(outputs[0]["generated_text"])
超出范围的使用
该模型不保证支持其10种语言之外的其他语言。尽管我们在对话数据和代码指令上对模型进行了训练,但它并非设计用作对话聊天机器人或代码助手。
我们目前正在提升文档级翻译的质量和一致性。该模型不应用于文档级翻译。
偏见、风险与限制
TowerInstruct-v0.2 尚未与人类偏好对齐,因此模型可能生成有问题的输出(如幻觉、有害内容或虚假陈述)。
提示格式
TowerInstruct-v0.2 使用不带系统提示的 ChatML 提示模板进行训练。示例如下:
<|im_start|>user
{用户提示}<|im_end|>
<|im_start|>assistant
{模型响应}<|im_end|>
<|im_start|>user
[...]
监督任务
所有监督任务的提示可在 TowerBlocks 中找到。我们为每个任务使用了多种提示模板。虽然不同提示可能导致不同输出,但下游性能差异应非常小。
训练详情
训练数据
链接至 TowerBlocks。
训练超参数
训练期间使用的超参数如下:
- 总训练批次大小: 256
- 学习率: 7e-06
- 学习率调度器类型: cosine
- 学习率预热步数: 500
- 权重衰减: 0.01
- 优化器: Adam,参数 betas=(0.9,0.999),epsilon=1e-08
- 训练轮数: 4
- 最大序列长度: 2048
引用
@misc{tower_llm_2024,
title={Tower: 一个面向翻译相关任务的开源多语言大语言模型},
author={杜阿尔特·M·阿尔维斯 and 何塞·庞巴尔 and 努诺·M·格雷罗 and 佩德罗·H·马丁斯 and 若昂·阿尔维斯 and 阿明·法拉金 and 本·彼得斯 and 里卡多·雷伊 and 帕特里克·费尔南德斯 and 斯维塔·阿格拉瓦尔 and 皮埃尔·科隆博 and 何塞·G·C·德索萨 and 安德烈·F·T·马丁斯},
year={2024},
eprint={2402.17733},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
