license: mit
datasets:
- NiuTrans/ComMT
language:
- en
- zh
- de
- cs
metrics:
- bleu
- comet
base_model:
- meta-llama/Meta-Llama-3-8B
pipeline_tag: translation
LaMaTE
- GitHub: https://github.com/NiuTrans/LaMaTE/
- 论文: https://arxiv.org/abs/2503.06594
模型描述
LaMaTE是基于Llama-3-8B开发的高性能高效翻译模型。
它利用大语言模型(LLMs)作为机器翻译(MT)编码器,搭配轻量级解码器。
该模型通过适配器桥接LLM表征与解码器,采用两阶段训练策略以提升性能与效率。
LaMaTE核心特性
- 效率提升:解码速度加快2.4至6.5倍
- 内存优化:KV缓存内存消耗降低75%
- 强劲性能:在多语言翻译任务中表现优异
快速开始
完整用法详见GitHub
注意: 本实现基于transformers v4.39.2开发,建议安装此版本以获得最佳兼容性。
部署LaMaTE时,使用from_pretrained()
方法加载模型后,即可通过generate()
方法直接调用:
from modeling_llama_seq2seq import LlamaCrossAttentionEncDec
from transformers import AutoTokenizer, AutoConfig
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
config = AutoConfig.from_pretrained(model_name_or_path, trust_remote_code=True)
model = LlamaCrossAttentionEncDec.from_pretrained(model_name_or_path, config=config)
prompt = "将以下英文翻译成中文。\n英文: The harder you work at it, the more progress you will make.\n中文: ",
input_ids = tokenizer(prompt, return_tensors="pt")
outputs_tokenized = model.generate(
**input_ids,
num_beams=5,
do_sample=False
)
outputs = tokenizer.batch_decode(outputs_tokenized, skip_special_tokens=True)
print(outputs)
引用
@misc{luoyf2025lamate,
title={超越纯解码器:大语言模型可成为机器翻译的优秀编码器},
author={罗英夫, 郑桐, 慕永裕, 李蓓, 张庆宏, 高永琪, 徐子强, 冯培南, 刘小倩, 肖桐, 朱靖波},
year={2025},
eprint={2503.06594},
archivePrefix={arXiv},
primaryClass={cs.CL}
}