语言:
- 俄语
- 中文
- 英语
标签:
- 翻译
许可证: apache-2.0
数据集:
- ccmatrix
评估指标:
- sacrebleu
小部件示例:
- 示例标题: 中译俄
文本: >
translate to ru: 开发的目的是为用户提供个人同步翻译。
- 示例标题: 俄译英
文本: >
translate to en: Цель разработки — предоставить пользователям личного синхронного переводчика.
- 示例标题: 英译俄
文本: >
translate to ru: The purpose of the development is to provide users with a personal synchronized interpreter.
- 示例标题: 英译中
文本: >
translate to zh: The purpose of the development is to provide users with a personal synchronized interpreter.
- 示例标题: 中译英
文本: >
translate to en: 开发的目的是为用户提供个人同步解释器。
- 示例标题: 俄译中
文本: >
translate to zh: Цель разработки — предоставить пользователям личного синхронного переводчика。
T5英俄中多语言机器翻译模型
本模型采用经典T5转换器架构,支持多任务模式下的目标语言翻译,专为以下语言对机器翻译优化配置:俄-中、中-俄、英-中、中-英、英-俄、俄-英。
该模型可实现俄语、中文和英语之间的任意双向互译。翻译时需在源文本前添加目标语言前缀'translate to <语言代码>:'。源语言无需显式声明,且源文本可包含多语言混合内容。
俄译中示例:
from transformers import T5ForConditionalGeneration, T5Tokenizer
device = 'cuda'
model_name = 'utrobinmv/t5_translate_en_ru_zh_small_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)
prefix = 'translate to zh: '
src_text = prefix + "Цель разработки — предоставить пользователям личного синхронного переводчика."
input_ids = tokenizer(src_text, return_tensors="pt")
generated_tokens = model.generate(**input_ids.to(device))
result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
中译俄示例:
from transformers import T5ForConditionalGeneration, T5Tokenizer
device = 'cuda'
model_name = 'utrobinmv/t5_translate_en_ru_zh_small_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)
prefix = 'translate to ru: '
src_text = prefix + "开发的目的就是向用户提供个性化的同步翻译。"
input_ids = tokenizer(src_text, return_tensors="pt")
generated_tokens = model.generate(**input_ids.to(device))
result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
支持语言
俄语(ru_RU)、中文(zh_CN)、英语(en_US)