语言:
- 俄语
- 中文
- 英语
标签:
- 翻译
- 文本生成
- T5模型
许可证: Apache-2.0
数据集:
- CCMatrix
评估指标:
- SacreBLEU
示例:
- 标题: 中译俄示例
文本: >
翻译成俄语: 开发的目的是为用户提供个人同步翻译。
- 标题: 俄译英示例
文本: >
翻译成英语: Цель разработки — предоставить пользователям личного синхронного переводчика.
- 标题: 英译俄示例
文本: >
翻译成俄语: The purpose of the development is to provide users with a personal synchronized interpreter.
- 标题: 英译中示例
文本: >
翻译成中文: The purpose of the development is to provide users with a personal synchronized interpreter.
- 标题: 中译英示例
文本: >
翻译成英语: 开发的目的是为用户提供个人同步解释器。
- 标题: 俄译中示例
文本: >
翻译成中文: Цель разработки — предоставить пользователям личного синхронного переводчика.
模型索引:
- 名称: utrobinmv/t5_translate_en_ru_zh_base_200
结果:
- 任务:
类型: 翻译
名称: 英俄翻译
数据集:
名称: NTREX英俄数据集
类型: NTREX
配置: NTREX英俄
拆分: 测试集
指标:
- 类型: SacreBLEU
值: 28.575940911021487
名称: BLEU评分
- 类型: CHRF
值: 54.27996346886896
名称: CHRF评分
- 类型: TER
值: 62.494863914873584
名称: TER评分
- 类型: METEOR
值: 0.5174833677740809
名称: METEOR评分
- 类型: ROUGE
值: 0.1908317951570274
名称: ROUGE-1
- 类型: ROUGE
值: 0.065555552204933
名称: ROUGE-2
- 类型: ROUGE
值: 0.1895542893295215
名称: ROUGE-L
- 类型: ROUGE
值: 0.1893813749889601
名称: ROUGE-LSUM
- 类型: BERTScore
值: 0.8554933660030365
名称: BERTScore F1
- 类型: BERTScore
值: 0.8578473615646363
名称: BERTScore精确率
- 类型: BERTScore
值: 0.8534188346862793
名称: BERTScore召回率
来源:
名称: NTREX数据集基准测试
网址: https://huggingface.co/spaces/utrobinmv/TREX_benchmark_en_ru_zh
T5英俄中多语言机器翻译模型
本模型采用标准T5架构实现多任务翻译功能,专为以下语言对优化:俄汉互译、英汉互译、英俄互译。
该模型支持俄语、中文和英语之间的任意双向翻译。使用时需在待翻译文本前添加目标语言前缀'translate to <语言代码>:'。源语言无需特别声明,且源文本可包含多语言混合内容。
俄译中示例:
from transformers import T5ForConditionalGeneration, T5Tokenizer
model_name = 'utrobinmv/t5_translate_en_ru_zh_small_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
tokenizer = T5Tokenizer.from_pretrained(model_name)
prefix = '翻译成中文: '
src_text = prefix + "Цель разработки — предоставить пользователям личного синхронного переводчика."
input_ids = tokenizer(src_text, return_tensors="pt")
generated_tokens = model.generate(**input_ids)
result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
中译俄示例:
from transformers import T5ForConditionalGeneration, T5Tokenizer
model_name = 'utrobinmv/t5_translate_en_ru_zh_small_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
tokenizer = T5Tokenizer.from_pretrained(model_name)
prefix = '翻译成俄语: '
src_text = prefix + "开发的目的是为用户提供个人同步翻译。"
input_ids = tokenizer(src_text, return_tensors="pt")
generated_tokens = model.generate(**input_ids)
result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
支持语言
俄语(ru_RU)、中文(zh_CN)、英语(en_US)