库名称: transformers
语言:
- 英文
- 中文
许可证: cc-by-4.0
基础模型: Helsinki-NLP/opus-mt-zh-en
标签:
- 训练生成
模型索引:
- 名称: zhtw-en
结果: []
数据集:
- zetavg/coct-en-zh-tw-translations-twp-300k
管道标签: 翻译
zhtw-en
English
该模型专注于将繁体中文句子翻译成英文,特别擅长理解台湾风格的繁体中文并生成更准确的英文翻译。
本模型是基于Helsinki-NLP/opus-mt-zh-en在zetavg/coct-en-zh-tw-translations-twp-300k数据集上进行微调的版本。
在评估集上取得以下结果:
- 损失值: 2.4350
- 处理的输入标记数: 55653732
预期用途与限制
预期用途
限制
- 专为单句翻译设计,未经预处理的长文本表现可能不佳
- 有时会产生幻觉或遗漏信息,特别是处理过短或过长的输入时
- 后续微调将解决这些问题
训练与评估数据
使用当代台湾普通话语料库(COCT)翻译数据集进行训练和评估。
- 训练数据: COCT数据集的80%
- 验证数据: COCT数据集的20%
Chinese
该模型旨在将繁体中文翻译成英文,重点是理解台湾风格的繁体中文并产生更准确的英文翻译。
模型基于Helsinki-NLP/opus-mt-zh-en并在zetavg/coct-en-zh-tw-translations-twp-300k数据集上进行微调。
在评估集上,模型取得了以下结果:
- 损失值: 2.4350
- 处理的输入标记数量: 55,653,732
预期用途与限制
预期用途
- 将单一中文句子翻译为英文
- 适用于需要理解台湾中文的应用程序
限制
- 本模型专为单句翻译设计,因此在处理较长文本时可能表现不佳,若未经预处理
- 在某些情况下,模型可能会产生幻觉或遗漏信息,特别是在输入过短或过长的情况下
- 进一步的微调将有助于改善这些问题
训练与评估数据
该模型使用当代台湾普通话语料库(COCT)数据集进行训练和评估。
- 训练资料: COCT数据集的80%
- 验证资料: COCT数据集的20%
示例
from transformers import pipeline
model_checkpoint = "agentlans/zhtw-en"
translator = pipeline("translation", model=model_checkpoint)
translator("《阿奇大戰鐵血戰士》是2015年4至7月黑馬漫畫和阿奇漫畫在美國發行的四期限量連環漫畫圖書,由亞歷克斯·德坎皮創作,費爾南多·魯伊斯繪圖,屬跨公司跨界作品。")[0]['translation_text']
训练过程
训练超参数
训练使用的超参数如下:
- 学习率: 5e-05
- 训练批次大小: 8
- 评估批次大小: 8
- 随机种子: 42
- 优化器: adamw_torch with betas=(0.9,0.999) and epsilon=1e-08
- 学习率调度器类型: linear
- 训练轮数: 3.0
训练结果
点击查看训练和验证损失
训练损失 |
训练轮数 |
步数 |
验证损失 |
处理的输入标记数 |
3.2254 |
0.0804 |
2500 |
2.9105 |
1493088 |
3.0946 |
0.1608 |
5000 |
2.8305 |
2990968 |
3.0473 |
0.2412 |
7500 |
2.7737 |
4477792 |
2.9633 |
0.3216 |
10000 |
2.7307 |
5967560 |
2.9355 |
0.4020 |
12500 |
2.6843 |
7463192 |
2.9076 |
0.4824 |
15000 |
2.6587 |
8950264 |
2.8714 |
0.5628 |
17500 |
2.6304 |
10443344 |
2.8716 |
0.6433 |
20000 |
2.6025 |
11951096 |
2.7989 |
0.7237 |
22500 |
2.5822 |
13432464 |
2.7941 |
0.8041 |
25000 |
2.5630 |
14919424 |
2.7692 |
0.8845 |
27500 |
2.5497 |
16415080 |
2.757 |
0.9649 |
30000 |
2.5388 |
17897832 |
2.7024 |
1.0453 |
32500 |
2.6006 |
19384812 |
2.7248 |
1.1257 |
35000 |
2.6042 |
20876844 |
2.6764 |
1.2061 |
37500 |
2.5923 |
22372340 |
2.6854 |
1.2865 |
40000 |
2.5793 |
23866100 |
2.683 |
1.3669 |
42500 |
2.5722 |
25348084 |
2.6871 |
1.4473 |
45000 |
2.5538 |
26854100 |
2.6551 |
1.5277 |
47500 |
2.5443 |
28332612 |
2.661 |
1.6081 |
50000 |
2.5278 |
29822156 |
2.6497 |
1.6885 |
52500 |
2.5266 |
31319476 |
2.6281 |
1.7689 |
55000 |
2.5116 |
32813220 |
2.6067 |
1.8494 |
57500 |
2.5047 |
34298052 |
2.6112 |
1.9298 |
60000 |
2.4935 |
35783604 |
2.5207 |
2.0102 |
62500 |
2.4946 |
37281092 |
2.4799 |
2.0906 |
65000 |
2.4916 |
38768588 |
2.4727 |
2.1710 |
67500 |
2.4866 |
40252972 |
2.4719 |
2.2514 |
70000 |
2.4760 |
41746300 |
2.4738 |
2.3318 |
72500 |
2.4713 |
43241188 |
2.4629 |
2.4122 |
75000 |
2.4630 |
44730244 |
2.4524 |
2.4926 |
77500 |
2.4575 |
46231060 |
2.435 |
2.5730 |
80000 |
2.4553 |
47718964 |
2.4621 |
2.6534 |
82500 |
2.4475 |
49209724 |
2.4492 |
2.7338 |
85000 |
2.4440 |
50712980 |
2.4536 |
2.8142 |
87500 |
2.4394 |
52204380 |
2.4148 |
2.8946 |
90000 |
2.4360 |
53695620 |
2.4243 |
2.9750 |
92500 |
2.4350 |
55190020 |
框架版本
- Transformers 4.48.1
- Pytorch 2.3.0+cu121
- Datasets 3.2.0
- Tokenizers 0.21.0