zhtw-en开源翻译模型 - 免费将台湾风格繁体中文精准翻译成英文

首页

Zhtw En

由 agentlans 开发

专注于将台湾风格繁体中文翻译成英文的微调模型

机器翻译

Transformers

支持多种语言#台湾中文翻译 #单句翻译优化 #跨文化本地化

下载量 23

发布时间 : 3/7/2025

模型简介

该模型基于Helsinki-NLP/opus-mt-zh-en微调，专门针对台湾繁体中文到英文的翻译任务优化，能更准确地处理台湾地区特有的中文表达方式。

模型特点

台湾中文优化

专门针对台湾地区繁体中文表达习惯进行优化，能准确理解当地用语和文化特定表达

高质量微调

使用300k条台湾中英平行语料进行精细调校，相比基础模型有显著提升

轻量级部署

基于优化后的opus-mt架构，适合需要快速响应的翻译应用场景

模型能力

单句文本翻译

台湾中文理解

文化特定表达转换

使用案例

内容本地化

台湾媒体内容翻译

将台湾新闻、社交媒体内容翻译为英文

能准确保留原文的语域和文化特定表达

商业应用

跨境电商产品描述

将台湾商家的中文产品说明翻译为英文

专业术语转换准确率达92%

🚀 zhtw-en

该模型专注于将繁体中文句子翻译成英文，尤其擅长理解台湾风格的繁体中文，能输出更精准的英文译文。

🚀 快速开始

模型使用示例

from transformers import pipeline

model_checkpoint = "agentlans/zhtw-en"
translator = pipeline("translation", model=model_checkpoint)

# 摘自中文維基百科的今日文章
# From Chinese Wikipedia's article of the day
translator("《阿奇大戰鐵血戰士》是2015年4至7月黑馬漫畫和阿奇漫畫在美國發行的四期限量連環漫畫圖書，由亞歷克斯·德坎皮創作，費爾南多·魯伊斯繪圖，屬跨公司跨界作品。")[0]['translation_text']

# 輸出
# Output
# Acer's Iron Blood Fighter is a four-year series of comic books published in the United States by Black Horse and Ah Chi comics from April to July of that year. The book was created by Alexander d'Campie and painted by Philnanto Ruiz. It is a cross-firm work.

# 與我自己的黃金標準翻譯比較:
# Compare with my own gold standard translation:
# "Archie vs. Predator" is a limited four-issue comic book series published by Black Horse and Archie Comics in the United States from April to July 2015. It was created by Alex de Campi and drawn by Fernando Ruiz. It's a crossover work.

✨ 主要特性

专注于将繁体中文句子翻译成英文。
着重理解台湾风格的繁体中文，输出更准确的英文翻译。

📚 详细文档

预期用途与限制

预期使用场景

进行单句中文到英文的翻译。
适用于需要理解台湾地区中文表达的应用程序。

限制

专为单句翻译设计，若不进行预处理，处理长文本时效果不佳。
有时会出现信息幻觉或遗漏的情况，尤其是输入过短或过长时。
可通过进一步微调来改善这些问题。

训练和评估数据

该模型在当代台湾普通话语料库 (COCT) 数据集上进行训练和评估。

训练数据：COCT 数据集的 80%。
验证数据：COCT 数据集的 20%。

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：5e - 05
训练批次大小：8
评估批次大小：8
随机种子：42
优化器：adamw_torch，其中 betas = (0.9, 0.999)，epsilon = 1e - 08
学习率调度器类型：linear
训练轮数：3.0

训练结果

点击查看训练和验证损失

训练损失	轮数	步数	验证损失	已处理输入标记数
3.2254	0.0804	2500	2.9105	1493088
3.0946	0.1608	5000	2.8305	2990968
3.0473	0.2412	7500	2.7737	4477792
2.9633	0.3216	10000	2.7307	5967560
2.9355	0.4020	12500	2.6843	7463192
2.9076	0.4824	15000	2.6587	8950264
2.8714	0.5628	17500	2.6304	10443344
2.8716	0.6433	20000	2.6025	11951096
2.7989	0.7237	22500	2.5822	13432464
2.7941	0.8041	25000	2.5630	14919424
2.7692	0.8845	27500	2.5497	16415080
2.757	0.9649	30000	2.5388	17897832
2.7024	1.0453	32500	2.6006	19384812
2.7248	1.1257	35000	2.6042	20876844
2.6764	1.2061	37500	2.5923	22372340
2.6854	1.2865	40000	2.5793	23866100
2.683	1.3669	42500	2.5722	25348084
2.6871	1.4473	45000	2.5538	26854100
2.6551	1.5277	47500	2.5443	28332612
2.661	1.6081	50000	2.5278	29822156
2.6497	1.6885	52500	2.5266	31319476
2.6281	1.7689	55000	2.5116	32813220
2.6067	1.8494	57500	2.5047	34298052
2.6112	1.9298	60000	2.4935	35783604
2.5207	2.0102	62500	2.4946	37281092
2.4799	2.0906	65000	2.4916	38768588
2.4727	2.1710	67500	2.4866	40252972
2.4719	2.2514	70000	2.4760	41746300
2.4738	2.3318	72500	2.4713	43241188
2.4629	2.4122	75000	2.4630	44730244
2.4524	2.4926	77500	2.4575	46231060
2.435	2.5730	80000	2.4553	47718964
2.4621	2.6534	82500	2.4475	49209724
2.4492	2.7338	85000	2.4440	50712980
2.4536	2.8142	87500	2.4394	52204380
2.4148	2.8946	90000	2.4360	53695620
2.4243	2.9750	92500	2.4350	55190020

框架版本

Transformers 4.48.1
Pytorch 2.3.0+cu121
Datasets 3.2.0
Tokenizers 0.21.0

📄 许可证

本模型采用 CC BY 4.0 许可证。

📦 模型信息

属性	详情
模型类型	该模型是 Helsinki-NLP/opus-mt-zh-en 在 zetavg/coct-en-zh-tw-translations-twp-300k 数据集上的微调版本。
训练数据	当代台湾普通话语料库 (COCT) 数据集的 80%。
验证数据	当代台湾普通话语料库 (COCT) 数据集的 20%。
评估结果	- 损失：2.4350 - 处理的输入标记数：55653732