grc-alignment开源多语种词汇级文本对齐模型 - 免费用于古希腊语与其他语言文本对齐

首页

Grc Alignment

由 UGARIT 开发

基于XLM-RoBERTa架构的多语种词汇级文本对齐模型，专为古希腊语与其他语言的文本对齐任务优化

机器翻译

Transformers

#古希腊语文本对齐 #多语言词汇级对齐 #古典文献处理

下载量 48

发布时间 : 5/7/2022

模型简介

该模型通过预训练和微调实现古希腊语与多种语言（英语、拉丁语、格鲁吉亚语等）的词汇级文本对齐，适用于古典文献研究和翻译对齐任务

模型特点

多语言对齐能力

支持古希腊语与英语、拉丁语、格鲁吉亚语等多种语言的词汇级对齐

专业领域优化

在1200万单语古希腊语词汇上预训练，针对古典文献特点优化

高质量训练数据

使用珀尔修斯数字图书馆等权威来源的4.5万句平行语料进行微调

模型能力

古希腊语-英语文本对齐

古希腊语-拉丁语文本对齐

古希腊语-格鲁吉亚语文本对齐

跨语言词汇级对齐

古典文献翻译对齐

使用案例

古典文献研究

荷马史诗对齐分析

对《伊利亚特》和《奥德赛》的古希腊语原文与英语翻译进行词汇级对齐

对齐错误率19.73%（GRC-ENG）

历史文献跨语言比对

古希腊历史学家著作与拉丁语译本的对齐分析

对齐错误率10.60%（GRC-LAT）

数字人文工具

翻译对齐编辑器集成

为UGARIT翻译对齐编辑器提供自动对齐功能

支持5种语言组合

🚀 古希腊文本自动翻译对齐

GRC - ALIGNMENT 模型是一个基于 XLM - RoBERTa 的模型，针对单词级别的自动多语言文本对齐进行了微调。该模型使用掩码语言模型（MLM）训练目标，在 1200 万个单语古希腊语标记上进行训练。此外，该模型还在 4.5 万个平行句子上进行了微调，这些句子主要涉及古希腊语 - 英语、希腊语 - 拉丁语和希腊语 - 格鲁吉亚语。

✨ 主要特性

基于 XLM - RoBERTa 架构，专为单词级别的自动多语言文本对齐设计。
在大量单语古希腊语标记和多种语言的平行句子上进行训练和微调。

📚 详细文档

多语言训练数据集

语言	句子数量	来源
古希腊语 - 英语	32500	珀尔修斯数字图书馆（《伊利亚特》《奥德赛》、色诺芬著作、《新约》）
古希腊语 - 拉丁语	8200	[古希腊历史残篇数字项目](https://www.dfhg - project.org/)
古希腊语 - 格鲁吉亚语古希腊语 - 英语古希腊语 - 拉丁语古希腊语 - 意大利语古希腊语 - 葡萄牙语	4000	UGARIT 翻译对齐编辑器

模型性能

语言对	对齐错误率
古希腊语 - 英语	19.73%（IterMax）
古希腊语 - 葡萄牙语	23.91%（IterMax）
古希腊语 - 拉丁语	10.60%（ArgMax）

黄金标准数据集可在 [Github](https://github.com/UgaritAlignment/Alignment - Gold - Standards) 上获取。

如果您使用此模型，请引用我们的论文：

@InProceedings{yousef-EtAl:2022:LREC,
  author    = {Yousef, Tariq  and  Palladino, Chiara  and  Shamsian, Farnoosh  and  dâ€™Orange Ferreira, Anise  and  Ferreira dos Reis, Michel},
  title     = {An automatic model and Gold Standard for translation alignment of Ancient Greek},
  booktitle      = {Proceedings of the Language Resources and Evaluation Conference},
  month          = {June},
  year           = {2022},
  address        = {Marseille, France},
  publisher      = {European Language Resources Association},
  pages     = {5894--5905},
  url       = {https://aclanthology.org/2022.lrec-1.634}
}

@InProceedings{yousef-EtAl:2022:LT4HALA2022,
  author    = {Yousef, Tariq  and  Palladino, Chiara  and  Wright, David J.  and  Berti, Monica},
  title     = {Automatic Translation Alignment for Ancient Greek and Latin},
  booktitle      = {Proceedings of the Second Workshop on Language Technologies for Historical and Ancient Languages},
  month          = {June},
  year           = {2022},
  address        = {Marseille, France},
  publisher      = {European Language Resources Association},
  pages     = {101--107},
  url       = {https://aclanthology.org/2022.lt4hala2022-1.14}
}