Fine-Tashkeel开源阿拉伯语标音系统 - 自动补全发音符号精准度高

首页

Fine Tashkeel

由 basharalrfooh 开发

基于字节级微调模型的阿拉伯语精确标音系统，通过微调预训练模型实现阿拉伯文本发音符号的自动补全。

大型语言模型

Transformers

阿拉伯语开源协议:MIT #阿拉伯语标音 #字节级微调 #多语言支持

下载量 335

发布时间 : 4/8/2024

模型简介

该模型专注于恢复阿拉伯文本中缺失的发音符号，无需特征工程即可显著降低词错误率，适用于古典阿拉伯语文本处理。

模型特点

无标记预训练架构

采用ByT5模型直接处理原始文本，能灵活应对多语言及复杂语言现象

高效微调

仅需少量训练即可将词错误率降低40%，达到当前最优标音性能

古典阿拉伯语优化

专为古典阿拉伯语训练，在Tashkeela数据集上进行了13,000步微调

模型能力

阿拉伯语文本标音

发音符号预测

文本补全

使用案例

语言处理

阿拉伯语文本标音

为无发音符号的阿拉伯文本自动添加正确的发音标记

标音错误率（DER）0.95，词错误率（WER）2.49

阿拉伯语学习辅助

帮助学习者理解阿拉伯语单词的正确发音

🚀 Fine-Tashkeel：微调字节级模型以实现精确的阿拉伯文标音

Fine-Tashkeel项目旨在通过微调预训练的无标记多语言模型（ByT5），来学习预测并插入阿拉伯语文本中缺失的标音符号。该项目减少了40%的词错误率（WER），为阿拉伯文标音任务带来了先进的解决方案。

🚀 快速开始

以下是使用该模型的代码示例：

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import pandas as pd

if __name__ == "__main__":

  text = "كيف الحال"
  
  model_name = "basharalrfooh/Fine-Tashkeel" 
  
  tokenizer = AutoTokenizer.from_pretrained(model_name)
  model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
  
  input_ids = tokenizer(text, return_tensors="pt").input_ids
  outputs = model.generate(input_ids, max_new_tokens=128)
  decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)
  print("Generated output:", decoded_output)

✨ 主要特性

利用预训练模型：借助预训练的无标记多语言模型（ByT5）进行微调，避免从头开始训练模型。
高性能表现：在标音任务中达到了先进水平，减少了40%的词错误率（WER）。
通用性强：ByT5模型经过预训练，能够处理多种自然语言处理任务。

📦 安装指南

文档中未提及具体安装步骤，暂无法提供。

💻 使用示例

基础用法

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import pandas as pd

if __name__ == "__main__":

  text = "كيف الحال"
  
  model_name = "basharalrfooh/Fine-Tashkeel" 
  
  tokenizer = AutoTokenizer.from_pretrained(model_name)
  model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
  
  input_ids = tokenizer(text, return_tensors="pt").input_ids
  outputs = model.generate(input_ids, max_new_tokens=128)
  decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=False)
  print("Generated output:", decoded_output)

📚 详细文档

模型描述

ByT5模型以其创新的无标记架构而著称，它直接处理原始文本，能够熟练应对各种语言和语言细微差别。ByT5在全面的文本语料库mc4上进行了预训练，在理解和生成文本方面表现出色，适用于各种自然语言处理任务。我们在Tashkeela数据集上对其进行了13,000步的微调，进一步增强了其在恢复阿拉伯文标音符号方面的性能。

基准测试

注意：此模型是专门为古典阿拉伯语训练的。 我们的模型实现了0.95的标音错误率（DER）和2.49的词错误率（WER）。

🔧 技术细节

本项目主要是对预训练的ByT5模型进行微调，在Tashkeela数据集上训练了13,000步，以提高模型在阿拉伯文标音任务上的性能。通过这种方式，减少了40%的词错误率（WER），达到了该任务的先进水平。

📄 许可证

本项目采用MIT许可证。

📜 引用

如果您使用了本项目的模型或代码，请引用以下论文：

@misc{alrfooh2023finetashkeel,
      title={Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text Diacritization}, 
      author={Bashar Al-Rfooh and Gheith Abandah and Rami Al-Rfou},
      year={2023},
      eprint={2303.14588},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}