bert-restore-punctuation-turkish开源模型 - 精准预测土耳其语文本标点位置

首页

Bert Restore Punctuation Turkish

由 uygarkurt 开发

这是一个用于土耳其语文本标点恢复的Transformer模型，能够预测句号(.)、逗号(,)和问号(?)的正确位置。

序列标注

Transformers

其他开源协议:MIT #土耳其语标点恢复 #BERT微调 #多标点预测

下载量 55

发布时间 : 7/3/2023

模型简介

该模型旨在自动恢复土耳其语文本中的标点符号，支持三种主要标点符号的预测。基于BERT架构，适用于土耳其语文本处理任务。

模型特点

多标点预测

能够同时预测句号、逗号和问号三种标点符号

基于Transformer

采用先进的Transformer架构，提供高质量的标点预测

土耳其语优化

专门针对土耳其语特点进行训练和优化

模型能力

土耳其语文本处理

标点符号预测

文本规范化

使用案例

文本处理

自动标点恢复

为无标点的土耳其语文本自动添加标点符号

提高文本可读性和后续处理质量

语音转文本后处理

为语音识别系统输出的文本添加标点

改善语音转文本结果的可读性

🚀 基于Transformer的土耳其语标点恢复模型

本项目旨在为土耳其语文本正确添加预先确定的标点符号。我们提出了三种预训练的Transformer模型，用于预测土耳其语中的句号（.）、逗号（,）和问号（?）。你可以在论文基于Transformer的土耳其语标点恢复中找到所使用的BERT模型。

喜欢我们的工作？在GitHub上给我们点个 ⭐ 吧！

🚀 快速开始

💻 使用示例

基础用法

推荐通过HuggingFace使用本模型。你可以使用以下代码运行预训练的BERT模型进行推理：

from transformers import pipeline

pipe = pipeline(task="token-classification", model="uygarkurt/bert-restore-punctuation-turkish")

sample_text = "Türkiye toprakları üzerindeki ilk yerleşmeler Yontma Taş Devri'nde başlar Doğu Trakya'da Traklar olmak üzere Hititler Frigler Lidyalılar ve Dor istilası sonucu Yunanistan'dan kaçan Akalar tarafından kurulan İyon medeniyeti gibi çeşitli eski Anadolu medeniyetlerinin ardından Makedonya kralı Büyük İskender'in egemenliğiyle ve fetihleriyle birlikte Helenistik Dönem başladı"

out = pipe(sample_text)

若要使用其他预训练模型，你只需将 model 参数替换为我们提供的可用模型之一。

📦 安装指南

文档未提及安装步骤，此处跳过。

📚 详细文档

📊 数据

数据集以训练集、验证集和测试集的形式存放在 data/ 目录中。

数据集的概要如下：

划分	总数	句号 (.)	逗号 (,)	问号 (?)
训练集	1471806	124817	98194	9816
验证集	180326	15306	11980	1199
测试集	182487	15524	12242	1255

🧪 可用模型

我们对BERT、ELECTRA和ConvBERT进行了实验。预训练模型可通过Huggingface访问。

BERT: https://huggingface.co/uygarkurt/bert-restore-punctuation-turkish
ELECTRA: https://huggingface.co/uygarkurt/electra-restore-punctuation-turkish
ConvBERT: https://huggingface.co/uygarkurt/convbert-restore-punctuation-turkish

📈 结果

以下总结了每个模型和标点符号的 精确率、召回率 和 F1 分数。

模型		句号			逗号			问号			总体
分数类型	精确率	召回率	F1	精确率	召回率	F1	精确率	召回率	F1	精确率	召回率	F1
BERT	0.972602	0.947504	0.959952	0.576145	0.700010	0.632066	0.927642	0.911342	0.919420	0.825506	0.852952	0.837146
ELECTRA	0.972602	0.948689	0.960497	0.576800	0.710208	0.636590	0.920325	0.921074	0.920699	0.823242	0.859990	0.839262
ConvBERT	0.972731	0.946791	0.959585	0.576964	0.708124	0.635851	0.922764	0.913849	0.918285	0.824153	0.856254	0.837907

📖 引用

@INPROCEEDINGS{10286690,
    author={Kurt, Uygar and Çayır, Aykut},
    booktitle={2023 8th International Conference on Computer Science and Engineering (UBMK)}, 
    title={Transformer Based Punctuation Restoration for Turkish}, 
    year={2023},
    volume={},
    number={},
    pages={169-174},
    doi={10.1109/UBMK59864.2023.10286690}
}