许可证: mit
语言:
- 土耳其语
标签:
- 标点恢复
- 标点预测
小部件示例:
- 文本: "土耳其领土上的最早定居始于旧石器时代 色雷斯人在东色雷斯地区 继赫梯人、弗里吉亚人、吕底亚人等众多古安纳托利亚文明之后 随着马其顿国王亚历山大大帝的统治与征服 希腊化时期开始了"
基于Transformer的土耳其语标点恢复模型
您可以在论文基于Transformer的土耳其语标点恢复中找到使用的BERT模型。本项目的目标是在给定文本中正确放置预定义的标点符号。我们提出了三种预训练的Transformer模型,用于预测土耳其语中的句号(.)、逗号(,)和问号(?)。
使用方法
推理
推荐通过HuggingFace使用。您可以使用以下代码运行预训练BERT模型的推理:
from transformers import pipeline
pipe = pipeline(task="token-classification", model="uygarkurt/bert-restore-punctuation-turkish")
sample_text = "土耳其领土上的最早定居始于旧石器时代 色雷斯人在东色雷斯地区 继赫梯人、弗里吉亚人、吕底亚人等众多古安纳托利亚文明之后 随着马其顿国王亚历山大大帝的统治与征服 希腊化时期开始了"
out = pipe(sample_text)
要使用其他预训练模型,只需将model
参数替换为我们提供的其他可用模型。
数据
数据集以训练集、验证集和测试集的形式提供在data/
目录中。
数据集可总结如下:
分割 |
总数 |
句号 (.) |
逗号 (,) |
问号 (?) |
训练集 |
1471806 |
124817 |
98194 |
9816 |
验证集 |
180326 |
15306 |
11980 |
1199 |
测试集 |
182487 |
15524 |
12242 |
1255 |
可用模型
我们试验了BERT、ELECTRA和ConvBERT。预训练模型可通过Huggingface访问。
BERT: https://huggingface.co/uygarkurt/bert-restore-punctuation-turkish
ELECTRA: https://huggingface.co/uygarkurt/electra-restore-punctuation-turkish
ConvBERT: https://huggingface.co/uygarkurt/convbert-restore-punctuation-turkish
结果
各模型及标点符号的精确率
、召回率
和F1
分数总结如下。
模型 |
|
句号 |
|
|
逗号 |
|
|
问号 |
|
|
总体 |
|
分数类型 |
精确率 |
召回率 |
F1 |
精确率 |
召回率 |
F1 |
精确率 |
召回率 |
F1 |
精确率 |
召回率 |
F1 |
BERT |
0.972602 |
0.947504 |
0.959952 |
0.576145 |
0.700010 |
0.632066 |
0.927642 |
0.911342 |
0.919420 |
0.825506 |
0.852952 |
0.837146 |
ELECTRA |
0.972602 |
0.948689 |
0.960497 |
0.576800 |
0.710208 |
0.636590 |
0.920325 |
0.921074 |
0.920699 |
0.823242 |
0.859990 |
0.839262 |
ConvBERT |
0.972731 |
0.946791 |
0.959585 |
0.576964 |
0.708124 |
0.635851 |
0.922764 |
0.913849 |
0.918285 |
0.824153 |
0.856254 |
0.837907 |
引用
@INPROCEEDINGS{10286690,
author={Kurt, Uygar and Çayır, Aykut},
booktitle={2023 8th International Conference on Computer Science and Engineering (UBMK)},
title={Transformer Based Punctuation Restoration for Turkish},
year={2023},
volume={},
number={},
pages={169-174},
doi={10.1109/UBMK59864.2023.10286690}
}