该模型用于预测英语、意大利语、法语和德语文本的标点符号。我们开发此模型旨在恢复转录口语的标点结构。
这款多语言模型基于SEPP-NLG共享任务提供的欧洲议会数据集训练而成。请注意该数据集由政治演讲构成,因此模型在其他领域文本上的表现可能有所差异。
模型可还原以下标点符号:句号"." 逗号"," 问号"?" 连字符"-" 冒号":"
示例代码
我们提供简易Python包,支持处理任意长度文本。
安装
通过pypi安装:
pip install deepmultilingualpunctuation
标点恢复
from deepmultilingualpunctuation import PunctuationModel
model = PunctuationModel()
text = "My name is Clara and I live in Berkeley California Ist das eine Frage Frau Müller"
result = model.restore_punctuation(text)
print(result)
输出示例
My name is Clara and I live in Berkeley, California. Ist das eine Frage, Frau Müller?
预测标签
from deepmultilingualpunctuation import PunctuationModel
model = PunctuationModel()
text = "My name is Clara and I live in Berkeley California Ist das eine Frage Frau Müller"
clean_text = model.preprocess(text)
labled_words = model.predict(clean_text)
print(labled_words)
输出示例
[['My', '0', 0.9999887], ['name', '0', 0.99998665], ['is', '0', 0.9998579], ['Clara', '0', 0.6752215], ['and', '0', 0.99990904], ['I', '0', 0.9999877], ['live', '0', 0.9999839], ['in', '0', 0.9999515], ['Berkeley', ',', 0.99800044], ['California', '.', 0.99534047], ['Ist', '0', 0.99998784], ['das', '0', 0.99999154], ['eine', '0', 0.9999918], ['Frage', ',', 0.99622655], ['Frau', '0', 0.9999889], ['Müller', '?', 0.99863917]]
性能表现
由于连字符和冒号在许多情况下属于可选标点(可用逗号或句号替代),各标点符号的预测性能存在差异。模型在不同语言上的F1分数如下:
标签 |
英语 |
德语 |
法语 |
意大利语 |
0 |
0.991 |
0.997 |
0.992 |
0.989 |
. |
0.948 |
0.961 |
0.945 |
0.942 |
? |
0.890 |
0.893 |
0.871 |
0.832 |
, |
0.819 |
0.945 |
0.831 |
0.798 |
: |
0.575 |
0.652 |
0.620 |
0.588 |
- |
0.425 |
0.435 |
0.431 |
0.421 |
宏观平均 |
0.775 |
0.814 |
0.782 |
0.762 |
语言支持
官方模型
社区模型
可通过设置模型参数切换不同模型:
model = PunctuationModel(model = "oliverguhr/fullstop-dutch-punctuation-prediction")
如何获取源码及训练自定义模型?
欢迎访问研究项目仓库获取完整代码。我们还提供了针对特定数据/语言的微调指南。
文献引用
@article{guhr-EtAl:2021:fullstop,
title={FullStop: 多语言深度标点预测模型},
author = {Guhr, Oliver and Schumann, Anne-Kathrin and Bahrmann, Frank and Böhme, Hans Joachim},
booktitle = {瑞士文本分析会议2021论文集},
month = {六月},
year = {2021},
address = {温特图尔, 瑞士},
publisher = {CEUR研讨会论文集},
url = {http://ceur-ws.org/Vol-2957/sepp_paper4.pdf}
}