R

Roberta Classical Chinese Large Sentence Segmentation

由 KoichiYasuoka 开发
基于古典汉语文本预训练的RoBERTa模型,专门用于文言文句子分割任务。
下载量 20
发布时间 : 3/2/2022

模型简介

该模型用于将连续的古汉语文本分割成完整的句子,每个句子以标记类别'B'开始,以'E'结束(单字符句子标记为'S')。

模型特点

古典汉语专用
专门针对文言文文本优化,能有效处理古汉语特有的语法结构和表达方式。
精确句子分割
采用B/E/S标记系统,能准确识别文言文中的句子边界。
基于RoBERTa架构
利用强大的RoBERTa预训练模型,在古典汉语文本上进行了微调。

模型能力

文言文处理
句子边界识别
文本分割

使用案例

古籍数字化
古籍文本自动分段
将未经分段的古籍文献自动分割为完整句子
提高古籍数字化的效率和准确性
学术研究
古汉语语料库构建
为语言学研究者提供预处理好的分句文本
便于后续的词法分析和语法研究
AIbase
智启未来,您的人工智能解决方案智库
简体中文