roberta-classical-chinese-large-char开源模型 - 支持繁简字处理古文任务

首页

Roberta Classical Chinese Large Char

由 KoichiYasuoka 开发

基于文言文文本预训练的RoBERTa模型，支持繁体/简体汉字，适用于古文处理任务

大型语言模型

Transformers

其他开源协议:Apache-2.0 #文言文填空 #古汉语处理 #字符级预训练

下载量 33

发布时间 : 3/2/2022

模型简介

这是一个基于文言文文本预训练的RoBERTa模型，源自古文BERT大型版。字符嵌入增强了对繁体/简体汉字的支持，可用于下游任务微调。

模型特点

文言文专用

专门针对文言文文本进行预训练，优化了对古文的理解和处理能力

字符级支持

增强了对繁体/简体汉字的字符嵌入支持

多任务适用

可微调用于多种下游任务，如句子切分、词性标注等

模型能力

文言文填空

古文句子切分

古文词性标注

古文依存句法分析

使用案例

古文处理

古文填空

填补文言文句子中的缺失部分

如示例所示，能准确预测'孟子见梁惠王'中的'见'字

古文分析

对文言文进行词性标注和句法分析

可识别古文中的词类和语法关系

学术研究

古籍数字化

辅助古籍文献的数字化处理和分析

提高古籍文本处理的效率和准确性

属性	详情
语言	古汉语
标签	文言文、古汉语、掩码语言模型等
基础模型	ethanyt/guwenbert-large
许可证	apache-2.0
任务类型	掩码填充
掩码标记	[MASK]

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Roberta Classical Chinese Large Char

模型简介

模型特点

模型能力

使用案例

🚀 roberta-classical-chinese-large-char

🚀 快速开始

💻 使用示例

基础用法

📚 详细文档

📄 许可证