Bert Base Han Chinese Ws

B

Bert Base Han Chinese Ws

由 ckiplab 开发

该模型为古代汉语提供分词功能，训练数据集涵盖汉语发展的四个历史时期。

中文开源协议:Gpl-3.0 #古汉语分词 #多时期语料 #BERT架构

下载量 14

发布时间 : 7/1/2022

模型简介

基于BERT架构的中文分词模型，专门针对古代汉语文本设计，支持从上古到现代的汉语分词任务。

模型特点

历史汉语支持

训练数据涵盖上古、中古、近代和现代四个汉语发展时期

学术级语料

基于中央研究院语言学研究所的权威标注语料库训练

BERT架构

采用BERT-base架构，具有良好的上下文理解能力

模型能力

中文分词

历史汉语处理

序列标注

使用案例

学术研究

古代文献分析

对上古汉语文献进行自动分词处理

可准确识别古代汉语中的词语边界

语言演变研究

比较不同历史时期的汉语分词特征

帮助语言学家研究汉语的历史演变

数字人文

古籍数字化

为古籍文本数字化提供预处理支持

提高古籍文本的可检索性和分析性

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24