C

Canine C

由 google 开发
CANINE-c是一个在多语言文本上预训练的字符级编码模型,无需显式标记化处理,直接操作Unicode字符。
下载量 191.50k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

CANINE-c是一个基于自监督学习的多语言文本编码模型,直接在字符级别操作,无需传统标记化步骤。它通过掩码语言建模和下一句预测目标进行预训练,适用于多种下游NLP任务。

模型特点

无标记化处理
直接操作Unicode字符,无需WordPiece或SentencePiece等显式标记器
多语言支持
在104种语言的维基百科数据上预训练,具有广泛的语言覆盖能力
字符级处理
每个字符被转换为Unicode码点进行处理,简化输入预处理流程
自回归字符损失
采用自回归方式预测被掩码的字符跨度,提高字符级预测能力

模型能力

多语言文本理解
字符级文本编码
掩码语言建模
下一句预测

使用案例

自然语言处理
序列分类
可用于文本分类任务,如情感分析、主题分类等
标记分类
适用于命名实体识别、词性标注等序列标注任务
问答系统
可用于构建问答系统,基于字符级理解处理用户查询