语言:
- 多语言
- 南非荷兰语
- 阿尔巴尼亚语
- 阿拉伯语
- 阿拉贡语
- 亚美尼亚语
- 阿斯图里亚斯语
- 阿塞拜疆语
- 巴什基尔语
- 巴斯克语
- 巴伐利亚语
- 白俄罗斯语
- 孟加拉语
- 印度语系
- 波斯尼亚语
- 布列塔尼语
- 保加利亚语
- 缅甸语
- 加泰罗尼亚语
- 宿务语
- 车臣语
- 中文
- 楚瓦什语
- 克罗地亚语
- 捷克语
- 丹麦语
- 荷兰语
- 英语
- 爱沙尼亚语
- 芬兰语
- 法语
- 加利西亚语
- 格鲁吉亚语
- 德语
- 希腊语
- 古吉拉特语
- 海地克里奥尔语
- 希伯来语
- 印地语
- 匈牙利语
- 冰岛语
- 伊多语
- 印尼语
- 爱尔兰语
- 意大利语
- 日语
- 爪哇语
- 卡纳达语
- 哈萨克语
- 吉尔吉斯语
- 韩语
- 拉丁语
- 拉脱维亚语
- 立陶宛语
- 罗曼语族
- 低地德语
- 林堡语
- 马其顿语
- 马尔加什语
- 马来语
- 马拉雅拉姆语
- 马拉地语
- 蒙古语
- 米南卡保语
- 尼泊尔语
- 尼瓦尔语
- 挪威书面语
- 挪威新挪威语
- 奥克语
- 波斯语
- 皮埃蒙特语
- 波兰语
- 葡萄牙语
- 旁遮普语
- 罗马尼亚语
- 俄语
- 苏格兰语
- 塞尔维亚语
- 克罗地亚语
- 西西里语
- 斯洛伐克语
- 斯洛文尼亚语
- 阿塞拜疆语
- 西班牙语
- 巽他语
- 斯瓦希里语
- 瑞典语
- 他加禄语
- 塔吉克语
- 泰语
- 泰米尔语
- 鞑靼语
- 泰卢固语
- 土耳其语
- 乌克兰语
- 乌迪内语
- 乌兹别克语
- 越南语
- 沃拉普克语
- 瓦瑞语
- 威尔士语
- 西弗里斯兰语
- 西旁遮普语
- 约鲁巴语
许可证: apache-2.0
数据集:
- 书籍语料库
- 维基百科
CANINE-c(采用自回归字符损失预训练的CANINE模型)
该模型是在104种语言上使用掩码语言建模(MLM)目标进行预训练的CANINE模型。它由论文CANINE: 预训练高效的无标记化语言表示编码器提出,并首次发布于此代码库。
CANINE的独特之处在于它不需要像BERT和RoBERTa等其他模型那样显式的标记器(如WordPiece或SentencePiece)。相反,它直接在字符级别操作:每个字符被转换为其Unicode码点。
这意味着输入处理非常简单,通常可以按以下方式完成:
input_ids = [ord(char) for char in text]
ord()函数是Python的一部分,将每个字符转换为对应的Unicode码点。
免责声明:发布CANINE的团队未为此模型编写模型卡,因此本模型卡由Hugging Face团队编写。
模型描述
CANINE是一个基于自监督方式在多语言大规模语料库上预训练的transformers模型,类似于BERT。这意味着它仅对原始文本进行预训练,无需任何人工标注(因此可以利用大量公开可用数据),并通过自动过程从这些文本生成输入和标签。具体来说,它通过两个目标进行预训练:
- 掩码语言建模(MLM):随机掩码部分输入,模型需要预测被掩码的内容。此模型(CANINE-c)采用自回归字符损失进行训练。在序列中掩码多个字符跨度,模型随后自回归预测这些字符。
- 下一句预测(NSP):在预训练期间,模型将两个句子连接作为输入。有时它们对应原始文本中相邻的句子,有时则不然。模型需预测这两个句子是否连续。
通过这种方式,模型学习到多种语言的内部表示,可用于提取对下游任务有用的特征:例如,如果您有一个标注句子的数据集,可以训练一个标准分类器,使用CANINE模型生成的特征作为输入。
预期用途与限制
您可以将原始模型用于掩码语言建模或下一句预测,但主要目的是在下游任务上进行微调。请参阅模型中心寻找您感兴趣任务的微调版本。
请注意,此模型主要针对使用整个句子(可能被掩码)进行决策的任务进行微调,如序列分类、标记分类或问答。对于文本生成等任务,应参考GPT2等模型。
使用方法
以下是使用此模型的方法:
from transformers import CanineTokenizer, CanineModel
model = CanineModel.from_pretrained('google/canine-c')
tokenizer = CanineTokenizer.from_pretrained('google/canine-c')
inputs = ["生活就像一盒巧克力。", "你永远不知道下一颗是什么味道。"]
encoding = tokenizer(inputs, padding="longest", truncation=True, return_tensors="pt")
outputs = model(**encoding)
pooled_output = outputs.pooler_output
sequence_output = outputs.last_hidden_state
训练数据
CANINE模型在mBERT的多语言维基百科数据上进行预训练,涵盖104种语言。
BibTeX条目及引用信息
@article{DBLP:journals/corr/abs-2103-06874,
author = {Jonathan H. Clark and
Dan Garrette and
Iulia Turc and
John Wieting},
title = {{CANINE:} 预训练高效的无标记化语言表示编码器},
journal = {CoRR},
volume = {abs/2103.06874},
year = {2021},
url = {https://arxiv.org/abs/2103.06874},
archivePrefix = {arXiv},
eprint = {2103.06874},
timestamp = {Tue, 16 Mar 2021 11:26:59 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2103.06874.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}