roberta-base开源双向编码器模型 - 用于俄语特征提取，基于大规模语料训练

首页

Roberta Base

由 deepvk 开发

针对俄语预训练的双向编码器模型，基于大规模文本语料训练，支持特征提取任务。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #俄语NLP #社交文本预训练 #多源语料

下载量 44

发布时间 : 2/7/2023

模型简介

这是一个基于RoBERTa架构的俄语预训练模型，主要用于文本特征提取。模型在大规模俄语语料库上训练，包含社交数据、维基百科、新闻等多种文本类型。

模型特点

俄语优化

专门针对俄语文本进行预训练，包含丰富的俄语语言特征

大规模训练数据

使用500GB俄语文本数据训练，涵盖多种文本类型和领域

高性能架构

基于RoBERTa架构，具有12层编码器和768维嵌入空间

模型能力

俄语文本特征提取

上下文语义理解

多领域文本处理

使用案例

自然语言处理

文本分类

可用于俄语文本分类任务

在Russian Super Glue基准测试中表现良好

语义分析

适用于俄语文本的语义理解和分析

🚀 RoBERTa-base

RoBERTa-base 是一个预训练的双向编码器，专为处理俄语而设计。该模型在包含开放社交数据的大型文本语料库上，使用标准的掩码语言模型（MLM）目标进行训练。如需更多信息，请参阅“训练详情”部分。

⚠️ 此模型仅包含编码器部分，没有任何预训练的头部。

🚀 快速开始

以下是使用该模型的基本代码示例：

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("deepvk/roberta-base")
model = AutoModel.from_pretrained("deepvk/roberta-base")

text = "Привет, мир!"

inputs = tokenizer(text, return_tensors='pt')
predictions = model(**inputs)

✨ 主要特性

开发团队：deepvk
模型类型：RoBERTa
支持语言：主要为俄语，少量其他语言
许可证：Apache 2.0

📚 详细文档

📦 训练数据

总共使用了 500GB 的原始文本，数据来源包括：维基百科、书籍、推特评论、Pikabu、Proza.ru、电影字幕、新闻网站和社交语料库。

⚙️ 训练超参数

参数	值
训练机制	fp16 混合精度
训练框架	Fairseq
优化器	Adam
Adam 系数	0.9, 0.98
Adam 误差	1e-6
训练步数	500k

该模型在配备 8 个 A100 GPU 的机器上训练了约 22 天。

🏗️ 架构细节

参数	值
编码器层数	12
编码器注意力头数	12
编码器嵌入维度	768
编码器前馈网络嵌入维度	3,072
激活函数	GeLU
注意力丢弃率	0.1
丢弃率	0.1
最大位置数	512
词表大小	50266
分词器类型	字节级 BPE

📊 评估

我们在 Russian Super Glue 开发集上对该模型进行了评估。每个任务中的最佳结果用粗体标记。除了 DeBERTa 的蒸馏版本外，所有模型的规模相同。

模型	RCB	PARus	MuSeRC	TERRa	RUSSE	RWSD	DaNetQA	得分
vk-deberta-distill	0.433	0.56	0.625	0.59	0.943	0.569	0.726	0.635
vk-roberta-base	0.46	0.56	0.679	0.769	0.960	0.569	0.658	0.665
vk-deberta-base	0.450	0.61	0.722	0.704	0.948	0.578	0.76	0.682
vk-bert-base	0.467	0.57	0.587	0.704	0.953	0.583	0.737	0.657
sber-bert-base	0.491	0.61	0.663	0.769	0.962	0.574	0.678	0.678