FRED-T5-large开源俄语语言模型 - 免费支持多种文本生成任务

首页

FRED T5 Large

由 ai-forever 开发

基于T5架构的俄语预训练语言模型，采用类似UL2的7种降噪器混合训练策略，支持多种文本生成任务。

大型语言模型

Transformers

其他开源协议:Apache-2.0 #俄语文本生成 #多任务降噪器 #大规模预训练

下载量 998

发布时间 : 2/28/2023

模型简介

面向俄语的预训练Transformer语言模型，主要用于文本生成和降噪任务，支持多种前缀标记控制生成内容。

模型特点

多任务降噪训练

采用类似UL2的7种降噪器混合训练策略，增强模型处理噪声文本的能力

前缀标记控制

支持多种前缀标记（如<LM>、<SC1>-<SC6>）控制生成内容和任务类型

大规模俄语训练

使用300GB俄语语料库训练，与ruT5模型使用相同数据集

模型能力

俄语文本生成

文本降噪

前缀控制生成

故事续写

文本补全

使用案例

文本生成

故事续写

使用<LM>前缀进行开放式文本生成

模型能够根据给定开头续写连贯的故事内容

文本补全

使用<SC1>前缀进行文本补全任务

模型能够准确预测并补全缺失的文本片段

降噪处理

噪声文本恢复

处理包含噪声或缺失的文本输入

模型能够有效恢复原始文本内容

🚀 FRED - T5 large 820M（全规模俄语增强去噪器T5）

FRED - T5 large 820M是基于T5架构的预训练Transformer语言模型，专为俄语设计。该模型在俄语语言处理任务中表现出色，可用于多种自然语言处理应用。

🚀 快速开始

模型的架构设计、预训练和评估等详细信息记录在我们的预印本中：A Family of Pretrained Transformer Language Models for Russian。该模型由 SberDevices 训练。

✨ 主要特性

架构：基于T5架构，拥有24层和1024的隐藏层大小，更多详细信息可查看 config.json。
训练方式：在7种去噪器的混合任务上进行训练，类似于UL2，但存在一些差异（https://arxiv.org/abs/2205.05131）。
训练数据：在300GB的俄语语料库上进行训练，数据集与ruT5模型相同。
分词器：采用Bbpe分词器，有50257个词元 + 107个特殊词元。前缀词元包括 '<LM>'、'<SC1>'、...、'<SC6>'。
训练策略：前半段时间在所有数据集的小部分（1%，3GB）上训练，且每个任务不使用前缀。对于RSG，训练方式如T5论文所述，先进行多任务训练，然后选取最佳检查点进一步训练。
训练时长：在160个V100 GPU上训练约35天，在80个A100 GPU上训练约5天。

📦 安装指南

此部分原文档未提供具体安装命令，故跳过。

💻 使用示例

基础用法

import torch
from transformers import GPT2Tokenizer, T5ForConditionalGeneration 
tokenizer = GPT2Tokenizer.from_pretrained('ai-forever/FRED-T5-1.7B',eos_token='</s>')
model = T5ForConditionalGeneration.from_pretrained('ai-forever/FRED-T5-1.7B')
device='cuda'
model.to(device)

#Prefix <LM>
lm_text='<LM>Принялся Кутузов рассказывать свою историю как он сюда попал. Началось'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True)
print(tokenizer.decode(outputs[0][1:]))

# print result: , как водится, с того, что он был в плену.</s>

#Prefix <SC1>
lm_text='<SC1>Принялся Кутузов рассказывать свою историю <extra_id_0>. Началось с того, что он был в армии, служил в артиллерии.'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True)
print(tokenizer.decode(outputs[0][1:]))

#print result: '<extra_id_0>, как он жил</s>'

# Prefix <SC5>
lm_text='<SC5>Принялся Кутузов рассказывать свою историю <extra_id_0>. Началось с того, что он был в армии, служил в артиллерии.'
input_ids=torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs=model.generate(input_ids,eos_token_id=tokenizer.eos_token_id,early_stopping=True,max_length=100)
print(tokenizer.decode(outputs[0][1:]))

#print result: '<extra_id_0> </s>'

📚 详细文档

作者信息

NLP核心研发团队 Telegram频道：
- Dmitry Zmitrovich
- Andrei Kalmykov
- Vitaly Kadulin
- Mikhail Novikov
- Alexey Khoroshilov

Salute AI社区。

引用信息

@misc{zmitrovich2023family,
      title={A Family of Pretrained Transformer Language Models for Russian}, 
      author={Dmitry Zmitrovich and Alexander Abramov and Andrey Kalmykov and Maria Tikhonova and Ekaterina Taktasheva and Danil Astafurov and Mark Baushenko and Artem Snegirev and Tatiana Shavrina and Sergey Markov and Vladislav Mikhailov and Alena Fenogenova},
      year={2023},
      eprint={2309.10931},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}