VBART-Medium-Base开源序列到序列大模型 - 基于土耳其语料助力应用开发

首页

VBART Medium Base

由 vngrs-ai 开发

VBART是首个基于土耳其语语料库从头开始大规模预训练的序列到序列大型语言模型，由VNGRS开发。

大型语言模型

Transformers

其他#土耳其语文本生成 #序列到序列模型 #预训练基础模型

下载量 61

发布时间 : 3/22/2024

模型简介

VBART是基于mBART架构的Transformer编码器-解码器模型，专门针对土耳其语进行预训练。经过微调后，该模型能够执行条件文本生成任务，如文本摘要、改写和标题生成。

模型特点

土耳其语专用模型

首个基于土耳其语语料库从头开始大规模预训练的序列到序列模型

高效性能

尽管规模较小，但其性能优于多语言同类模型

大规模预训练

预训练总token量达630亿，使用高质量过滤的土耳其语数据集

模型能力

文本摘要

文本改写

标题生成

条件文本生成

使用案例

文本处理

新闻摘要

将长篇新闻文章自动生成简洁摘要

内容改写

对现有文本进行改写以生成不同表达方式的版本

🚀 VBART模型卡片

VBART是首个在土耳其语语料库上大规模从头开始预训练的序列到序列大语言模型。它由VNGRS于2023年2月完成预训练。该模型在微调后能够执行条件文本生成任务，如文本摘要、释义和标题生成。尽管它比其他实现小得多，但性能却优于多语言同类模型。

本仓库包含VBART-Medium-Base的预训练TensorFlow和Safetensors权重。

🚀 快速开始

本模型卡片详细介绍了VBART模型的相关信息，包括模型描述、训练细节和引用方式等，帮助你快速了解该模型。

✨ 主要特性

首个在土耳其语语料库上大规模从头预训练的序列到序列大语言模型。
微调后可执行文本摘要、释义和标题生成等条件文本生成任务。
尽管模型规模较小，但性能优于多语言同类模型。

📚 详细文档

模型描述

开发者：VNGRS-AI
模型类型：基于mBART架构的Transformer编码器 - 解码器
语言（NLP）：土耳其语
许可证：CC BY - NC - SA 4.0
论文：arXiv

训练详情

训练数据

基础模型在vngrs - web - corpus上进行预训练。该语料库是通过清理和过滤OSCAR - 2201和mC4数据集中的土耳其语部分而整理得到的。这些数据集包含非结构化网络爬取数据的文档。有关数据集的更多信息可在其各自的页面上找到。数据使用一组启发式方法和特定规则进行过滤，具体内容在我们的论文附录中有详细说明。

局限性

此模型是预训练的基础模型，能够进行掩码语言建模。其目的是作为基础模型，用于下游任务的微调。

训练过程

总共预训练了630亿个标记。

硬件：
- GPU：8 x Nvidia A100 - 80 GB
软件：
- TensorFlow
超参数：
- 预训练：
  - 训练机制：fp16混合精度
  - 训练目标：跨度掩码（使用从泊松分布λ = 3.5采样的掩码长度，掩码30%的标记）
  - 优化器：Adam优化器（β1 = 0.9，β2 = 0.98，Ɛ = 1e - 6）
  - 调度器：来自原始Transformers论文的自定义调度器（20,000个热身步骤）
  - 丢弃率：0.1
  - 初始学习率：5e - 6
  - 训练标记：630亿

引用

@article{turker2024vbart,
  title={VBART: The Turkish LLM},
  author={Turker, Meliksah and Ari, Erdi and Han, Aydin},
  journal={arXiv preprint arXiv:2403.01308},
  year={2024}
}