bertin-base-gaussian开源西班牙语模型 - 免费实现填充掩码文本处理

首页

Bertin Base Gaussian

由 bertin-project 开发

这是一个基于RoBERTa-base架构、从零开始训练的西班牙语填充掩码模型。

大型语言模型西班牙语#西班牙语文本填充 #RoBERTa架构 #高质量语料训练

下载量 16

发布时间 : 3/2/2022

模型简介

该模型专门针对西班牙语设计，用于填充掩码任务，能够预测文本中缺失的单词或短语。

模型特点

高质量训练数据

训练数据集来自mc4的抽样文档，总计约5000万条样本，采用高斯函数偏向平均困惑值进行筛选，确保数据质量。

从零开始训练

模型并非基于预训练模型微调，而是从零开始训练，专门针对西班牙语优化。

社区支持

该项目隶属于Jax/Flax社区周活动，由HuggingFace组织，并获Google提供的TPU算力支持。

模型能力

西班牙语文本理解

填充掩码预测

使用案例

文本补全

句子补全

预测句子中缺失的单词或短语，如示例中的'Fui a la librería a comprar un <mask>.'

语言教育

西班牙语学习辅助

可用于西班牙语学习工具，帮助学习者理解句子结构和词汇用法。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Bertin Base Gaussian

模型简介

模型特点

模型能力

使用案例

🚀 RoBERTa-base 西班牙语模型

🚀 快速开始

✨ 主要特性

🔧 技术细节

📄 许可证

👥 团队成员