SanBERTa开源模型 - 免费部署助力梵文文本任务高效处理

首页

Sanberta

由 surajp 开发

SanBERTa是基于梵文训练的RoBERTa模型，专门用于处理梵文文本任务。

大型语言模型其他#梵文语言模型 #RoBERTa架构 #低困惑度

下载量 15

发布时间 : 3/2/2022

模型简介

SanBERTa是一个基于梵文文本训练的RoBERTa模型，主要用于语言建模和文本嵌入任务。它支持梵文文本的处理和分析。

模型特点

梵文专用

专门针对梵文文本进行训练和优化，能够更好地处理梵文语言特性。

高效训练

在TPU上进行训练，逐步增加block_size以提高模型性能。

多任务支持

支持语言建模、文本嵌入和掩码预测等多种任务。

模型能力

梵文文本嵌入

梵文语言建模

梵文掩码预测

使用案例

文本处理

梵文文本嵌入

将梵文文本转换为高维向量表示，用于后续的机器学习任务。

输出维度为768的向量

梵文掩码预测

预测梵文文本中被掩码遮盖的词汇。

预测准确率较高，困惑度为4.04

🚀 梵语预训练模型SanBERTa

SanBERTa是一个在梵语语料上训练的RoBERTa模型，可用于梵语相关的自然语言处理任务，如词嵌入生成、掩码预测等，为梵语的语言研究和处理提供了有力的工具。

🚀 快速开始

SanBERTa模型可直接从Hugging Face Model Hub获取，通过相应的代码示例即可快速应用于梵语的处理任务，如词嵌入生成和掩码预测。

✨ 主要特性

模型规模：训练后的模型大小为340MB。
数据集丰富：使用了来自维基百科的梵语文章和CLTK的梵语片段作为训练数据，且数据集包含评估集。
可配置性：模型的参数如注意力头数量、隐藏层数量等都可进行配置。
训练方式：在TPU上进行训练，用于语言建模，且在训练过程中逐步增加块大小。

📦 安装指南

暂未提供具体安装命令，可参考Hugging Face相关文档进行模型的安装和使用。

💻 使用示例

基础用法

词嵌入生成

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained("surajp/SanBERTa")
model = RobertaModel.from_pretrained("surajp/SanBERTa")

# 对输入文本进行编码
op = tokenizer.encode("इयं भाषा न केवलं भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।", return_tensors="pt")
# 输入模型得到输出
ps = model(op)
# 查看输出形状
ps[0].shape

'''
输出:
--------
torch.Size([1, 47, 768])

掩码预测

from transformers import pipeline

# 创建掩码预测管道
fill_mask = pipeline(
    "fill-mask",
    model="surajp/SanBERTa",
    tokenizer="surajp/SanBERTa"
)

# 进行掩码预测
fill_mask("इयं भाषा न केवल<mask> भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।")

# 以下代码可能有误，推测正确代码如下
import torch
enc = tokenizer.encode("इयं भाषा न केवलं भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।", return_tensors="pt")
ps = model(enc)
print(ps[0].shape)

'''
输出:
--------
[{'score': 0.7516744136810303,
  'sequence': '<s> इयं भाषा न केवलं भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।</s>',
  'token': 280,
  'token_str': 'à¤Ĥ'},
 {'score': 0.06230105459690094,
  'sequence': '<s> इयं भाषा न केवली भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।</s>',
  'token': 289,
  'token_str': 'à¥Ģ'},
 {'score': 0.055410224944353104,
  'sequence': '<s> इयं भाषा न केवला भारतस्य अपि तु विश्वस्य प्राचीनतमा भाषा इति मन्यते।</s>',
  'token': 265,
  'token_str': 'à¤¾'},
  ...]

📚 详细文档

数据集

维基百科文章：使用了维基百科文章（该数据集也在iNLTK中使用），且包含评估集。
CLTK梵语片段：使用了来自CLTK的梵语片段。

配置参数

参数	值
`num_attention_heads`	12
`num_hidden_layers`	6
`hidden_size`	768
`vocab_size`	29407

训练信息

训练设备：在TPU上进行训练。
训练任务：用于语言建模。
训练策略：在训练过程中，逐步将--block_size从128增加到256。

评估指标

指标	值
困惑度 (`block_size=256`)	4.04

📄 许可证

暂未提供相关许可证信息。

引用信息

@misc{Parmar2020Sanberta,
  author = {Parmar, Suraj},
  title = {SanBERTa - a RoBERTa trained on Sanskrit},
  year = {2020},
  month = {Jun},
  publisher = {Hugging Face Model Hub},
  url = {https://huggingface.co/surajp/SanBERTa}
}