库名称: transformers
语言:
- 葡萄牙语
许可证: cc-by-4.0
标签:
- 文本生成
- PyTorch
- 大语言模型
- 葡萄牙语
- Mamba架构
数据集:
- nicholasKluge/Pt-Corpus-Instruct
推理参数:
重复惩罚系数: 1.2
温度系数: 0.8
最高k值: 50
最高p值: 0.85
最大新生成标记数: 150
示例窗口:
- 文本: "圣诞节是一个"
示例标题: 示例
- 文本: "很久以前,在一个遥远的星系,居住着一支"
示例标题: 示例
- 文本: "在丑闻风波中,议会阵线要求参议员席尔瓦"
示例标题: 示例
管道标签: 文本生成
Mambarim-110M葡萄牙语模型
模型概述
Mambarim-110M是首个基于状态空间模型架构(Mamba)而非Transformer的葡萄牙语大语言模型。
开发中
技术细节
- 架构: 通过因果语言建模预训练的Mamba模型
- 参数量: 119,930,880
- 上下文长度: 2048个标记
- 训练数据集: Pt-Corpus Instruct (62亿标记)
- 语言: 葡萄牙语
- 训练步数: 758,423步
本仓库包含训练该模型的源代码。
使用场景
开发中
非适用场景
开发中
基础用法
需要安装开发版的transformers
(等待4.39.0正式版发布):
pip install git+https://github.com/huggingface/transformers@main
建议同时安装causal_conv_1d
和mamba-ssm
依赖:
pip install causal-conv1d>=1.2.0
pip install mamba-ssm
标准生成API调用示例:
>>> from transformers import MambaConfig, MambaForCausalLM, AutoTokenizer
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("dominguesm/mambarim-110m")
>>> model = MambaForCausalLM.from_pretrained("dominguesm/mambarim-110m")
>>> input_ids = tokenizer("圣诞节是一个", return_tensors="pt")["input_ids"]
>>> out = model.generate(
input_ids,
repetition_penalty=1.2,
temperature=0.8,
top_k=50,
top_p=0.85,
do_sample=True,
max_new_tokens=10
)
>>> print(tokenizer.batch_decode(out))
["<s> 圣诞节是一个人们享受休闲时光的日子"]
性能基准
基于葡萄牙语版EleutherAI评估工具(由Eduardo Garcia开发)在巴西葡萄牙语基准测试中的表现。
详细结果参见此处
模型 |
平均分 |
ENEM考试 |
BLUEX |
OAB司法考试 |
ASSIN2推理 |
ASSIN2语义 |
FAQNAD推理 |
HateBR |
葡语仇恨言论 |
推特情感分析 |
架构类型 |
TeenyTinyLlama-460m |
28.86 |
20.15 |
25.73 |
27.02 |
53.61 |
13 |
46.41 |
33.59 |
22.99 |
17.28 |
Llama因果模型 |
TeenyTinyLlama-160m |
28.2 |
19.24 |
23.09 |
22.37 |
53.97 |
0.24 |
43.97 |
36.92 |
42.63 |
11.39 |
Llama因果模型 |
MulaBR/Mula-4x160-v0.1 |
26.24 |
21.34 |
25.17 |
25.06 |
33.57 |
11.35 |
43.97 |
41.5 |
22.99 |
11.24 |
混合专家模型 |
TeenyTinyLlama-460m-Chat |
25.49 |
20.29 |
25.45 |
26.74 |
43.77 |
4.52 |
34 |
33.49 |
22.99 |
18.13 |
Llama因果模型 |
Mambarim-110m |
14.16 |
18.4 |
10.57 |
21.87 |
16.09 |
1.89 |
9.29 |
15.75 |
17.77 |
15.79 |
Mamba因果模型 |
GloriaTA-3B |
4.09 |
1.89 |
3.2 |
5.19 |
0 |
2.32 |
0.26 |
0.28 |
23.52 |
0.19 |
GPTNeo因果模型 |