许可证:apache-2.0
数据集:
- maywell/korean_textbooks
语言:
- ko
流水线标签:文本生成
标签:
- mamba
Mamba-ko-2.8B🐍

Mamba-ko-2.8B 是基于状态空间模型的进一步预训练(或持续训练)版本,使用了合成生成的数据集——korean_textbooks。
如果您有兴趣构建大规模语言模型来解决各种领域中的广泛问题,请考虑加入 Allganize。
如需咖啡聊天或有任何问题,请随时联系我!——kuotient.dev@gmail.com
感谢Allganize Korea为本个人项目慷慨提供资源支持。此项目与公司目标或研究无直接关联。
待办事项
- 🟢 使用korean_textbooks数据集训练——已完成
- 使用更多公开可用的韩语语料库进行训练
- 🟡 指令微调
什么是Mamba?
Mamba是一种新型状态空间模型架构,在信息密集型数据(如语言建模)上表现出色,而之前的次二次模型在此类任务中表现不及Transformer。它基于结构化状态空间模型的进展,采用高效的硬件感知设计和实现,灵感源自FlashAttention。
许可证
Apache 2.0
模型详情
开发者
Jisoo Kim(kuotient)
基础模型
state-spaces/mamba-2.8b-slimpj
模型基准测试
KoBEST
模型 |
boolq |
copa |
hellaswag |
sentineg |
kuotient/mamba-ko-2.8b |
0.6213 |
0.6150 |
0.4014 |
0.3383 |
state_spaces/mamba-2.8b-slimpj |
0.3343 |
0.4867 |
0.3452 |
0.3547 |
kuotient/mamba-ko-2.8b-old(仅2B训练) |
0.4236 |
0.5896 |
0.4012 |
0.4348 |
kuotient/mamba-ko-2.8b-old-instruct |
0.4041 |
0.6505 |
0.4906 |
0.3348 |
EleutherAI/polyglot-ko-1.3b |
0.3552 |
0.7196 |
0.5247 |
0.6790 |
maywell/TinyWand-SFT |
0.3455 |
0.6142 |
0.3944 |
N/A |
microsoft/phi-2 |
0.3343 |
0.4792 |
0.3235 |
N/A |
TinyLlama/TinyLlama-1.1B |
0.3343 |
0.4784 |
0.3396 |
N/A |
致谢
特别感谢为韩语LLM社区做出巨大贡献并持续激励的 maywell 先生。
使用方法
pip install causal_conv1d>=1.1.0 mamba-ssm==1.1.1
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, TextStreamer
from mamba_ssm.models.mixer_seq_simple import MambaLMHeadModel
device = "cuda" if torch.cuda.is_available() else "cpu"
model_name = "kuotient/mamba-ko-2.8b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token
model = MambaLMHeadModel.from_pretrained(
model_name, device=device, dtype=torch.float16)
prompt = "아이들한테 제공할 영양가 있는 음식 5가지의 예시는 다음과 같다."
tokens = tokenizer(prompt, return_tensors='pt')
input_ids = tokens.input_ids.to(device)
streamer = TextStreamer(tokenizer)
out = model.generate(
input_ids=input_ids,
streamer=streamer,
max_length=2000,
temperature=0.7,
top_p=0.7,
eos_token_id=tokenizer.eos_token_id,
)