许可证:WTFPL
数据集:
- teknium/openhermes
任务标签:文本生成
缩略图:https://huggingface.co/clibrain/mamba-2.8b-instruct-openhermes/resolve/main/mamba_hermes_logo_1.png?download=true
语言:
- 英文
基于OpenHermes微调的MAMBA(28亿参数)🐍
模型卡片仍在完善中!
基础模型信息
Mamba是一种新型状态空间模型架构,在语言建模等信息密集型数据上展现出超越传统Transformer模型的潜力。该架构基于结构化状态空间模型系列研究,采用类似FlashAttention的硬件感知高效设计。
数据集信息
OpenHermes数据集包含24.2万条主要由GPT-4生成的数据条目,汇集了AI领域的多个开放数据集:
OpenHermes 13B是首个基于完全开源数据集微调的Hermes模型版本!其训练数据包括:
- Teknium提供的GPTeacher系列数据集(通用指令/角色扮演v1-v2/代码指令)
- WizardLM团队发布的WizardLM(v1版及70k进化指令)
- JonDurbin提供的Airoboros GPT-4(v1.0)
- Camel-AI团队的专业领域数据集
- Sahil2801的CodeAlpaca
- 微软的GPT4-LLM及非常规指令集
数据经过严格过滤,移除了OpenAI拒绝回答/免责声明/"作为AI"类表述等内容。基础数据集组合与原始Nous-Hermes相同,但不包含私有的Nous-Instruct和PDACTL数据集。
使用方式
pip install torch==2.1.0 transformers==4.35.0 causal-conv1d==1.0.0 mamba-ssm==1.0.1
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from mamba_ssm.models.mixer_seq_simple import MambaLMHeadModel
CHAT_TEMPLATE_ID = "HuggingFaceH4/zephyr-7b-beta"
device = "cuda:0" if torch.cuda.is_available() else "cpu"
model_name = "clibrain/mamba-2.8b-instruct-openhermes"
eos_token = "<|endoftext|>"
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.eos_token = eos_token
tokenizer.pad_token = tokenizer.eos_token
tokenizer.chat_template = AutoTokenizer.from_pretrained(CHAT_TEMPLATE_ID).chat_template
model = MambaLMHeadModel.from_pretrained(
model_name, device=device, dtype=torch.float16)
messages = []
prompt = "推荐5个西班牙旅游景点"
messages.append(dict(role="user", content=prompt))
input_ids = tokenizer.apply_chat_template(
messages, return_tensors="pt", add_generation_prompt=True
).to(device)
out = model.generate(
input_ids=input_ids,
max_length=2000,
temperature=0.9,
top_p=0.7,
eos_token_id=tokenizer.eos_token_id,
)
decoded = tokenizer.batch_decode(out)
assistant_message = (
decoded[0].split("<|assistant|>\n")[-1].replace(eos_token, "")
)
print(assistant_message)
Gradio演示
git clone https://github.com/mrm8488/mamba-chat.git
cd mamba-chat
pip install -r requirements.txt
pip install -q gradio==4.8.0
python app.py \
--model clibrain/mamba-2.8b-instruct-openhermes \
--share
评估报告
即将发布!
致谢
特别感谢mamba-chat项目对本工作的重大启发