Elastic-Mistral-7B-Instruct-v0.3开源模型 - 免费部署支持多语言文本生成

首页

Elastic Mistral 7B Instruct V0.3

由 TheStageAI 开发

Mistral-7B-Instruct-v0.3是一个基于Mistral-7B的指令调优模型，支持多语言文本生成任务。

大型语言模型开源协议:Apache-2.0 #弹性推理 #多语言生成 #量化加速

下载量 68

发布时间 : 4/2/2025

模型简介

该模型是一个7B参数的大语言模型，经过指令调优优化，适用于多种语言的文本生成任务。通过弹性模型技术，用户可以根据需求选择不同优化版本，平衡性能与质量。

模型特点

弹性模型优化

提供XL、L、M、S四种优化版本，用户可根据需求在模型大小、延迟和质量之间灵活选择。

多语言支持

支持13种语言的文本生成，包括中文、英语、法语等主要语言。

高性能推理

在H100 GPU上最高可达186 token/秒的生成速度，显著提升推理效率。

易用性

与Hugging Face transformers库兼容，只需单行代码即可切换不同优化版本。

模型能力

多语言文本生成

指令理解与执行

知识问答

内容创作

使用案例

智能助手

搜索引擎助手

回答用户查询，提供准确的信息回复。

如示例所示，能够生成符合上下文的专业回答。

教育

概念解释

解释专业概念和原理。

能够清晰解释DNN量化等专业技术概念。

🚀 弹性模型：Mistral-7B-Instruct-v0.3

弹性模型是由TheStage AI的ANNA（自动化神经网络加速器）生成的模型。ANNA允许你通过简单的滑动操作来控制模型的大小、延迟和质量。对于每个模型，ANNA都会生成一系列优化模型：

XL：数学上等效的神经网络，使用我们的DNN编译器进行优化。
L：近乎无损的模型，在相应基准测试中的性能下降小于1%。
M：更快的模型，准确率下降小于1.5%。
S：最快的模型，准确率下降小于2%。

弹性模型的目标：

在推理时提供成本与质量选择的灵活性。
提供清晰的质量和延迟基准。
提供HF库（transformers和diffusers）的接口，只需一行代码。
提供支持广泛硬件的模型，这些模型是预编译的，无需JIT。
为自托管提供最佳的模型和服务。

⚠️ 重要提示

具体的质量下降可能因模型而异。例如，S模型的性能下降也可能只有0.5%。

模型相关图片

🚀 快速开始

✨ 主要特性

可通过ANNA灵活控制模型大小、延迟和质量。
提供多种优化模型版本（XL、L、M、S）。
提供清晰的质量和延迟基准。
支持广泛硬件，预编译无需JIT。
提供HF库接口，使用方便。

📦 安装指南

安装相关库：

pip install thestage
pip install elastic_models[nvidia]\
 --index-url https://thestage.jfrog.io/artifactory/api/pypi/pypi-thestage-ai-production/simple\
 --extra-index-url https://pypi.nvidia.com\
 --extra-index-url https://pypi.org/simple

pip install flash_attn==2.7.3 --no-build-isolation
pip uninstall apex

生成并设置API令牌：前往 app.thestage.ai 登录，从个人资料页面生成API令牌。然后在终端中设置API令牌：

thestage config set --api-token <YOUR_API_TOKEN>

💻 使用示例

基础用法

要推理我们的模型，你只需将 transformers 导入替换为 elastic_models.transformers：

import torch
from transformers import AutoTokenizer
from elastic_models.transformers import AutoModelForCausalLM

# Currently we require to have your HF token
# as we use original weights for part of layers and
# model confugaration as well
model_name = "mistralai/Mistral-7B-Instruct-v0.3"
hf_token = ''
device = torch.device("cuda")

# Create mode
tokenizer = AutoTokenizer.from_pretrained(
    model_name, token=hf_token
)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    token=hf_token,
    torch_dtype=torch.bfloat16,
    attn_implementation="sdpa",
    mode='S'
).to(device)
model.generation_config.pad_token_id = tokenizer.eos_token_id

# Inference simple as transformers library
prompt = "Describe basics of DNNs quantization."
messages = [
  {
    "role": "system",
    "content": "You are a search bot, answer on user text queries."
  },
  {
    "role": "user",
    "content": prompt
  }
]

chat_prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=False
)

inputs = tokenizer(chat_prompt, return_tensors="pt")
inputs.to(device)

with torch.inference_mode():
    generate_ids = model.generate(**inputs, max_length=500)

input_len = inputs['input_ids'].shape[1]
generate_ids = generate_ids[:, input_len:]
output = tokenizer.batch_decode(
    generate_ids,
    skip_special_tokens=True, 
    clean_up_tokenization_spaces=False
)[0]

# Validate answer
print(f"# Q:\n{prompt}\n")
print(f"# A:\n{output}\n")