许可证:Apache-2.0
支持语言:
- 英语
- 法语
- 德语
- 西班牙语
- 意大利语
- 葡萄牙语
- 俄语
- 中文
- 日语
额外授权说明:若需了解我们如何处理您的个人数据,请阅读隐私政策。
Mistral-Nemo-Base-2407模型卡
Mistral-Nemo-Base-2407大语言模型(LLM)是由Mistral AI与NVIDIA联合训练的120亿参数生成式文本预训练模型,其性能显著超越同规模或更小的现有模型。
更多详情请参阅发布博客文章。
核心特性
- Apache 2许可证下发布
- 提供预训练版和指令调优版
- 128k上下文窗口训练
- 训练数据包含大量多语言和代码内容
- 可直接替代Mistral 7B
模型架构
Mistral Nemo采用Transformer架构,具体配置如下:
- **层数:**40
- **维度:**5,120
- **头维度:**128
- **隐藏层维度:**14,436
- **激活函数:**SwiGLU
- **注意力头数:**32
- **键值头数:**8(分组查询注意力)
- **词表大小:**2^17≈128k
- 旋转位置编码(θ=1M)
性能指标
主要基准测试
测试项目 |
得分 |
HellaSwag(0样本) |
83.5% |
Winogrande(0样本) |
76.8% |
OpenBookQA(0样本) |
60.6% |
CommonSenseQA(0样本) |
70.4% |
TruthfulQA(0样本) |
50.3% |
MMLU(5样本) |
68.0% |
TriviaQA(5样本) |
73.8% |
NaturalQuestions(5样本) |
31.2% |
多语言基准测试(MMLU)
语言 |
得分 |
法语 |
62.3% |
德语 |
62.7% |
西班牙语 |
64.6% |
意大利语 |
61.3% |
葡萄牙语 |
63.3% |
俄语 |
59.2% |
中文 |
59.0% |
日语 |
59.0% |
使用方式
本模型支持三种框架调用:
Mistral推理
安装
推荐使用mistral-inference运行mistralai/Mistral-Nemo-Base-2407
。
如需Hugging Face transformers代码示例,请继续向下滚动。
pip install mistral_inference
下载
from huggingface_hub import snapshot_download
from pathlib import Path
mistral_models_path = Path.home().joinpath('mistral_models', 'Nemo-v0.1')
mistral_models_path.mkdir(parents=True, exist_ok=True)
snapshot_download(repo_id="mistralai/Mistral-Nemo-Base-2407", allow_patterns=["params.json", "consolidated.safetensors", "tokenizer.json"], local_dir=mistral_models_path)
演示
安装mistral_inference
后,环境将提供mistral-demo
命令行工具:
mistral-demo $HOME/mistral_models/Nemo-v0.1
Transformers
[!重要提示]
注意:需通过源码安装transformers:
pip install git+https://github.com/huggingface/transformers.git
使用Hugging Face transformers
生成文本的示例:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "mistralai/Mistral-Nemo-Base-2407"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
inputs = tokenizer("你好,我的名字是", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
[!提示]
与早期Mistral模型不同,Mistral Nemo需要较低的温度参数。推荐使用0.3的温度值。
注意事项
Mistral-Nemo-Base-2407
是预训练基础模型,未内置内容审核机制。
Mistral AI团队
团队成员包括:Albert Jiang、Alexandre Sablayrolles、Alexis Tacnet、Alok Kothari、Antoine Roux、Arthur Mensch等(完整名单见原文)。