许可证:Apache-2.0
支持语言:
- 英语
- 法语
- 德语
- 西班牙语
- 意大利语
- 葡萄牙语
- 俄语
- 中文
- 日语
额外说明:如需了解我们如何处理您的个人数据,请阅读我们的隐私政策。
专为微调添加ChatML标记的版本。
Mistral-Nemo-Base-2407模型卡
Mistral-Nemo-Base-2407大语言模型(LLM)是由Mistral AI与NVIDIA联合训练的120亿参数生成式文本预训练模型,其性能显著超越现有同规模或更小规模的模型。
更多详情请参阅我们的发布博客。
核心特性
- Apache 2许可证下发布
- 提供预训练版和指令微调版
- 128k上下文窗口训练
- 训练数据包含大量多语言和代码内容
- 可直接替代Mistral 7B
模型架构
Mistral Nemo采用Transformer架构,关键设计如下:
- **层数:**40
- **维度:**5,120
- **头维度:**128
- **隐藏层维度:**14,436
- **激活函数:**SwiGLU
- **注意力头数:**32
- **键值头数:**8(分组查询注意力)
- **词表大小:**2^17≈128k
- 旋转位置编码(θ=1M)
性能指标
主要基准测试
测试项目 |
得分 |
HellaSwag (0-shot) |
83.5% |
Winogrande (0-shot) |
76.8% |
OpenBookQA (0-shot) |
60.6% |
CommonSenseQA (0-shot) |
70.4% |
TruthfulQA (0-shot) |
50.3% |
MMLU (5-shot) |
68.0% |
TriviaQA (5-shot) |
73.8% |
NaturalQuestions (5-shot) |
31.2% |
多语言基准测试(MMLU)
语言 |
得分 |
法语 |
62.3% |
德语 |
62.7% |
西班牙语 |
64.6% |
意大利语 |
61.3% |
葡萄牙语 |
63.3% |
俄语 |
59.2% |
中文 |
59.0% |
日语 |
59.0% |
使用方式
本模型支持三种框架:
Mistral Inference
安装
推荐通过mistral-inference使用本模型。如需Hugging Face transformers代码示例,请继续向下滚动。
pip install mistral_inference
下载
from huggingface_hub import snapshot_download
from pathlib import Path
mistral_models_path = Path.home().joinpath('mistral_models', 'Nemo-v0.1')
mistral_models_path.mkdir(parents=True, exist_ok=True)
snapshot_download(repo_id="mistralai/Mistral-Nemo-Base-2407", allow_patterns=["params.json", "consolidated.safetensors", "tekken.json"], local_dir=mistral_models_path)
演示
安装后,环境将提供mistral-demo
命令行工具:
mistral-demo $HOME/mistral_models/Nemo-v0.1
Transformers
[!重要提示]
注意:在新版本发布前,需通过源码安装transformers:
pip install git+https://github.com/huggingface/transformers.git
生成文本示例:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "mistralai/Mistral-Nemo-Base-2407"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
inputs = tokenizer("你好,我的名字是", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
[!提示]
与先前Mistral模型不同,本模型需要更低温度值。推荐使用0.3的温度参数。
注意事项
Mistral-Nemo-Base-2407
是基础预训练模型,未内置内容审核机制。
Mistral AI团队
阿尔贝·江、亚历山大·萨布莱罗尔、亚历克西·塔克内、阿洛克·科塔里、安托万·鲁、亚瑟·门施、奥黛丽·赫布林-斯图普、奥古斯坦·加罗、奥斯汀·伯基、Bam4d、巴普蒂斯特·布特、博杜安·德莫尼科、布朗什·萨瓦里、卡罗尔·朗博、卡罗琳·费尔德曼、德文德拉·辛格·查普洛特、迭戈·德拉斯卡萨斯、埃莱奥诺尔·阿尔瑟兰、艾玛·布·汉娜、艾蒂安·梅茨格、加斯帕尔·布朗谢、吉安娜·伦杰尔、纪尧姆·布尔、纪尧姆·朗普勒、哈里佐·拉贾奥纳、亨利·鲁塞兹、希舍姆·萨图夫、伊恩·麦克、让-马洛·德利尼翁、杰西卡·丘德诺夫斯基、贾斯特斯·穆尔克、卡尔提克·汉德尔瓦尔、劳伦斯·斯图尔特、路易·马丁、路易·泰尔农、吕西尔·索尔尼耶、莱利奥·勒纳尔·拉沃、玛格丽特·詹宁斯、玛丽·佩拉、玛丽·托雷利、玛丽-安娜·拉绍、玛乔丽·贾尼维茨、米卡埃尔·塞兹内克、尼古拉·舒尔、尼克拉斯·穆斯、奥利维耶·德加里格、帕特里克·冯·普拉滕、保罗·雅各布、波林·比什、帕万·库马尔·雷迪、佩里·萨瓦斯、皮埃尔·斯托克、罗曼·索韦斯特尔、萨加尔·瓦泽、桑迪普·苏布拉马尼安、索拉布·加尔格、索菲亚·杨、希蒙·安托尼亚克、特文·勒斯卡奥、蒂博·许勒尔、蒂博·拉维尔、托马斯·王、泰奥菲勒·热尔韦、蒂莫泰·拉克鲁瓦、瓦莱拉·内米奇尼科娃、温迪·尚、威廉·埃尔萨耶德、威廉·马歇尔