Mistral-Nemo-Base-2407-chatml开源文本生成模型 - 性能超越同规模模型，免费体验！

首页

Mistral Nemo Base 2407 Chatml

由 IntervitensInc 开发

Mistral-Nemo-Base-2407是由Mistral AI与NVIDIA联合训练的120亿参数生成式文本预训练模型，性能超越同规模或更小规模的模型。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #128k长文本处理 #多语言生成 #代码生成

下载量 191

发布时间 : 7/27/2024

模型简介

这是一个多语言大语言模型，支持多种语言和代码生成，具有128k上下文窗口，适用于文本生成和理解任务。

模型特点

多语言支持

支持包括中文在内的9种语言，适用于多语言文本处理任务。

大上下文窗口

具有128k的上下文窗口，能够处理长文本序列。

高性能

性能显著超越同规模或更小规模的模型。

开源许可证

在Apache 2.0许可证下发布，允许商业使用和修改。

模型能力

多语言文本生成

代码生成

文本理解

问答系统

使用案例

自然语言处理

多语言聊天机器人

构建支持多种语言的聊天机器人。

代码辅助工具

作为编程辅助工具，帮助生成和解释代码。

教育

语言学习助手

辅助语言学习，提供多语言翻译和解释。

🚀 Mistral-Nemo-Base-2407模型卡片

Mistral-Nemo-Base-2407大语言模型（LLM）是一款由Mistral AI和NVIDIA联合训练的预训练生成式文本模型，拥有120亿参数。它在性能上显著超越了现有的规模更小或相近的模型。

如果你想了解更多关于我们如何处理您的个人数据的信息，请阅读我们的隐私政策。

此版本添加了用于微调的ChatML令牌。

如需了解该模型的更多详细信息，请参考我们的发布博客文章。

🚀 快速开始

本模型可使用三种不同的框架进行使用：

✨ 主要特性

开源许可：基于 Apache 2许可证 发布
版本多样：提供预训练版本和指令微调版本
大上下文窗口：使用 128k上下文窗口 进行训练
多语言与代码数据：在大量的 多语言和代码数据 上进行训练
可替换性：可直接替代Mistral 7B模型

📚 详细文档

模型架构

Mistral Nemo是一个Transformer模型，采用了以下架构选择：

层数：40
维度：5120
头维度：128
隐藏维度：14436
激活函数：SwiGLU
头的数量：32
键值头的数量：8（GQA）
词汇表大小：2**17 ≈ 128k
旋转嵌入（theta = 1M）

评估指标

主要基准测试

基准测试	得分
HellaSwag（零样本）	83.5%
Winogrande（零样本）	76.8%
OpenBookQA（零样本）	60.6%
CommonSenseQA（零样本）	70.4%
TruthfulQA（零样本）	50.3%
MMLU（五样本）	68.0%
TriviaQA（五样本）	73.8%
NaturalQuestions（五样本）	31.2%

多语言基准测试（MMLU）

语言	得分
法语	62.3%
德语	62.7%
西班牙语	64.6%
意大利语	61.3%
葡萄牙语	63.3%
俄语	59.2%
中文	59.0%
日语	59.0%

💻 使用示例

Mistral Inference

安装

建议使用 mistral-inference 来使用 mistralai/Mistral-Nemo-Base-2407 模型。如需查看HF transformers的代码片段，请继续向下滚动。

pip install mistral_inference

下载

from huggingface_hub import snapshot_download
from pathlib import Path

mistral_models_path = Path.home().joinpath('mistral_models', 'Nemo-v0.1')
mistral_models_path.mkdir(parents=True, exist_ok=True)

snapshot_download(repo_id="mistralai/Mistral-Nemo-Base-2407", allow_patterns=["params.json", "consolidated.safetensors", "tekken.json"], local_dir=mistral_models_path)

演示

安装 mistral_inference 后，你的环境中应该会有一个 mistral-demo 的CLI命令。

mistral-demo $HOME/mistral_models/Nemo-v0.1

Transformers

⚠️ 重要提示

注意：在发布新版本之前，你需要从源代码安装transformers：
pip install git+https://github.com/huggingface/transformers.git

如果你想使用Hugging Face的 transformers 库来生成文本，可以这样做：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "mistralai/Mistral-Nemo-Base-2407"
tokenizer = AutoTokenizer.from_pretrained(model_id)

model = AutoModelForCausalLM.from_pretrained(model_id)
inputs = tokenizer("Hello my name is", return_tensors="pt")

outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

💡 使用建议

与之前的Mistral模型不同，Mistral Nemo需要较低的温度参数。我们建议使用0.3的温度值。

🔧 技术细节

Mistral-Nemo-Base-2407 是一个预训练的基础模型，因此没有任何审核机制。

📄 许可证

本模型基于 Apache 2.0许可证 发布。

团队成员

Albert Jiang、Alexandre Sablayrolles、Alexis Tacnet、Alok Kothari、Antoine Roux、Arthur Mensch、Audrey Herblin - Stoop、Augustin Garreau、Austin Birky、Bam4d、Baptiste Bout、Baudouin de Monicault、Blanche Savary、Carole Rambaud、Caroline Feldman、Devendra Singh Chaplot、Diego de las Casas、Eleonore Arcelin、Emma Bou Hanna、Etienne Metzger、Gaspard Blanchet、Gianna Lengyel、Guillaume Bour、Guillaume Lample、Harizo Rajaona、Henri Roussez、Hichem Sattouf、Ian Mack、Jean - Malo Delignon、Jessica Chudnovsky、Justus Murke、Kartik Khandelwal、Lawrence Stewart、Louis Martin、Louis Ternon、Lucile Saulnier、Lélio Renard Lavaud、Margaret Jennings、Marie Pellat、Marie Torelli、Marie - Anne Lachaux、Marjorie Janiewicz、Mickaël Seznec、Nicolas Schuhl、Niklas Muhs、Olivier de Garrigues、Patrick von Platen、Paul Jacob、Pauline Buche、Pavan Kumar Reddy、Perry Savas、Pierre Stock、Romain Sauvestre、Sagar Vaze、Sandeep Subramanian、Saurabh Garg、Sophia Yang、Szymon Antoniak、Teven Le Scao、Thibault Schueller、Thibaut Lavril、Thomas Wang、Théophile Gervet、Timothée Lacroix、Valera Nemychnikova、Wendy Shang、William El Sayed、William Marshall