Mistral Large Instruct 2411
模型简介
Mistral-Large-Instruct-2411 是基于 Mistral-Large-Instruct-2407 的拓展版本,在长上下文处理、函数调用和系统提示方面表现更优。
模型特点
多语言支持
支持数十种语言,包括英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语。
编码能力出色
在 80 多种编码语言上进行了训练,如 Python、Java、C、C++、JavaScript 和 Bash 等,还涵盖了更专业的语言,如 Swift 和 Fortran。
以智能体为中心
具备一流的智能体能力,支持原生函数调用和 JSON 输出。
高级推理能力
拥有顶尖的数学和推理能力。
长上下文处理
具备 128k 的大上下文窗口,确保在检索增强生成(RAG)和长上下文应用中表现出色。
系统提示支持
对系统提示提供强大支持,保证输出更可靠。
模型能力
文本生成
多语言处理
编码辅助
数学推理
函数调用
长上下文处理
使用案例
教育与研究
数学问题求解
帮助解决复杂的数学问题,提供逐步推理过程。
能够准确解答数学问题,并展示详细的解题步骤。
软件开发
代码生成与优化
生成多种编程语言的代码片段,并提供优化建议。
能够生成高效且符合规范的代码,提升开发效率。
多语言应用
多语言翻译
支持多种语言之间的翻译任务。
提供准确且流畅的翻译结果。
🚀 Mistral-Large-Instruct-2411模型介绍
Mistral-Large-Instruct-2411 是一款先进的密集型大语言模型(LLM),拥有 1230 亿参数,具备顶尖的推理、知识和编码能力。它在 Mistral-Large-Instruct-2407 的基础上进行了拓展,在长上下文处理、函数调用和系统提示方面表现更优。
✨ 主要特性
- 多语言支持:支持数十种语言,包括英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语。
- 编码能力出色:在 80 多种编码语言上进行了训练,如 Python、Java、C、C++、JavaScript 和 Bash 等,还涵盖了更专业的语言,如 Swift 和 Fortran。
- 以智能体为中心:具备一流的智能体能力,支持原生函数调用和 JSON 输出。
- 高级推理能力:拥有顶尖的数学和推理能力。
- 遵循研究许可协议:允许非商业用途的使用和修改。
- 长上下文处理:具备 128k 的大上下文窗口。
- 上下文处理稳健:确保在检索增强生成(RAG)和长上下文应用中表现出色。
- 系统提示支持:对系统提示提供强大支持,保证输出更可靠。
系统提示
我们感谢社区对系统提示处理的反馈。为此,我们加强了对系统提示的支持。为获得最佳效果,建议始终包含明确阐述机器人用途的系统提示,即使内容较为简短。
基本指令模板(V7)
<s>[SYSTEM_PROMPT] <系统提示>[/SYSTEM_PROMPT][INST] <用户消息>[/INST] <助手回复></s>[INST] <用户消息>[/INST]
注意:要留意细微的缺失或尾随空格!
请确保以 mistral-common 作为参考标准
📦 安装指南
vLLM
推荐使用 vLLM 库 来实现生产级推理管道。
- 安装 vLLM:确保安装
vLLM >= v0.6.4.post1
:
pip install --upgrade vLLM
- 安装 mistral_common:确保安装
mistral_common >= 1.5.0
:
pip install --upgrade mistral_common
你还可以使用 Docker 镜像 或从 Docker Hub 获取。
💻 使用示例
基础用法
服务端部署
- 启动服务器:
vllm serve mistralai/Mistral-Large-Instruct-2411 --tokenizer_mode mistral --config_format mistral --load_format mistral --tensor_parallel_size 8
注意:在 GPU 上运行 Mistral-Large-Instruct-2411 需要超过 300GB 的 GPU 显存。
- 使用 Python 代码向客户端发送请求:
import requests
import json
from huggingface_hub import hf_hub_download
from datetime import datetime, timedelta
url = "http://<your-server>:8000/v1/chat/completions"
headers = {"Content-Type": "application/json", "Authorization": "Bearer token"}
model = "mistralai/Mistral-Large-Instruct-2411"
def load_system_prompt(repo_id: str, filename: str) -> str:
file_path = hf_hub_download(repo_id=repo_id, filename=filename)
with open(file_path, "r") as file:
system_prompt = file.read()
today = datetime.today().strftime("%Y-%m-%d")
yesterday = (datetime.today() - timedelta(days=1)).strftime("%Y-%m-%d")
model_name = repo_id.split("/")[-1]
return system_prompt.format(name=model_name, today=today, yesterday=yesterday)
SYSTEM_PROMPT = load_system_prompt(model, "SYSTEM_PROMPT.txt")
messages = [
{"role": "system", "content": SYSTEM_PROMPT + "\n\nThink step by step. You're a math genius."},
{
"role": "user",
"content": "Think of four random numbers. Then add, substract or multiply them so that the solution is 10. If it's not possible, say it."
},
]
data = {"model": model, "messages": messages}
response = requests.post(url, headers=headers, data=json.dumps(data))
print(response.json()["choices"][0]["message"]["content"])
# Sure, let's start by thinking of four random numbers. For example, let's take 3, 5, 2, and 1.
#
# Now, we need to find a combination of addition, subtraction, or multiplication that results in 10.
# Let's try:
# \[ 3 + 5 + 2 - 1 = 9 \]
# This doesn't work. Let's try another combination:
# \[ 3 \times 2 + 5 - 1 = 6 + 5 - 1 = 10 \]
# This works! So, with the numbers 3, 5, 2, and 1, we can achieve the result 10 by performing the operations \( 3 \times 2 + 5 - 1 \).
高级用法
离线使用
from vllm import LLM
from vllm.sampling_params import SamplingParams
from huggingface_hub import hf_hub_download
from datetime import datetime, timedelta
model_name = "mistralai/Mistral-Large-Instruct-2411"
def load_system_prompt(repo_id: str, filename: str) -> str:
file_path = hf_hub_download(repo_id=repo_id, filename=filename)
with open(file_path, 'r') as file:
system_prompt = file.read()
today = datetime.today().strftime('%Y-%m-%d')
yesterday = (datetime.today() - timedelta(days=1)).strftime('%Y-%m-%d')
model_name = repo_id.split("/")[-1]
return system_prompt.format(name=model_name, today=today, yesterday=yesterday)
SYSTEM_PROMPT = load_system_prompt(model_name, "SYSTEM_PROMPT.txt") + "\n\nThink step by step. You're a math genius."
user_prompt = "Without browsing the web, how many days ago was Mistral founded?"
messages = [
{
"role": "system",
"content": SYSTEM_PROMPT
},
{
"role": "user",
"content": user_prompt
},
]
# note that running this model on GPU requires over 300 GB of GPU RAM
llm = LLM(model=model_name, tokenizer_mode="mistral", tensor_parallel_size=8)
sampling_params = SamplingParams(max_tokens=512)
outputs = llm.chat(messages, sampling_params=sampling_params)
print(outputs[0].outputs[0].text)
# I don't have real-time web browsing capabilities or access to current data, but I can help you calculate the number of days based on the information I have.
#
#Mistral AI was founded
📚 详细文档
许可证相关
Mistral AI 研究许可协议
如果你想将 Mistral 模型、衍生作品或输出用于本协议未明确授权的任何目的,必须向 Mistral AI 请求许可,Mistral AI 有权自行决定是否授予许可。如需讨论此类许可,请通过网站联系表单 https://mistral.ai/contact/ 与 Mistral AI 联系。
1. 范围和接受
- 1.1 协议范围:本协议适用于你对任何 Mistral 模型的使用、修改或分发,无论你获取该模型副本的来源如何。
- 1.2 接受协议:通过访问、使用、修改、分发 Mistral 模型,或创建、使用或分发 Mistral 模型的衍生作品,即表示你同意受本协议约束。
- 1.3 代表第三方接受:如果你代表雇主或其他个人或实体接受本协议,你保证并声明你有权代表他们行事并接受本协议。在此情况下,本协议中的“你”指你的雇主或该其他个人或实体。
2. 许可
- 2.1 权利授予:在符合以下第 3 条规定的前提下,Mistral AI 特此授予你非排他性、免版税、全球范围、不可再许可、不可转让的有限许可,允许你在以下第 2.2 条规定的条件下使用、复制、修改和分发 Mistral 模型以及 Mistral AI 制作或为 Mistral AI 制作的任何衍生作品,并创建 Mistral 模型的衍生作品。
- 2.2 Mistral 模型和 Mistral AI 制作或为其制作的衍生作品的分发:在符合以下第 3 条规定的前提下,你可以分发 Mistral 模型和/或 Mistral AI 制作或为其制作的衍生作品的副本,但需满足以下条件:你必须向你分发的 Mistral 模型和/或 Mistral AI 制作或为其制作的衍生作品的第三方接收方提供本协议的副本;明确规定,任何使用 Mistral 模型和/或 Mistral AI 制作或为其制作的衍生作品的权利应由 Mistral AI 根据双方签订的 Mistral AI 研究许可协议直接授予该第三方接收方;你必须在所有 Mistral 模型副本中保留以下归属声明,该声明应包含在作为此类副本一部分分发的“通知”文本文件中:“经 Mistral AI 许可,遵循 Mistral AI 研究许可协议”。
- 2.3 你制作或为你制作的衍生作品的分发:在符合以下第 3 条规定的前提下,你可以根据额外或不同的条款和条件分发你制作或为你制作的任何衍生作品,但需满足以下条件:在任何情况下,对 Mistral 模型和/或 Mistral AI 制作或为其制作的衍生作品的使用和修改仍应受本协议条款和条件的约束;你必须在你制作或为你制作的任何此类衍生作品中显著声明你对相关 Mistral 模型进行了修改;你对任何第三方接收方施加的与你制作或为你制作的衍生作品有关的任何条款和条件,不得限制此类第三方接收方根据 Mistral AI 研究许可协议使用 Mistral 模型或 Mistral AI 制作或为其制作的任何衍生作品,也不得与本协议的任何条款和条件冲突。
3. 限制
- 3.1 虚假陈述:除非我们书面授权,否则你不得通过任何方式虚假陈述或暗示你以自己名义并承担责任分发的你制作或为你制作的衍生作品和/或任何修改版本的 Mistral 模型是 Mistral AI 的官方产品,或已得到 Mistral AI 的认可、批准或验证。
- 3.2 使用限制:你只能将 Mistral 模型、衍生作品(无论是否由 Mistral AI 创建)和输出用于研究目的。
4. 知识产权
- 4.1 商标:本协议未授予任何商标许可,关于 Mistral 模型,你不得使用 Mistral AI 或其任何关联公司拥有或与之相关的任何名称或标志,但以下情况除外:(i)在描述和分发 Mistral 模型以及 Mistral AI 制作或为其制作的衍生作品时进行合理和惯常使用所必需的;(ii)根据本协议要求进行归属声明时。
- 4.2 输出:我们对输出不主张任何所有权。你应对你生成的输出及其后续使用承担全部责任,并遵守本协议的规定。任何输出均应受本协议第 3 条规定的限制。
- 4.3 衍生作品:通过签订本协议,你同意你可能创建或可能为你创建的任何衍生作品应受本协议第 3 条规定的限制。
5. 责任
- 5.1 责任限制:除非适用法律要求(如故意和重大过失行为)或书面同意,否则 Mistral AI 在任何情况下均不对你承担因本协议或使用或无法使用 Mistral 模型和衍生作品而产生的任何损害赔偿责任,包括任何直接、间接、特殊、偶然或后果性损害赔偿(包括但不限于数据丢失、商誉损失、预期利润或节省损失、工作停顿、计算机故障或故障,或因恶意软件或安全漏洞造成的任何损害),即使 Mistral AI 已被告知此类损害的可能性。
- 5.2 赔偿:你同意赔偿并使 Mistral AI 免受因你使用或分发 Mistral 模型和衍生作品而产生的或与之相关的任何索赔、损害或损失。
6. 保证
- 6.1 免责声明:除非适用法律要求或 Mistral AI 事先书面同意,否则 Mistral AI 按“现状”提供 Mistral 模型和衍生作品,不提供任何形式的明示或暗示保证或条件,包括但不限于所有权、不侵权、适销性或特定用途适用性的保证或条件。Mistral AI 不代表也不保证 Mistral 模型和衍生作品将无错误、满足你或任何第三方的要求、安全或使你或任何第三方能够实现任何结果或生成任何内容。你独自负责确定使用或分发 Mistral 模型和衍生作品的适当性,并承担根据本协议行使权利所涉及的任何风险。
7. 终止
- 7.1 期限:本协议自你接受本协议或访问相关 Mistral 模型或衍生作品之日起生效,并持续有效,直至根据以下条款终止。
- 7.2 终止协议:如果你违反本协议,Mistral AI 可随时终止本协议。本协议终止后,你必须停止使用所有 Mistral 模型和衍生作品,并永久删除其任何副本。以下条款的相关部分在本协议终止或到期后仍将有效,有效期以实现其各自预期目的所需的时间为准(例如,责任条款将在适用的诉讼时效期满前继续有效):第 5 条(责任)、第 6 条(保证)、第 7 条(终止)和第 8 条(一般条款)。
- 7.3 诉讼:如果你针对我们或任何其他实体提起任何法律诉讼或程序(包括诉讼中的交叉索赔或反诉),声称模型或衍生作品或其任何部分侵犯了你拥有或可许可的知识产权或其他权利,则本协议授予你的任何许可将自该法律诉讼或索赔提起之日起立即终止。
8. 一般条款
- 8.1 适用法律:本协议受法国法律管辖,不考虑法律选择原则,《联合国国际货物销售合同公约》不适用于本协议。
- 8.2 管辖权:巴黎法院对因本协议产生的任何争议具有专属管辖权。
- 8.3 可分割性:如果本协议的任何条款被认定为无效、非法或不可执行,其余条款不受影响,并继续有效,如同该条款未在此处列出一样。
9. 定义
- “协议”:指本 Mistral AI 研究许可协议,用于规范对 Mistral 模型、衍生作品和输出的访问、使用和分发。
- “衍生作品”:指(i)Mistral 模型的任何修改版本(包括但不限于任何定制或微调版本);(ii)基于 Mistral 模型的作品;或(iii)其任何其他衍生作品。
- “分发”:指通过任何方式提供、供应或使 Mistral 模型和/或衍生作品的副本可供使用,但需遵守本协议第 3 条的规定。
- “Mistral AI”、“我们”或“我们的”:指 Mistral AI,一家在巴黎商业登记处注册的法国简化股份公司,注册号为 952 418 325,注册地址为 15, rue des Halles, 75001 Paris。
- “Mistral 模型”:指基础大语言模型及其组成部分,包括算法、软件、指令检查点、参数、源代码(推理代码、评估代码以及适用时的微调代码)以及 Mistral AI 根据本协议提供的与之相关的任何其他元素,包括(如有)技术文档、手册和使用及操作说明。
- “研究目的”:指对 Mistral 模型、衍生作品或输出的任何使用,且该使用仅用于(a)个人、科学或学术研究;(b)非营利和非商业目的,且与任何商业活动或业务运营无直接或间接关联。为说明起见,研究目的不包括(1)个人或受雇于公司的承包商在其日常工作中或为任何旨在产生收入的活动(包括但不限于任何测试或概念验证)使用 Mistral 模型、衍生作品或输出;(2)商业实体以任何介质或形式(包括但不限于通过托管或管理服务,如 SaaS、云实例等)分发 Mistral 模型、衍生作品或输出,无论是否收费。
- “输出”:指通过运行 Mistral 模型或衍生作品根据用户提供的提示(即文本指令)生成的任何内容。为避免疑问,输出不包括 Mistral 模型的任何组件,如任何微调版本、权重或参数。
- “你”:指与 Mistral AI 签订本协议的个人或实体。
Mistral AI 会处理你的个人数据以提供模型并执行其许可协议。如果你隶属于商业实体,我们可能还会向你发送有关我们模型的通信。有关你的权利和数据处理的更多信息,请参阅我们的 隐私政策。
额外限制信息
Mistral AI 会处理你的个人数据以提供模型并执行其许可协议。如果你隶属于商业实体,我们可能还会向你发送有关我们模型的通信。有关你的权利和数据处理的更多信息,请参阅我们的 隐私政策。
标签
- vllm
- transformers
额外表单字段
字段 | 类型 |
---|---|
名字 | 文本 |
姓氏 | 文本 |
国家 | 国家选择 |
所属机构 | 文本 |
职位 | 文本 |
我理解我只能将模型、任何衍生版本及其输出用于非商业研究目的 | 复选框 |
我理解如果我是商业实体,未经商业许可,我不得在内部或外部使用或分发该模型,也不得在我自己的产品中公开使用该模型 | 复选框 |
我理解如果我在任何平台上上传该模型或任何衍生版本,我必须包含 Mistral 研究许可协议 | 复选框 |
我理解对于模型的商业使用,我可以联系 Mistral 或使用 la Plateforme 或我们任何云提供商合作伙伴上的 Mistral AI API | 复选框 |
通过点击下面的“提交”,我接受许可协议的条款,并确认我提供的信息将根据 Mistral 隐私政策进行收集、存储、处理和共享 | 复选框 |
地理位置 | IP 定位 |
额外按钮内容
提交
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文