base_model: mistralai/Mistral-7B-v0.1
inference: false
license: apache-2.0
model_creator: Mistral AI
model_name: Mistral 7B v0.1
model_type: mistral
pipeline_tag: text-generation
prompt_template: '{prompt}
'
quantized_by: TheBloke
tags:
Mistral 7B v0.1 - GGUF
描述
本仓库包含Mistral AI的Mistral 7B v0.1的GGUF格式模型文件。
关于GGUF
GGUF是llama.cpp团队于2023年8月21日引入的新格式。它是GGML的替代品,后者已不再受llama.cpp支持。
以下是已知支持GGUF的客户端和库的不完整列表:
可用仓库
提示模板:无
{prompt}
兼容性
这些量化的GGUFv2文件与2023年8月27日之后的llama.cpp兼容,提交号为d0cee0d
它们也与许多第三方UI和库兼容——请参阅本README顶部的列表。
序列长度说明:该模型将在4096或更低的序列长度下工作。GGUF尚未支持新的滑动窗口序列长度模式,因此不支持更长的序列长度。
量化方法说明
点击查看详情
可用的新方法有:
- GGML_TYPE_Q2_K - "type-1" 2位量化,在包含16个块的超级块中,每个块有16个权重。块比例和最小值用4位量化。最终有效使用每权重2.5625位(bpw)
- GGML_TYPE_Q3_K - "type-0" 3位量化,在包含16个块的超级块中,每个块有16个权重。比例用6位量化。最终使用3.4375 bpw。
- GGML_TYPE_Q4_K - "type-1" 4位量化,在包含8个块的超级块中,每个块有32个权重。比例和最小值用6位量化。最终使用4.5 bpw。
- GGML_TYPE_Q5_K - "type-1" 5位量化。与GGML_TYPE_Q4_K相同的超级块结构,结果为5.5 bpw
- GGML_TYPE_Q6_K - "type-0" 6位量化。超级块包含16个块,每个块有16个权重。比例用8位量化。最终使用6.5625 bpw
请参阅下面的“提供文件”表格,了解哪些文件使用哪些方法以及如何使用。
提供文件
注意:上述RAM数据假设没有GPU卸载。如果将层卸载到GPU,这将减少RAM使用并使用VRAM代替。
如何下载GGUF文件
手动下载者注意:您几乎不需要克隆整个仓库!提供了多种不同的量化格式,大多数用户只需选择并下载单个文件。
以下客户端/库将自动为您下载模型,提供可供选择的模型列表:
- LM Studio
- LoLLMS Web UI
- Faraday.dev
在text-generation-webui
中
在下载模型下,您可以输入模型仓库:TheBloke/Mistral-7B-v0.1-GGUF,并在其下方输入要下载的特定文件名,例如:mistral-7b-v0.1.Q4_K_M.gguf。
然后点击下载。
在命令行中,包括一次多个文件
我推荐使用huggingface-hub
Python库:
pip3 install huggingface-hub
然后,您可以使用以下命令将任何单个模型文件下载到当前目录,高速下载:
huggingface-cli download TheBloke/Mistral-7B-v0.1-GGUF mistral-7b-v0.1.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
更高级的huggingface-cli下载用法
您还可以使用模式一次下载多个文件:
huggingface-cli download TheBloke/Mistral-7B-v0.1-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
有关使用huggingface-cli
下载的更多文档,请参阅:HF -> Hub Python Library -> Download files -> Download from the CLI。
要在快速连接(1Gbit/s或更高)上加速下载,安装hf_transfer
:
pip3 install hf_transfer
并设置环境变量HF_HUB_ENABLE_HF_TRANSFER
为1
:
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/Mistral-7B-v0.1-GGUF mistral-7b-v0.1.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows命令行用户:您可以在下载命令前运行set HF_HUB_ENABLE_HF_TRANSFER=1
来设置环境变量。
示例llama.cpp
命令
确保您使用的是提交号为d0cee0d或之后的llama.cpp
。
./main -ngl 32 -m mistral-7b-v0.1.Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "{prompt}"
将-ngl 32
更改为要卸载到GPU的层数。如果没有GPU加速,请移除该参数。
序列长度可以是4096或更低。Mistral的滑动窗口序列长度在llama.cpp中尚未支持,因此不支持超过4096的序列长度。
如果您想要进行聊天式对话,将-p <PROMPT>
参数替换为-i -ins
有关其他参数及其使用方法,请参阅llama.cpp文档
如何在text-generation-webui
中运行
更多说明请见:text-generation-webui/docs/llama.cpp.md。
如何从Python代码运行
您可以使用llama-cpp-python或ctransformers库从Python中使用GGUF模型。
如何在Python代码中加载此模型,使用ctransformers
注意:我尚未测试ctransformers与Mistral模型,但如果将model_type
设置为llama
,可能会工作。
首先安装包
根据您的系统运行以下命令之一:
# 基础ctransformers,无GPU加速
pip install ctransformers
# 或使用CUDA GPU加速
pip install ctransformers[cuda]
# 或使用AMD ROCm GPU加速(仅限Linux)
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或使用Metal GPU加速(仅限macOS系统)
CT_METAL=1 pip install ctransformers --no-binary ctransformers
简单的ctransformers示例代码
from ctransformers import AutoModelForCausalLM
llm = AutoModelForCausalLM.from_pretrained("TheBloke/Mistral-7B-v0.1-GGUF", model_file="mistral-7b-v0.1.Q4_K_M.gguf", model_type="mistral", gpu_layers=50)
print(llm("