标签:
- 量化
- 2比特
- 3比特
- 4比特
- 5比特
- 6比特
- 8比特
- GGUF格式
- 变换器模型
- 安全张量
- gemma模型
- 文本生成
- 对话式AI
- 论文编号:2312.11805
- 论文编号:2009.03300
- 论文编号:1905.07830
- 论文编号:1911.11641
- 论文编号:1904.09728
- 论文编号:1905.10044
- 论文编号:1907.10641
- 论文编号:1811.00937
- 论文编号:1809.02789
- 论文编号:1911.01547
- 论文编号:1705.03551
- 论文编号:2107.03374
- 论文编号:2108.07732
- 论文编号:2110.14168
- 论文编号:2304.06364
- 论文编号:2206.04615
- 论文编号:1804.06876
- 论文编号:2110.08193
- 论文编号:2009.11462
- 论文编号:2101.11718
- 论文编号:1804.09301
- 论文编号:2109.07958
- 论文编号:2203.09509
- 许可证:其他
- 兼容自动训练
- 兼容终端
- 有空间
- 文本生成推理
- 地区:美国
- 文本生成
模型名称: gemma-2b-it-GGUF
基础模型: google/gemma-2b-it
推理: 不支持
模型创建者: 谷歌
流水线标签: 文本生成
量化者: MaziyarPanahi
模型描述
MaziyarPanahi/gemma-2b-it-GGUF 包含 google/gemma-2b-it 的GGUF格式模型文件。
使用方法
感谢 TheBloke 提供的详细使用说明:
关于GGUF格式
GGUF是llama.cpp团队于2023年8月21日推出的新格式,用于替代已停止支持的GGML格式。
以下是部分已知支持GGUF的客户端和库:
量化方法说明
点击查看详情
可用的新量化方法:
- GGML_TYPE_Q2_K - "type-1" 2比特量化
- GGML_TYPE_Q3_K - "type-0" 3比特量化
- GGML_TYPE_Q4_K - "type-1" 4比特量化
- GGML_TYPE_Q5_K - "type-1" 5比特量化
- GGML_TYPE_Q6_K - "type-0" 6比特量化
下载GGUF文件
手动下载提示: 通常只需下载单个文件而非整个仓库。
以下客户端/库可自动下载模型:
- LM Studio
- LoLLMS Web UI
- Faraday.dev
在text-generation-webui中
在下载模型处输入:MaziyarPanahi/gemma-2b-it-GGUF 并指定文件名如:gemma-2b-it-GGUF.Q4_K_M.gguf。
命令行下载
建议使用huggingface-hub库:
pip3 install huggingface-hub
下载单个文件:
huggingface-cli download MaziyarPanahi/gemma-2b-it-GGUF gemma-2b-it-GGUF.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
高级下载用法
批量下载:
huggingface-cli download [MaziyarPanahi/gemma-2b-it-GGUF](https://huggingface.co/MaziyarPanahi/gemma-2b-it-GGUF) --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
加速下载:
pip3 install hf_transfer
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download MaziyarPanahi/gemma-2b-it-GGUF gemma-2b-it-GGUF.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
llama.cpp使用示例
确保使用d0cee0d或更新版本:
./main -ngl 35 -m gemma-2b-it-GGUF.Q4_K_M.gguf --color -c 32768 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<|im_start|>system
{系统消息}<|im_end|>
<|im_start|>user
{提示}<|im_end|>
<|im_start|>assistant"
调整-ngl
参数设置GPU卸载层数,-c
设置序列长度。
Python代码示例
安装llama-cpp-python
根据系统选择安装命令:
# 基础版(无GPU加速)
pip install llama-cpp-python
# CUDA加速
CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python
# Metal加速(macOS)
CMAKE_ARGS="-DLLAMA_METAL=on" pip install llama-cpp-python
使用示例
from llama_cpp import Llama
llm = Llama(
model_path="./gemma-2b-it-GGUF.Q4_K_M.gguf",
n_ctx=32768,
n_threads=8,
n_gpu_layers=35
)
output = llm(
"<|im_start|>system
{系统消息}<|im_end|>
<|im_start|>user
{提示}<|im_end|>
<|im_start|>assistant",
max_tokens=512,
stop=["</s>"],
echo=True
)
LangChain集成
参考指南: