license: apache-2.0
license_link: https://huggingface.co/Qwen/Qwen2.5-7B-Instruct-GGUF/blob/main/LICENSE
language:
- en
pipeline_tag: text-generation
base_model: Qwen/Qwen2.5-7B-Instruct
tags:
- chat
llamafile的原创作者并非本人,所有荣誉归属于Jartine:
Qwen2.5 7B Instruct GGUF - llamafile版
单文件本地运行大语言模型 - 无需安装!
只需下载一个文件并运行即可。
我们的目标是通过将llama.cpp与Cosmopolitan Libc结合,将大语言模型的所有复杂性压缩为可在大多数计算机本地运行的单一可执行文件(称为"llamafile"),让开发者和终端用户都能更便捷地使用开源大模型。
最简单的体验方式是下载示例llamafile。所有推理过程均在本地完成,您的数据不会离开计算机。
- 下载llamafile文件
- 打开计算机终端
- macOS/Linux/BSD用户需授予执行权限(仅首次需要):
chmod +x qwen2.5-7b-instruct-q8_0.gguf
- Windows用户需添加".exe"后缀
- 运行llamafile:
./qwen2.5-7b-instruct-q8_0.gguf
- 浏览器将自动打开聊天界面(若未自动打开,请访问http://localhost:8080)
- 结束会话时,在终端按
Control-C
关闭llamafile
请注意LlamaFile仍在积极开发中,部分方法可能与最新文档不兼容。
Qwen2.5 7B Instruct GGUF Llamafile配置
- 模型作者:Qwen
- 量化GGUF文件:Qwen/Qwen2.5-7B-Instruct-GGUF
- 提交信息:"upload fp16 weights"
- 提交哈希:bb5d59e06d9551d752d08b292a50eb208b07ab1f
- LlamaFile版本:Mozilla-Ocho/llamafile
- 提交信息:"Merge pull request #687 from Xydane/main Add Support for DeepSeek-R1 models"
- 提交哈希:29b5f27172306da39a9c70fe25173da1b1564f82
.args
内容格式示例:
-m
qwen2.5-7b-instruct-q8_0.gguf
...
(以下为Qwen2.5 7B Instruct GGUF原始模型卡)
Qwen2.5-7B-Instruct-GGUF
模型介绍
Qwen2.5是通义千问大模型的最新系列。本次发布的Qwen2.5包含从0.5B到72B参数规模的基础模型和指令微调模型,相比Qwen2主要带来以下提升:
- 知识量显著增强,在代码和数学领域能力大幅提升(得益于专业领域专家模型)
- 指令遵循、长文本生成(超8K tokens)、结构化数据理解(如表格)和结构化输出生成(特别是JSON)能力显著提升。对系统提示词多样性更具鲁棒性,增强了角色扮演实现和聊天机器人条件设置能力
- 支持128K超长上下文,可生成8K tokens
- 支持29种语言,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语、阿拉伯语等
本仓库包含GGUF格式的7B Qwen2.5指令微调模型,具有以下特性:
- 类型:因果语言模型
- 训练阶段:预训练&后训练
- 架构:采用RoPE、SwiGLU、RMSNorm和Attention QKV偏置的transformers
- 参数量:7.61B
- 非嵌入参数量:6.53B
- 层数:28
- 注意力头数(GQA):Q头28个,KV头4个
- 上下文长度:完整32,768 tokens,生成8,192 tokens
- 注:目前仅vLLM支持YARN长度外推。如需处理131,072 tokens序列,请使用非GGUF格式模型
- 量化方案:q2_K、q3_K_M、q4_0、q4_K_M、q5_0、q5_K_M、q6_K、q8_0
更多细节请参阅我们的博客、GitHub和文档。
快速开始
查看我们的llama.cpp文档获取完整使用指南。
建议克隆llama.cpp
并按官方指南安装。我们适配最新版llama.cpp,以下演示假设您在llama.cpp
仓库目录下操作。
若完整克隆仓库效率较低,可手动下载所需GGUF文件或使用huggingface-cli
:
- 安装:
pip install -U huggingface_hub
- 下载:
huggingface-cli download Qwen/Qwen2.5-7B-Instruct-GGUF --include "qwen2.5-7b-instruct-q5_k_m*.gguf" --local-dir . --local-dir-use-symlinks False
大文件因上传限制被分割为多部分,共享相同前缀并带有序号后缀。例如qwen2.5-7b-instruct-q5_k_m-00001-of-00002.gguf
和qwen2.5-7b-instruct-q5_k_m-00002-of-00002.gguf
。上述命令将下载所有分片。
- (可选)合并:
使用
llama-gguf-split
命令合并分片文件:
./llama-gguf-split --merge qwen2.5-7b-instruct-q5_k_m-00001-of-00002.gguf qwen2.5-7b-instruct-q5_k_m.gguf
推荐在对话模式下启动以获得最佳聊天体验:
./llama-cli -m <gguf文件路径> \
-co -cnv -p "你是由阿里云创建的通义千问,一个乐于助人的AI助手。" \
-fa -ngl 80 -n 512
评估与性能
详细评估结果请见📑博客。
量化模型与原版bfloat16模型的基准测试对比结果参见此处
GPU显存需求及吞吐量测试结果参见此处。
引用
如果您觉得我们的工作有帮助,欢迎引用:
@misc{qwen2.5,
title = {Qwen2.5: A Party of Foundation Models},
url = {https://qwenlm.github.io/blog/qwen2.5/},
author = {Qwen Team},
month = {September},
year = {2024}
}
@article{qwen2,
title={Qwen2 Technical Report},
author={An Yang and Baosong Yang and Binyuan Hui and Bo Zheng and Bowen Yu and Chang Zhou and Chengpeng Li and Chengyuan Li and Dayiheng Liu and Fei Huang and Guanting Dong and Haoran Wei and Huan Lin and Jialong Tang and Jialin Wang and Jian Yang and Jianhong Tu and Jianwei Zhang and Jianxin Ma and Jin Xu and Jingren Zhou and Jinze Bai and Jinzheng He and Junyang Lin and Kai Dang and Keming Lu and Keqin Chen and Kexin Yang and Mei Li and Mingfeng Xue and Na Ni and Pei Zhang and Peng Wang and Ru Peng and Rui Men and Ruize Gao and Runji Lin and Shijie Wang and Shuai Bai and Sinan Tan and Tianhang Zhu and Tianhao Li and Tianyu Liu and Wenbin Ge and Xiaodong Deng and Xiaohuan Zhou and Xingzhang Ren and Xinyu Zhang and Xipin Wei and Xuancheng Ren and Yang Fan and Yang Yao and Yichang Zhang and Yu Wan and Yunfei Chu and Yuqiong Liu and Zeyu Cui and Zhenru Zhang and Zhihao Fan},
journal={arXiv preprint arXiv:2407.10671},
year={2024}
}