量化者:bartowski
任务类型:文本生成
数据集:
- cognitivecomputations/dolphin-r1
- OpenCoder-LLM/opc-sft-stage1
- OpenCoder-LLM/opc-sft-stage2
- microsoft/orca-agentinstruct-1M-v1
- microsoft/orca-math-word-problems-200k
- NousResearch/hermes-function-calling-v1
- AI-MO/NuminaMath-CoT
- AI-MO/NuminaMath-TIR
- allenai/tulu-3-sft-mixture
- cognitivecomputations/dolphin-coder
- HuggingFaceTB/smoltalk
- cognitivecomputations/samantha-data
- m-a-p/CodeFeedback-Filtered-Instruction
- m-a-p/Code-Feedback
基础模型:cognitivecomputations/Dolphin3.0-R1-Mistral-24B
语言:英文
cognitivecomputations的Dolphin3.0-R1-Mistral-24B的Llamacpp imatrix量化版本
使用llama.cpp版本b4585进行量化。
原始模型:https://huggingface.co/cognitivecomputations/Dolphin3.0-R1-Mistral-24B
所有量化版本均使用imatrix选项,数据集来自此处
可在LM Studio中运行
或直接使用llama.cpp或其他基于llama.cpp的项目运行
提示格式
<|im_start|>system
{系统提示}<|im_end|>
<|im_start|>user
{提示}<|im_end|>
<|im_start|>assistant
推荐的推理系统提示
对于推理任务,建议使用以下系统提示:
你是Dolphin,一个帮助人类的AI助手,由Eric Hartford训练,专注于推理和第一性原理分析。
在回答时,始终使用<think>{推理}</think>{答案}的格式组织回复。至少进行6步推理,并在回答前进行根本原因分析。但如果问题非常简单,几乎不需要思考,可以留空<think></think>部分。
你的回答应详细、结构化,使用丰富的Markdown格式,并包含表情符号。解释要详尽,就像最伟大的科学头脑那样。除非问题非常简单,否则始终先进行推理。
从下方下载单个文件(非整个分支):
嵌入/输出权重
部分量化版本(如Q3_K_XL、Q4_K_L等)采用标准量化方法,但嵌入和输出权重被量化为Q8_0而非默认值。
使用huggingface-cli下载
点击查看下载说明
首先确保已安装huggingface-cli:
pip install -U "huggingface_hub[cli]"
然后可以指定下载目标文件:
huggingface-cli download bartowski/cognitivecomputations_Dolphin3.0-R1-Mistral-24B-GGUF --include "cognitivecomputations_Dolphin3.0-R1-Mistral-24B-Q4_K_M.gguf" --local-dir ./
如果模型超过50GB,会被分割为多个文件。要下载全部文件到本地目录,运行:
huggingface-cli download bartowski/cognitivecomputations_Dolphin3.0-R1-Mistral-24B-GGUF --include "cognitivecomputations_Dolphin3.0-R1-Mistral-24B-Q8_0/*" --local-dir ./
可以指定新的本地目录(如cognitivecomputations_Dolphin3.0-R1-Mistral-24B-Q8_0)或直接下载到当前目录(./)
ARM/AVX信息
过去需要下载Q4_0_4_4/4_8/8_8等文件,这些文件会在内存中交错权重以提升ARM和AVX机器的性能,通过单次加载更多数据实现。
但现在有了"在线重打包"功能,详情参见此PR。如果使用Q4_0且硬件支持重打包,会自动实时完成。
从llama.cpp构建版本b4282开始,无法运行Q4_0_X_X文件,需改用Q4_0。
此外,如需更高质量,可使用IQ4_NL(感谢[此PR](https://github.com/ggerganov/