模型简介
模型特点
模型能力
使用案例
base_model: LeoLM/leo-hessianai-7b
datasets:
-
oscar-corpus/OSCAR-2301
-
wikipedia
-
bjoernp/tagesschau-2018-2023
inference: false
language: -
en
-
de
library_name: transformers
license: llama2
model_creator: LAION LeoLM
model_name: Leo Hessianai 7B
model_type: llama
pipeline_tag: text-generation
prompt_template: '{prompt}'
quantized_by: TheBloke

TheBloke的LLM工作得到了a16z的慷慨资助
Leo Hessianai 7B - GGUF
- 模型创建者:LAION LeoLM
- 原始模型:Leo Hessianai 7B
模型描述
本仓库包含LAION LeoLM的Leo Hessianai 7B的GGUF格式模型文件。
关于GGUF
GGUF是llama.cpp团队于2023年8月21日引入的新格式,用于替代不再受支持的GGML格式。
以下是已知支持GGUF的客户端和库的不完整列表:
- llama.cpp。GGUF的源项目,提供CLI和服务器选项。
- text-generation-webui,最广泛使用的Web UI,具有许多功能和强大的扩展,支持GPU加速。
- KoboldCpp,功能齐全的Web UI,支持所有平台和GPU架构的加速,特别适合故事创作。
- LM Studio,Windows和macOS(Silicon)上易于使用且功能强大的本地GUI,支持GPU加速。
- LoLLMS Web UI,一个优秀的Web UI,具有许多有趣且独特的功能,包括易于选择模型的完整模型库。
- Faraday.dev,Windows和macOS(Silicon和Intel)上吸引人且易于使用的基于角色的聊天GUI,支持GPU加速。
- ctransformers,支持GPU加速、LangChain和兼容OpenAI的AI服务器的Python库。
- llama-cpp-python,支持GPU加速、LangChain和兼容OpenAI的API服务器的Python库。
- candle,专注于性能的Rust ML框架,包括GPU支持和易用性。
可用仓库
- 用于GPU推理的AWQ模型。
- 用于GPU推理的GPTQ模型,提供多种量化参数选项。
- 用于CPU+GPU推理的2、3、4、5、6和8位GGUF模型。
- LAION LeoLM的原始未量化fp16模型,以pytorch格式提供,用于GPU推理和进一步转换。
提示模板:无
{prompt}
兼容性
这些量化的GGUFv2文件与2023年8月27日之后的llama.cpp兼容,提交号为d0cee0d。
它们也与许多第三方UI和库兼容——请参阅本README顶部的列表。
量化方法说明
点击查看详情
可用的新方法包括:
- GGML_TYPE_Q2_K - "type-1" 2位量化,包含16个块的超级块,每个块有16个权重。块比例和最小值用4位量化。最终有效使用每权重2.5625位(bpw)。
- GGML_TYPE_Q3_K - "type-0" 3位量化,包含16个块的超级块,每个块有16个权重。比例用6位量化。最终使用每权重3.4375位(bpw)。
- GGML_TYPE_Q4_K - "type-1" 4位量化,包含8个块的超级块,每个块有32个权重。比例和最小值用6位量化。最终使用每权重4.5位(bpw)。
- GGML_TYPE_Q5_K - "type-1" 5位量化。与GGML_TYPE_Q4_K相同的超级块结构,最终使用每权重5.5位(bpw)。
- GGML_TYPE_Q6_K - "type-0" 6位量化。包含16个块的超级块,每个块有16个权重。比例用8位量化。最终使用每权重6.5625位(bpw)。
请参阅下面的“提供的文件”表格,了解哪些文件使用了哪些方法及其具体信息。
提供的文件
名称 | 量化方法 | 位数 | 大小 | 所需最大RAM | 使用场景 |
---|---|---|---|---|---|
leo-hessianai-7b.Q2_K.gguf | Q2_K | 2 | 2.83 GB | 5.33 GB | 最小,显著质量损失——不推荐用于大多数用途 |
leo-hessianai-7b.Q3_K_S.gguf | Q3_K_S | 3 | 2.95 GB | 5.45 GB | 非常小,高质量损失 |
leo-hessianai-7b.Q3_K_M.gguf | Q3_K_M | 3 | 3.30 GB | 5.80 GB | 非常小,高质量损失 |
leo-hessianai-7b.Q3_K_L.gguf | Q3_K_L | 3 | 3.60 GB | 6.10 GB | 小,显著质量损失 |
leo-hessianai-7b.Q4_0.gguf | Q4_0 | 4 | 3.83 GB | 6.33 GB | 传统;小,极高质量损失——推荐使用Q3_K_M |
leo-hessianai-7b.Q4_K_S.gguf | Q4_K_S | 4 | 3.86 GB | 6.36 GB | 小,较大质量损失 |
leo-hessianai-7b.Q4_K_M.gguf | Q4_K_M | 4 | 4.08 GB | 6.58 GB | 中等,平衡质量——推荐 |
leo-hessianai-7b.Q5_0.gguf | Q5_0 | 5 | 4.65 GB | 7.15 GB | 传统;中等,平衡质量——推荐使用Q4_K_M |
leo-hessianai-7b.Q5_K_S.gguf | Q5_K_S | 5 | 4.65 GB | 7.15 GB | 大,低质量损失——推荐 |
leo-hessianai-7b.Q5_K_M.gguf | Q5_K_M | 5 | 4.78 GB | 7.28 GB | 大,极低质量损失——推荐 |
leo-hessianai-7b.Q6_K.gguf | Q6_K | 6 | 5.53 GB | 8.03 GB | 非常大,极低质量损失 |
leo-hessianai-7b.Q8_0.gguf | Q8_0 | 8 | 7.16 GB | 9.66 GB | 非常大,极低质量损失——不推荐 |
注意:上述RAM数据假设没有GPU卸载。如果将层卸载到GPU,将减少RAM使用并改用VRAM。
如何下载GGUF文件
手动下载者注意:您几乎不需要克隆整个仓库!提供了多种不同的量化格式,大多数用户只需选择并下载单个文件。
以下客户端/库将自动为您下载模型,提供可供选择的模型列表:
- LM Studio
- LoLLMS Web UI
- Faraday.dev
在text-generation-webui
中
在“下载模型”下,您可以输入模型仓库:TheBloke/leo-hessianai-7B-GGUF,并在下方输入要下载的特定文件名,例如:leo-hessianai-7b.Q4_K_M.gguf。
然后点击下载。
在命令行中,包括同时下载多个文件
推荐使用huggingface-hub
Python库:
pip3 install huggingface-hub
然后,您可以使用以下命令将任何单个模型文件高速下载到当前目录:
huggingface-cli download TheBloke/leo-hessianai-7B-GGUF leo-hessianai-7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
更多高级huggingface-cli下载用法
您还可以使用模式同时下载多个文件:
huggingface-cli download TheBloke/leo-hessianai-7B-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
有关使用huggingface-cli
下载的更多文档,请参阅:HF -> Hub Python库 -> 下载文件 -> 从CLI下载。
为了在快速连接(1Gbit/s或更高)上加速下载,安装hf_transfer
:
pip3 install hf_transfer
并设置环境变量HF_HUB_ENABLE_HF_TRANSFER
为1
:
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/leo-hessianai-7B-GGUF leo-hessianai-7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows命令行用户:您可以在下载命令前运行set HF_HUB_ENABLE_HF_TRANSFER=1
来设置环境变量。
llama.cpp
示例命令
确保您使用的是提交号为d0cee0d或更高版本的llama.cpp
。
./main -ngl 32 -m leo-hessianai-7b.Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "{prompt}"
将-ngl 32
更改为要卸载到GPU的层数。如果没有GPU加速,请移除该参数。
将-c 4096
更改为所需的序列长度。对于扩展序列模型(如8K、16K、32K),必要的RoPE缩放参数将从GGUF文件中读取并由llama.cpp自动设置。
如果要进行聊天式对话,请将-p <PROMPT>
参数替换为-i -ins
。
有关其他参数及其使用方法,请参阅llama.cpp文档。
如何在text-generation-webui
中运行
更多说明请见:text-generation-webui/docs/llama.cpp.md。
如何从Python代码中运行
您可以使用llama-cpp-python或ctransformers库从Python中使用GGUF模型。
如何在Python代码中加载此模型,使用ctransformers
首先安装包
根据您的系统运行以下命令之一:
# 基础ctransformers,无GPU加速
pip install ctransformers
# 或使用CUDA GPU加速
pip install ctransformers[cuda]
# 或使用AMD ROCm GPU加速(仅限Linux)
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或使用Metal GPU加速(仅限macOS系统)
CT_METAL=1 pip install ctransformers --no-binary ctransformers
简单的ctransformers示例代码
from ctransformers import AutoModelForCausalLM
# 将gpu_layers设置为要卸载到GPU的层数。如果系统上没有GPU加速,设置为0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/leo-hessianai-7B-GGUF", model_file="leo-hessianai-7b.Q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
如何与LangChain一起使用
以下是关于如何将llama-cpp-python和ctransformers与LangChain一起使用的指南:
Discord
如需进一步支持以及关于这些模型和AI的讨论,请加入:
感谢与贡献方式
感谢chirper.ai团队!
感谢Clay来自gpus.llm-utils.org!
很多人问我是否可以贡献。我很乐意提供模型并帮助人们,并希望能够花更多时间在这上面,以及扩展到新的AI项目,如微调/训练。
如果您有能力并愿意贡献,我将非常感激,这将帮助我继续提供更多模型,并开始新的AI项目。
贡献者将获得任何和所有AI/LLM/模型问题的优先支持,访问私人Discord房间以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon特别提及:Pierre Kircher, Stanislav Ovsiannikov, Michael Levine, Eugene Pentland, Andrey, ϧÄ͵ê ÍπÄ, Randy H, Fred von Graf, Artur Olbinski, Caitlyn Gatomon, terasurfer, Jeff Scroggin, James Bentley, Vadim, Gabriel Puliatti, Harry Royden McLaughlin, Sean Connelly, Dan Guido, Edmond Seymore, Alicia Loh, subjectnull, AzureBlack, Manuel Alberto Morcote, Thomas Belote, Lone Striker, Chris Smitley, Vitor Caleffi, Johann-Peter Hartmann, Clay Pascal, biorpg, Brandon Frisco, sidney chen, transmissions 11, Pedro Madruga, jinyuan sun, Ajan Kanaga, Emad Mostaque, Trenton Dambrowitz, Jonathan Leane, Iucharbius, usrbinkat, vamX, George Stoitzev, Luke Pendergrass, theTransient, Olakabola, Swaroop Kallakuri, Cap'n Zoog, Brandon Phillips, Michael Dempsey, Nikolai Manek, danny, Matthew Berman, Gabriel Tamborski, alfie_i, Raymond Fosdick, Tom X Nguyen, Raven Klaugh, LangChain4j, Magnesian, Illia Dulskyi, David Ziegler, Mano Prime, Luis Javier Navarrete Lozano, Erik Bj√§reholt, ÈòøÊòé, Nathan Dryer, Alex, Rainer Wilmers, zynix, TL, Joseph William Delisle, John Villwock, Nathan LeClaire, Willem Michiel, Joguhyik, GodLy, OG, Jeffrey Morgan, ReadyPlayerEmma, Tiffany J. Kim, Sebastain Graf, Spencer Kim, Michael Davis, webtim, Talal Aujan, knownsqashed, John Detwiler, Imad Khwaja, Deo Leter, Jerry Meng, Elijah Stavena, Rooh Singh, Pieter, SuperWojo, Alexandros Triantafyllidis, Stephen Murray, Ai Maven, ya boyyy, Enrico Ros, Ken Nordquist, Deep Realms, Nicholas, Spiking Neurons AB, Elle, Will Dee, Jack West, RoA, Luke @flexchar, Viktor Bowallius, Derek Yates, Subspace Studios, jjj, Toran Billups, Asp the Wyvern, Fen Risland, Ilya, NimbleBox.ai, Chadd, Nitin Borwankar, Emre, Mandus, Leonard Tan, Kalila, K, Trailburnt, S_X, Cory Kujawski
感谢所有慷慨的赞助者和捐赠者!
再次感谢a16z的慷慨资助。
原始模型卡片:LAION LeoLM的Leo Hessianai 7B
LAION LeoLM:Linguistically Enhanced Open Language Model
LeoLM是首个基于Llama-2构建的开放且可商用的德语基础语言模型。我们的模型通过在大量德语文本(主要是本地特定文本)上的持续预训练,扩展了Llama-2的德语能力。
得益于HessianAI新超级计算机42的计算资助,我们发布了两个支持8k上下文长度的基础模型,LeoLM/leo-hessianai-7b
和LeoLM/leo-hessianai-13b
,遵循Llama-2社区许可(70b版本即将发布!)。
通过这次发布,我们希望为德语开源和商业LLM研究带来新的机遇,并加速采用。阅读我们的博客文章或论文(预印本即将发布)了解更多详情!
由Bj√∂rn Pl√ºster和Christoph Schuhmann与LAION和HessianAI合作的项目。
模型详情
- 微调自:meta-llama/Llama-2-7b-hf
- 模型类型:因果解码器专用变压器语言模型
- 语言:英语和德语
- 许可:LLAMA 2社区许可协议
- 联系方式:LAION Discord或Bj√∂rn Pl√ºster
在ü§óTransformers中使用
首先安装直接依赖:
pip install transformers torch sentencepiece
如果想使用flash-attention2进行更快的推理,需要安装以下依赖:
pip install packaging ninja
pip install flash-attn==v2.1.1 --no-build-isolation
pip install git+https://github.com/HazyResearch/flash-attention.git@v2.1.1#subdirectory=csrc/rotary
然后在transformers中加载模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model = AutoModelForCausalLM.from_pretrained(
model="LeoLM/leo-hessianai-7b",
device_map="auto",
torch_dtype=torch.float16,
trust_remote_code=True # 使用flash-attn2时为True,否则为False
)
训练参数
基准测试


