leo-hessianai-7B-GGUF开源德语语言模型 - 扩展Llama-2德语能力轻松交流

首页

Leo Hessianai 7B GGUF

由 TheBloke 开发

LeoLM是首个基于Llama-2构建的开放且可商用的德语基础语言模型，通过大量德语文本的持续预训练扩展了Llama-2的德语能力。

大型语言模型

Transformers

支持多种语言#德语增强 #多语言支持 #长上下文处理

下载量 497

发布时间 : 9/28/2023

模型简介

Leo Hessianai 7B是基于Llama-2构建的德语语言模型，支持英语和德语，适用于文本生成任务。

模型特点

德语优化

通过大量德语文本的持续预训练，显著提升了Llama-2的德语能力。

8k上下文长度

支持长达8k的上下文长度，适合处理长文本。

开源商用

遵循Llama-2社区许可，可用于商业和研究用途。

模型能力

德语文本生成

英语文本生成

长文本处理

使用案例

语言处理

德语内容创作

生成高质量的德语文本内容，如文章、报告等。

多语言应用

支持英语和德语的双语文本生成和处理。

🚀 Leo Hessianai 7B - GGUF

本项目提供了 LAION LeoLM的Leo Hessianai 7B 模型的GGUF格式文件，方便用户在不同环境中进行推理。

交流与支持：TheBloke的Discord服务器

想要贡献？TheBloke的Patreon页面

TheBloke的大语言模型工作得到了 andreessen horowitz (a16z) 的慷慨资助

🚀 快速开始

本仓库包含 LAION LeoLM的Leo Hessianai 7B 的GGUF格式模型文件。

✨ 主要特性

关于GGUF

GGUF是llama.cpp团队在2023年8月21日推出的一种新格式，它取代了GGML，而GGML已不再被llama.cpp支持。

以下是已知支持GGUF的客户端和库的不完全列表：

llama.cpp：GGUF的源项目，提供了命令行界面和服务器选项。
text-generation-webui：最广泛使用的Web UI，具有许多功能和强大的扩展，支持GPU加速。
KoboldCpp：功能齐全的Web UI，支持跨所有平台和GPU架构的GPU加速，尤其适合讲故事。
LM Studio：适用于Windows和macOS（Silicon）的易于使用且功能强大的本地GUI，支持GPU加速。
LoLLMS Web UI：一个很棒的Web UI，具有许多有趣和独特的功能，包括一个完整的模型库，便于模型选择。
Faraday.dev：一个有吸引力且易于使用的基于角色的聊天GUI，适用于Windows和macOS（Silicon和Intel），支持GPU加速。
ctransformers：一个支持GPU加速、LangChain和OpenAI兼容AI服务器的Python库。
llama-cpp-python：一个支持GPU加速、LangChain和OpenAI兼容API服务器的Python库。
candle：一个Rust机器学习框架，注重性能，包括GPU支持和易用性。

可用仓库

提示模板

{prompt}

兼容性

这些量化的GGUFv2文件与2023年8月27日之后的llama.cpp版本兼容，对应提交版本为 d0cee0d。

它们也与许多第三方UI和库兼容，请参阅本README顶部的列表。

量化方法解释

点击查看详情

可用的新方法如下：

GGML_TYPE_Q2_K：“type-1” 2位量化，超级块包含16个块，每个块有16个权重。块的缩放和最小值用4位量化，最终每个权重有效使用2.5625位（bpw）。
GGML_TYPE_Q3_K：“type-0” 3位量化，超级块包含16个块，每个块有16个权重。缩放用6位量化，最终使用3.4375 bpw。
GGML_TYPE_Q4_K：“type-1” 4位量化，超级块包含8个块，每个块有32个权重。缩放和最小值用6位量化，最终使用4.5 bpw。
GGML_TYPE_Q5_K：“type-1” 5位量化，与GGML_TYPE_Q4_K的超级块结构相同，最终使用5.5 bpw。
GGML_TYPE_Q6_K：“type-0” 6位量化，超级块有16个块，每个块有16个权重。缩放用8位量化，最终使用6.5625 bpw。

请参考下面的“提供的文件”表，了解哪些文件使用了哪些方法以及如何使用。

📦 安装指南

如何下载GGUF文件

手动下载者注意：你几乎不需要克隆整个仓库！这里提供了多种不同的量化格式，大多数用户只需要选择并下载单个文件。

以下客户端/库会自动为你下载模型，并提供可用模型列表供你选择：

LM Studio
LoLLMS Web UI
Faraday.dev

在 `text-generation-webui` 中

在“下载模型”下，你可以输入模型仓库地址：TheBloke/leo-hessianai-7B-GGUF，并在其下方输入要下载的特定文件名，例如：leo-hessianai-7b.Q4_K_M.gguf。然后点击“下载”。

在命令行中，包括一次下载多个文件

我建议使用 huggingface-hub Python库：

pip3 install huggingface-hub

然后你可以使用如下命令将任何单个模型文件高速下载到当前目录：

huggingface-cli download TheBloke/leo-hessianai-7B-GGUF leo-hessianai-7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

更高级的huggingface-cli下载用法

你也可以使用通配符一次下载多个文件：

huggingface-cli download TheBloke/leo-hessianai-7B-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

有关使用 huggingface-cli 下载的更多文档，请参阅：HF -> Hub Python Library -> 下载文件 -> 从命令行下载。

要在高速连接（1Gbit/s或更高）上加速下载，请安装 hf_transfer：

pip3 install hf_transfer

并将环境变量 HF_HUB_ENABLE_HF_TRANSFER 设置为 1：

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/leo-hessianai-7B-GGUF leo-hessianai-7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows命令行用户：你可以在下载命令前运行 set HF_HUB_ENABLE_HF_TRANSFER=1 来设置环境变量。

💻 使用示例

示例 `llama.cpp` 命令

确保你使用的是 d0cee0d 或更高版本的llama.cpp。

./main -ngl 32 -m leo-hessianai-7b.Q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "{prompt}"

将 -ngl 32 更改为要卸载到GPU的层数。如果你没有GPU加速，请删除该参数。将 -c 4096 更改为所需的序列长度。对于扩展序列模型（例如8K、16K、32K），必要的RoPE缩放参数会从GGUF文件中读取，并由llama.cpp自动设置。

如果你想进行聊天式对话，请将 -p <PROMPT> 参数替换为 -i -ins。

有关其他参数及其使用方法，请参考 llama.cpp文档。

如何在 `text-generation-webui` 中运行

更多说明请参考：text-generation-webui/docs/llama.cpp.md。

如何从Python代码运行

你可以使用 llama-cpp-python 或 ctransformers 库从Python中使用GGUF模型。

如何使用ctransformers在Python代码中加载此模型

首先安装包

根据你的系统运行以下命令之一：

# 无GPU加速的基础ctransformers
pip install ctransformers
# 或使用CUDA GPU加速
pip install ctransformers[cuda]
# 或使用AMD ROCm GPU加速（仅适用于Linux）
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或仅适用于macOS系统的Metal GPU加速
CT_METAL=1 pip install ctransformers --no-binary ctransformers

简单的ctransformers示例代码

from ctransformers import AutoModelForCausalLM

# 将gpu_layers设置为要卸载到GPU的层数。如果你的系统没有GPU加速，请将其设置为0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/leo-hessianai-7B-GGUF", model_file="leo-hessianai-7b.Q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))

如何与LangChain一起使用

以下是使用llama-cpp-python和ctransformers与LangChain的指南：

📚 详细文档

提供的文件

名称	量化方法	位数	大小	所需最大RAM	使用场景
leo-hessianai-7b.Q2_K.gguf	Q2_K	2	2.83 GB	5.33 GB	最小，但质量损失显著，不建议用于大多数场景
leo-hessianai-7b.Q3_K_S.gguf	Q3_K_S	3	2.95 GB	5.45 GB	非常小，但质量损失高
leo-hessianai-7b.Q3_K_M.gguf	Q3_K_M	3	3.30 GB	5.80 GB	非常小，但质量损失高
leo-hessianai-7b.Q3_K_L.gguf	Q3_K_L	3	3.60 GB	6.10 GB	小，但质量损失较大
leo-hessianai-7b.Q4_0.gguf	Q4_0	4	3.83 GB	6.33 GB	旧版本；小，但质量损失非常高，建议使用Q3_K_M
leo-hessianai-7b.Q4_K_S.gguf	Q4_K_S	4	3.86 GB	6.36 GB	小，但质量损失更大
leo-hessianai-7b.Q4_K_M.gguf	Q4_K_M	4	4.08 GB	6.58 GB	中等，质量平衡，推荐使用
leo-hessianai-7b.Q5_0.gguf	Q5_0	5	4.65 GB	7.15 GB	旧版本；中等，质量平衡，建议使用Q4_K_M
leo-hessianai-7b.Q5_K_S.gguf	Q5_K_S	5	4.65 GB	7.15 GB	大，质量损失低，推荐使用
leo-hessianai-7b.Q5_K_M.gguf	Q5_K_M	5	4.78 GB	7.28 GB	大，质量损失非常低，推荐使用
leo-hessianai-7b.Q6_K.gguf	Q6_K	6	5.53 GB	8.03 GB	非常大，质量损失极低
leo-hessianai-7b.Q8_0.gguf	Q8_0	8	7.16 GB	9.66 GB	非常大，质量损失极低，不建议使用

注意：上述RAM数字假设没有GPU卸载。如果将层卸载到GPU，这将减少RAM使用，转而使用VRAM。

原始模型卡片：LAION LeoLM的Leo Hessianai 7B

LAION LeoLM：语言增强的开放语言模型

LeoLM是第一个基于Llama-2构建的开放且可商业使用的德语基础语言模型。我们的模型通过在大量德语和特定地区文本语料库上进行持续预训练，将Llama-2的能力扩展到了德语。

由于HessianAI的新超级计算机 42 提供的计算支持，我们发布了两个具有8k上下文长度的基础模型：LeoLM/leo-hessianai-7b 和 LeoLM/leo-hessianai-13b，遵循 Llama-2社区许可证（70b模型也即将推出！）。

通过这次发布，我们希望为德语开源和商业大语言模型研究带来新的机遇，并加速其应用。更多详情请阅读我们的博客文章或论文（预印本即将推出）！

该项目由Björn Plüster和Christoph Schuhmann与LAION和HessianAI合作完成。

模型详情

属性	详情
微调自	meta-llama/Llama-2-7b-hf
模型类型	因果解码器-only的Transformer语言模型
语言	英语和德语
许可证	LLAMA 2社区许可协议
联系方式	LAION Discord 或 Björn Plüster

在 `Transformers` 中使用

首先安装直接依赖项：

pip install transformers torch sentencepiece

如果你想使用flash-attention2进行更快的推理，你需要安装这些依赖项：

pip install packaging ninja
pip install flash-attn==v2.1.1 --no-build-isolation
pip install git+https://github.com/HazyResearch/flash-attention.git@v2.1.1#subdirectory=csrc/rotary

然后在transformers中加载模型：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained(
    model="LeoLM/leo-hessianai-7b",
    device_map="auto",
    torch_dtype=torch.float16,
    trust_remote_code=True  # 对于flash-attn2为True，否则为False
)

训练参数

基准测试

📄 许可证

本项目模型遵循 LLAMA 2社区许可协议。

其他信息

Discord

如需进一步支持，以及讨论这些模型和人工智能相关内容，请加入我们的 TheBloke AI的Discord服务器。

感谢与贡献方式

感谢 chirper.ai 团队！感谢来自 gpus.llm-utils.org 的Clay！

很多人问是否可以贡献。我喜欢提供模型并帮助他人，也希望能有更多时间做这些事情，以及开展新的项目，如微调/训练。

如果你有能力且愿意贡献，我将不胜感激，这将帮助我继续提供更多模型，并开展新的人工智能项目。

捐赠者将在所有人工智能/大语言模型/模型问题和请求上获得优先支持，访问私人Discord房间，以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特别感谢：Aemon Algiz。

Patreon特别提及：Pierre Kircher, Stanislav Ovsiannikov, Michael Levine, Eugene Pentland, Andrey, Ï§ÄÍµê ÍπÄ, Randy H, Fred von Graf, Artur Olbinski, Caitlyn Gatomon, terasurfer, Jeff Scroggin, James Bentley, Vadim, Gabriel Puliatti, Harry Royden McLaughlin, Sean Connelly, Dan Guido, Edmond Seymore, Alicia Loh, subjectnull, AzureBlack, Manuel Alberto Morcote, Thomas Belote, Lone Striker, Chris Smitley, Vitor Caleffi, Johann-Peter Hartmann, Clay Pascal, biorpg, Brandon Frisco, sidney chen, transmissions 11, Pedro Madruga, jinyuan sun, Ajan Kanaga, Emad Mostaque, Trenton Dambrowitz, Jonathan Leane, Iucharbius, usrbinkat, vamX, George Stoitzev, Luke Pendergrass, theTransient, Olakabola, Swaroop Kallakuri, Cap'n Zoog, Brandon Phillips, Michael Dempsey, Nikolai Manek, danny, Matthew Berman, Gabriel Tamborski, alfie_i, Raymond Fosdick, Tom X Nguyen, Raven Klaugh, LangChain4j, Magnesian, Illia Dulskyi, David Ziegler, Mano Prime, Luis Javier Navarrete Lozano, Erik Bj√§reholt, ÈòøÊòé, Nathan Dryer, Alex, Rainer Wilmers, zynix, TL, Joseph William Delisle, John Villwock, Nathan LeClaire, Willem Michiel, Joguhyik, GodLy, OG, Alps Aficionado, Jeffrey Morgan, ReadyPlayerEmma, Tiffany J. Kim, Sebastain Graf, Spencer Kim, Michael Davis, webtim, Talal Aujan, knownsqashed, John Detwiler, Imad Khwaja, Deo Leter, Jerry Meng, Elijah Stavena, Rooh Singh, Pieter, SuperWojo, Alexandros Triantafyllidis, Stephen Murray, Ai Maven, ya boyyy, Enrico Ros, Ken Nordquist, Deep Realms, Nicholas, Spiking Neurons AB, Elle, Will Dee, Jack West, RoA, Luke @flexchar, Viktor Bowallius, Derek Yates, Subspace Studios, jjj, Toran Billups, Asp the Wyvern, Fen Risland, Ilya, NimbleBox.ai, Chadd, Nitin Borwankar, Emre, Mandus, Leonard Tan, Kalila, K, Trailburnt, S_X, Cory Kujawski

感谢所有慷慨的赞助者和捐赠者！再次感谢a16z的慷慨资助。