LeoLM开源基础语言模型 - 免费商用专注德语文本生成，支持8k上下文

首页

Leo Mistral Hessianai 7b Chat

由 LeoLM 开发

LeoLM是基于Mistral架构构建的首个德语开源商用基础语言模型，支持8k上下文长度，专注于德语文本生成任务。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #德语对话模型 #8k长上下文 #多轮对话优化

下载量 266

发布时间 : 10/6/2023

模型简介

该模型是LeoLM系列中的对话模型，经过精选德语指令数据集微调而成，擅长写作、解释和讨论任务，但在数学和高级推理方面表现一般。

模型特点

德语优化

专门针对德语进行持续预训练和微调，在德语文本生成任务上表现优异

长上下文支持

支持8k tokens的上下文长度，适合处理长文档和复杂对话

商用许可

采用Apache-2.0许可证，允许商业用途

对话优化

使用ChatML格式模板，特别适合构建对话系统

模型能力

德语文本生成

多轮对话处理

内容创作

信息解释

角色扮演

使用案例

内容创作

德语文章写作

生成各类德语文章、报告和创意写作

在MT-Bench-DE评估中获得写作类6.8分

诗歌创作

生成德语诗歌和歌词

基于German_Poems和German_Songs数据集微调

对话系统

客服机器人

构建德语客户服务对话系统

支持多轮对话处理

教育助手

作为德语学习辅助工具

在人文社科类任务中获得8.25高分

🚀 LAION LeoLM：语言增强型开放语言模型

LAION LeoLM 是首个基于 Llama - 2 和 Mistral 构建的、开放且可用于商业用途的德语基础语言模型。该模型通过在大量德语语料库（主要是特定地区文本）上持续预训练，将 Llama - 2 的能力拓展到了德语领域。

得益于黑森州人工智能中心（HessianAI）新超级计算机“42”的计算资源支持，我们发布了三个上下文长度为 8k 的基础模型。其中，[LeoLM/leo - mistral - hessianai - 7b](https://huggingface.co/LeoLM/leo - mistral - hessianai - 7b) 采用 Apache 2.0 许可证，[LeoLM/leo - hessianai - 7b](https://huggingface.co/LeoLM/leo - hessianai - 7b) 和 [LeoLM/leo - hessianai - 13b](https://huggingface.co/LeoLM/leo - hessianai - 13b) 采用 [Llama - 2 社区许可证](https://huggingface.co/meta - llama/Llama - 2 - 70b/raw/main/LICENSE.txt)（70b 版本也即将推出！👀）。我们希望此次发布能为德语开源和商业大语言模型研究带来新机遇，并加速其应用推广。

更多详情请阅读我们的 [博客文章](https://laion.ai/blog/leo - lm/) 或论文（预印本即将发布）。

本项目由 Björn Plüster 和 Christoph Schuhmann 与 LAION 和 HessianAI 合作完成。

🚀 快速开始

✨ 主要特性

语言能力拓展：将 Llama - 2 的能力拓展到德语领域，支持德语的文本生成任务。
多模型发布：发布了三个具有 8k 上下文长度的基础模型，满足不同场景需求。
商业可用：部分模型采用开放的商业许可证，便于商业应用。

📦 安装指南

安装直接依赖

pip install transformers torch sentencepiece

若要使用 flash - attention2 进行更快推理，需安装以下依赖

pip install packaging ninja
pip install flash-attn

💻 使用示例

基础用法

from transformers import pipeline
import torch

system_prompt = """Dies ist eine Unterhaltung zwischen einem intelligenten, hilfsbereitem KI-Assistenten und einem Nutzer.
Der Assistent gibt ausführliche, hilfreiche und ehrliche Antworten."""

prompt_format = "<|im_start|>system\n{system_prompt}<|im_end|>\n<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n"
prompt = "Erkläre mir wie die Fahrradwegesituation in Hamburg ist."

generator = pipeline(model="LeoLM/leo-mistral-hessianai-7b-chat", device="cuda", torch_dtype=torch.float16, use_flash_attention_2=True) # True for flash-attn2 else False
print(generator(prompt_format.format(system_prompt=system_prompt, prompt=prompt), do_sample=True, top_p=0.95, max_length=8192))

📚 详细文档

LeoLM Chat

LeoLM/leo - mistral - hessianai - 7b - chat 是基于基础模型 LeoLM/leo - mistral - hessianai - 7b 构建的德语聊天模型，并在部分德语指令数据集上进行了微调。该模型在写作、解释和讨论任务上表现出色，但在数学和高级推理方面存在一定挑战。以下是其 MT - Bench - DE 评分：

{
  "first_turn": 6.1,
  "second_turn": 4.7,
  "categories": {
      "writing": 6.8,
      "roleplay": 6.35,
      "reasoning": 3.3,
      "math": 2.75,
      "coding": 4.4,
      "extraction": 4.5,
      "stem": 6.85,
      "humanities": 8.25
  },
  "average": 5.4
}

模型详情

属性	详情
微调基础模型	[LeoLM/leo - mistral - hessianai - 7b](https://huggingface.co/LeoLM/leo - hessianai - 7b)
模型类型	因果解码器型Transformer语言模型
支持语言	英语和德语
演示	网页演示即将推出！
许可证	[Apache 2.0](https://www.apache.org/licenses/LICENSE - 2.0.html)
联系方式	LAION Discord 或 Björn Plüster

提示模板

提示对话模板（ChatML 格式）：

"""
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
"""

模型输入可以包含用户和助手之间的多轮对话，例如：

<|im_start|>user
{prompt 1}<|im_end|>
<|im_start|>assistant
{reply 1}<|im_end|>
<|im_start|>user
{prompt 2}<|im_end|>
<|im_start|>assistant
(...)

🔧 技术细节

微调详情

超参数	值
训练轮数	4
每轮样本数	131214
全局批次大小	256
学习率	1e - 5
预热步数	100
学习率调度器	Cosine
Adam 系数	(0.9, 0.95)

数据集详情

## Stats for 'Subset of OpenAssistant/OASST-DE' (3534 samples (100.0%))
-----------------
  Accepted: 3534/3534 (100.0%)
  Accepted tokens: 2259302
  Skipped: 0 (0.0%)
  Min tokens per sample: 29
  Max tokens per sample: 2484
  Avg tokens per sample: 639.3044708545557
-----------------

## Stats for 'Subset of FreedomIntelligence/evol-instruct-deutsch' (57841 samples (100.0%))
-----------------
  Accepted: 57841/57841 (100.0%)
  Accepted tokens: 42958192
  Skipped: 0 (0.0%)
  Min tokens per sample: 33
  Max tokens per sample: 5507
  Avg tokens per sample: 742.6944900675991
-----------------

## Stats for 'Subset of FreedomIntelligence/alpaca-gpt4-deutsch' (48969 samples (100.0%))
-----------------
  Accepted: 48969/48969 (100.0%)
  Accepted tokens: 13372005
  Skipped: 0 (0.0%)
  Min tokens per sample: 19
  Max tokens per sample: 1359
  Avg tokens per sample: 273.07082031489307
-----------------

## Stats for 'Subset of LeoLM/OpenSchnabeltier' (21314 samples (100.0%))
-----------------
  Accepted: 21314/21314 (100.0%)
  Accepted tokens: 8134690
  Skipped: 0 (0.0%)
  Min tokens per sample: 25
  Max tokens per sample: 1202
  Avg tokens per sample: 381.65947264708643
-----------------

## Stats for 'Subset of LeoLM/German_Poems' (490 samples (100.0%))
-----------------
  Accepted: 490/490 (100.0%)
  Accepted tokens: 618642
  Skipped: 0 (0.0%)
  Min tokens per sample: 747
  Max tokens per sample: 1678
  Avg tokens per sample: 1262.534693877551
-----------------

## Stats for 'Subset of LeoLM/German_Songs' (392 samples (100.0%))
-----------------
  Accepted: 392/392 (100.0%)
  Accepted tokens: 187897
  Skipped: 0 (0.0%)
  Min tokens per sample: 231
  Max tokens per sample: 826
  Avg tokens per sample: 479.3290816326531
-----------------

## Stats for 'total' (132540 samples (100.0%))
-----------------
  Accepted: 132540/132540 (100.0%)
  Accepted tokens: 67530728
  Skipped: 0 (0.0%)
  Min tokens per sample: 19
  Max tokens per sample: 5507
  Avg tokens per sample: 509.51205673758864
-----------------

📄 许可证

本项目采用 [Apache 2.0](https://www.apache.org/licenses/LICENSE - 2.0.html) 许可证。

⚠️ 重要提示

LeoLM 已在英语和德语环境下进行了测试，但无法涵盖所有场景。因此，与所有大语言模型一样，LeoLM/leo - mistral - hessianai - 7b - chat 的输出结果无法提前预测，模型在某些情况下可能会产生不准确、有偏差或其他令人反感的回复。在部署 LeoLM/leo - mistral - hessianai - 7b - chat 的任何应用之前，开发者应针对具体应用进行安全测试和调优。

请参阅 Meta 的 [负责任使用指南](https://ai.meta.com/llama/responsible - use - guide/)。