模型信息卡:Teuken-7B-instruct-commercial-v0.4
Teuken-7B-instruct-commercial-v0.4 是一款经过指令调优的70亿参数多语言大语言模型(LLM),基于4万亿token的预训练数据,涵盖欧盟24种官方语言,由研究项目OpenGPT-X在Apache 2.0许可下发布。基础模型Teuken-7B-base-v0.4可通过邮件📧 contact@opengpt-x.de申请获取。
模型描述
- 开发团队: 弗劳恩霍夫协会、于利希研究中心、德累斯顿工业大学、德国人工智能研究中心
- 资助方: 德国联邦经济事务和气候保护部(BMWK)OpenGPT-X项目
- 模型类型: 基于Transformer的解码器架构
- 支持语言: bg, cs, da, de, el, en, es, et, fi, fr, ga, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv
- 发布方: OpenGPT-X
用途
本模型专为欧盟24种官方语言的商业和研究场景设计。相比以英语为中心的模型,它在多语言任务中表现更稳定,答案更贴合欧洲价值观。
毒性内容免责声明
尽管已对训练数据进行过滤,但由于数据规模庞大且多样性复杂,模型仍可能生成不当、冒犯性或有害内容。
非适用场景
本模型不适用于数学和编程任务。
偏差、风险与局限性
作为Teuken-7B-base-v0.4的指令调优版本(基础模型需邮件申请),该模型仍存在一定偏见和幻觉问题。
快速开始
安装依赖
python -m pip install numpy torch huggingface_hub transformers sentencepiece
使用示例
必须使用预设的提示模板(示例为德语):
user="Hi!"
lang_code = "DE"
system_messages={
"EN": "人类与AI助手的对话。助手需提供礼貌有帮助的回答",
"DE": "Menschlicher Dialog mit KI-Assistent. Der Assistent antwortet höflich und hilfreich."
}
prompt = f"System: {system_messages[lang_code]}\nUser: {user}\nAssistant:"
集成模板的完整调用示例:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = AutoModelForCausalLM.from_pretrained(
"openGPT-X/Teuken-7B-instruct-commercial-v0.4",
trust_remote_code=True,
torch_dtype=torch.bfloat16,
).to(device).eval()
tokenizer = AutoTokenizer.from_pretrained(
"openGPT-X/Teuken-7B-instruct-commercial-v0.4",
use_fast=False,
trust_remote_code=True,
)
messages = [{"role": "User", "content": "Wer bist du?"}]
prompt_ids = tokenizer.apply_chat_template(messages, chat_template="DE", tokenize=True, add_generation_prompt=True, return_tensors="pt")
prediction = model.generate(
prompt_ids.to(device),
max_length=512,
do_sample=True,
top_k=50,
top_p=0.95,
temperature=0.7
)
print(tokenizer.decode(prediction[0]))
vLLM服务部署
启动服务:
vllm serve openGPT-X/Teuken-7B-instruct-commercial-v0.4 --trust-remote-code
API调用示例:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
completion = client.chat.completions.create(
model="openGPT-X/Teuken-7B-instruct-commercial-v0.4",
messages=[{"role": "User", "content": "Hallo"}],
extra_body={"chat_template":"DE"}
)
训练详情
预训练数据
基于2023年9月前的4万亿token公开数据,详见论文"Data Processing for the OpenGPT-X Model Family"。
指令微调数据
包含三类数据:
- 英语数据:精选OpenOrca等数据集的高质量样本
- 德语数据:使用ALMA-13B模型翻译英语数据(代码片段保留原文)
- 多语言数据:整合aya_dataset等资源的21种欧盟语言数据
完整数据集构成及许可信息见原始文档表格。
评估结果
在21种欧洲语言的基准测试中表现:
模型 |
平均分 |
EU21-ARC |
EU21-HeSw |
EU21-TQA |
EU21-MMLU |
本模型 |
0.531 |
0.569 |
0.620 |
0.503 |
0.430 |
更多评估详见论文"Towards Multilingual LLM Evaluation"和欧洲LLM排行榜。
技术规格
模型架构
参数 |
值 |
层数 |
32 |
隐藏层维度 |
4096 |
注意力头数 |
32 |
序列长度 |
4096 |
优化器 |
AdamW |
学习率 |
3e-4 |
计算基础设施
使用JUWELS Booster超算训练,每个节点配备:
- 4×NVIDIA A100 40GB GPU
- AMD EPYC Rome CPU
- 512GB内存
- HDR-200 InfiniBand网络
引用
若用于研究,请引用:
@misc{ali2024teuken7bbaseteuken7binstructeuropean,
title={Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs},
author={Mehdi Ali et al.},
year={2024},
eprint={2410.03730},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2410.03730}
}
团队与协作
核心团队来自德国多家研究机构,欢迎通过Discord社区参与协作。
联系方式: