🚀 Helium-1-2b
Helium-1-2b 是一款轻量级语言模型,拥有 20 亿参数,专为边缘和移动设备设计。它支持欧盟的 24 种官方语言,可用于自然语言处理系统的研究与开发。
🚀 快速开始
使用以下代码开始使用该模型:
import torch
from transformers import pipeline
model_id = "kyutai/helium-1-2b"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
text = pipe("Hello, today is a great day to")
✨ 主要特性
- 轻量级设计:仅 20 亿参数,适合边缘和移动设备。
- 多语言支持:支持欧盟的 24 种官方语言。
- 广泛应用:可用于自然语言处理系统的研究与开发。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
import torch
from transformers import pipeline
model_id = "kyutai/helium-1-2b"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
text = pipe("Hello, today is a great day to")
📚 详细文档
模型描述
Helium-1 是一款轻量级语言模型,拥有 20 亿参数,目标是应用于边缘和移动设备。它支持欧盟的 24 种官方语言。
⚠️ Helium-1 是基础模型,未经过微调以遵循指令或人类偏好。对于大多数下游用例,该模型应通过有监督微调、基于人类反馈的强化学习(RLHF)或相关方法进行对齐。
属性 |
详情 |
开发者 |
Kyutai |
模型类型 |
大语言模型 |
支持语言(NLP) |
保加利亚语、捷克语、丹麦语、德语、希腊语、英语、西班牙语、爱沙尼亚语、芬兰语、法语、爱尔兰语、克罗地亚语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、马耳他语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、瑞典语 |
许可证 |
CC-BY-SA 4.0 |
使用条款 |
作为从 Gemma 2 蒸馏而来的模型,Helium 1 需遵守 ai.google.dev/gemma/terms 上的 Gemma 使用条款 |
使用方式
直接使用
Helium 模型旨在用于自然语言处理系统的研究和开发,包括但不限于语言生成和理解。该模型可用于保加利亚语、捷克语、丹麦语、德语、希腊语、英语、西班牙语、爱沙尼亚语、芬兰语、法语、爱尔兰语、克罗地亚语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、马耳他语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、瑞典语。对于大多数下游用例,该模型应通过有监督微调、RLHF 或相关方法进行对齐。
非预期使用
该模型不应在其训练语言之外的其他语言中使用。该模型不应用于任何恶意或非法活动。该模型未经过微调以遵循指令,因此不应作为指令遵循模型使用。
偏差、风险和局限性
Helium-1 是基础语言模型,未与人类偏好对齐。因此,该模型可能会生成不正确、有偏差、有害或通常无用的内容。因此,在没有进一步对齐、评估和风险缓解的情况下,该模型不应用于下游应用。
训练详情
训练数据
Helium-1 在来自 Common Crawl 的数据上进行训练,这些数据使用 dactory 库进行了预处理。
评估
测试数据
该模型在 MMLU、TriviaQA、NaturalQuestions、ARC Easy & Challenge、Open Book QA、Common Sense QA、Physical Interaction QA、Social Interaction QA、HellaSwag、WinoGrande、Multilingual Knowledge QA、FLORES 200 上进行了评估。
评估指标
我们报告了 MMLU、ARC、OBQA、CSQA、PIQA、SIQA、HellaSwag、WinoGrande 的准确率。我们报告了 TriviaQA、NQ 和 MKQA 的精确匹配率。我们报告了 FLORES 的 BLEU 分数。
英文评估结果
基准测试 |
Helium-1 |
HF SmolLM2 (1.7B) |
Gemma-2 (2.6B) |
Llama-3.2 (3B) |
Qwen2.5 (1.5B) |
MMLU |
52.0 |
50.4 |
53.1 |
56.6 |
61.0 |
NQ |
16.5 |
15.1 |
17.7 |
22.0 |
13.1 |
TQA |
46.5 |
45.4 |
49.9 |
53.6 |
35.9 |
ARC E |
82.2 |
81.8 |
81.1 |
84.6 |
89.7 |
ARC C |
64.6 |
64.7 |
66.0 |
69.0 |
77.2 |
OBQA |
65.4 |
61.4 |
64.6 |
68.4 |
73.8 |
CSQA |
63.6 |
59.0 |
64.4 |
65.4 |
72.4 |
PIQA |
78.5 |
77.7 |
79.8 |
78.9 |
76.0 |
SIQA |
62.3 |
57.5 |
61.9 |
63.8 |
68.7 |
HS |
73.6 |
73.2 |
74.7 |
76.9 |
67.5 |
WG |
66.9 |
65.6 |
71.2 |
72.0 |
64.8 |
平均 |
61.1 |
59.3 |
62.2 |
64.7 |
63.6 |
多语言评估结果
基准测试 |
Helium-1 |
Gemma-2 (2.6B) |
Llama-3.2 (3B) |
ARC E |
71.1 |
65.8 |
68.2 |
ARC C |
54.8 |
51.1 |
52.6 |
MMLU |
44.8 |
43.1 |
45.3 |
HS |
51.9 |
49.9 |
48.4 |
FLORES |
20.6 |
21.9 |
19.8 |
MKQA |
16.5 |
17.2 |
19.7 |
平均 |
43.3 |
41.5 |
42.3 |
🔧 技术细节
模型架构和目标
超参数 |
值 |
模型维度 |
2048 |
MLP 维度 |
8192 |
层数 |
28 |
头数 |
16 |
RoPE theta |
20,000 |
上下文大小 |
4096 |
最大学习率 |
2.4e-04 |
总步数 |
500,000 |
权重衰减 |
0.1 |
梯度裁剪 |
1.0 |
硬件
该模型在 64 个 NVIDIA H100 Tensor Core GPU 上进行训练。
软件
该模型使用 Jax 进行训练。
📄 许可证
CC-BY-SA 4.0
📖 引用
博客文章:Helium 1: a modular and multilingual LLM。