Fox-1-1.6B开源小型语言模型 - 借助海量数据免费实现文本代码处理

首页

Fox 1 1.6B

由 tensoropera 开发

Fox-1-1.6B是由TensorOpera AI开发的16亿参数小型语言模型，采用分组查询注意力机制，训练数据达3万亿文本和代码。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #8K长序列处理 #分组查询注意力 #代码文本预训练

下载量 1,741

发布时间 : 6/13/2024

模型简介

Fox-1-1.6B是一个基于解码器的小型语言模型，适用于文本生成和代码理解任务。它经过3阶段数据课程训练，支持8K序列长度。

模型特点

高效注意力机制

采用分组查询注意力(GQA)，4个键值头和16个注意力头，提升推理速度

大规模训练数据

使用3万亿文本和代码数据进行3阶段课程训练

长序列支持

支持8K长度的序列处理

模型能力

文本生成

代码理解

少样本学习

使用案例

自然语言处理

文本生成

生成连贯的文本内容

问答系统

构建知识问答应用

编程辅助

代码补全

辅助程序员完成代码编写

🚀 Fox-1-1.6B 模型

Fox-1-1.6B 是由 TensorOpera AI 开发的基于解码器的小型语言模型（SLM），总参数为 16 亿。该模型使用 3 阶段数据课程在 3 万亿文本和代码数据上进行训练，序列长度达 8K。它采用了分组查询注意力机制（GQA），有 4 个键值头和 16 个注意力头，以实现更快的推理。

🚀 快速开始

⚠️ 重要提示

此模型是一个基础预训练模型，对于大多数用例，需要进一步微调。为了获得更具交互性的体验，我们推荐使用 tensoropera/Fox-1-1.6B-Instruct-v0.1，这是 Fox-1 的指令调优版本。

如需了解该模型的完整细节，请阅读 Fox-1 技术报告和发布博客文章。

✨ 主要特性

参数规模：总参数 16 亿，属于小型语言模型。
训练数据：使用 3 阶段数据课程在 3 万亿文本和代码数据上进行训练，序列长度为 8K。
注意力机制：采用分组查询注意力（GQA），4 个键值头和 16 个注意力头，加快推理速度。

📚 详细文档

基准测试

我们在 ARC Challenge（25 次少样本）、HellaSwag（10 次少样本）、TruthfulQA（0 次少样本）、MMLU（5 次少样本）、Winogrande（5 次少样本）和 GSM8k（5 次少样本）上对 Fox-1 进行了评估。我们遵循 Open LLM Leaderboard 的评估设置，并报告了这 6 个基准测试的平均得分。该模型在配备 8 个 H100 GPU 的机器上进行评估。

	Fox-1-1.6B	Qwen-1.5-1.8B	Gemma-2B	StableLM-2-1.6B	OpenELM-1.1B
GSM8k	36.39%	34.04%	17.06%	17.74%	2.27%
MMLU	43.05%	47.15%	41.71%	39.16%	27.28%
ARC Challenge	41.21%	37.20%	49.23%	44.11%	36.26%
HellaSwag	62.82%	61.55%	71.60%	70.46%	65.23%
TruthfulQA	38.66%	39.37%	33.05%	38.77%	36.98%
Winogrande	60.62%	65.51%	65.51%	65.27%	61.64%
Average	47.13%	46.81%	46.36%	45.92%	38.28%

Open LLM Leaderboard 评估结果

详细结果可查看此处

指标	值
平均值	7.69
IFEval (0 次少样本)	27.66
BBH (3 次少样本)	7.40
MATH Lvl 5 (4 次少样本)	1.28
GPQA (0 次少样本)	1.79
MuSR (0 次少样本)	3.87
MMLU-PRO (5 次少样本)	4.13