F

Fox 1 1.6B

由 tensoropera 开发
Fox-1-1.6B是由TensorOpera AI开发的16亿参数小型语言模型,采用分组查询注意力机制,训练数据达3万亿文本和代码。
下载量 1,741
发布时间 : 6/13/2024

模型简介

Fox-1-1.6B是一个基于解码器的小型语言模型,适用于文本生成和代码理解任务。它经过3阶段数据课程训练,支持8K序列长度。

模型特点

高效注意力机制
采用分组查询注意力(GQA),4个键值头和16个注意力头,提升推理速度
大规模训练数据
使用3万亿文本和代码数据进行3阶段课程训练
长序列支持
支持8K长度的序列处理

模型能力

文本生成
代码理解
少样本学习

使用案例

自然语言处理
文本生成
生成连贯的文本内容
问答系统
构建知识问答应用
编程辅助
代码补全
辅助程序员完成代码编写
AIbase
智启未来,您的人工智能解决方案智库
简体中文