extra_gated_heading: 访问此模型需向Databricks提供联系信息
extra_gated_prompt: >-
DBRX使用条款
DBRX的使用受Databricks开放模型许可证和Databricks开放模型可接受使用政策约束。
extra_gated_fields:
名字: 文本
姓氏: 文本
组织机构: 文本
获取基础模型的用途: 文本
点击下方"提交"即表示我接受许可条款,并同意所提供信息将根据Databricks隐私声明进行收集、存储、处理和共享,且我理解可随时更新偏好设置: 复选框
extra_gated_description: >-
您提供的信息将根据Databricks隐私声明进行收集、存储、处理和共享。
extra_gated_button_content: 提交
inference: false
license: other
license_name: databricks-open-model-license
license_link: https://www.databricks.com/legal/open-model-license
tags:
DBRX基础版
- DBRX基础版是Databricks从头训练的混合专家(MoE)大语言模型
- 我们在开放许可证下同时发布了预训练基础模型DBRX Base和用于多轮交互的微调版本DBRX Instruct
- 当前仓库为DBRX Base版本,DBRX Instruct模型请访问此处
- 完整技术细节请参阅我们的技术博客
模型概览
DBRX是基于Transformer架构的仅解码器大语言模型(LLM),采用下一词预测方式训练。其特点包括:
- 采用细粒度混合专家架构,总参数量1320亿,其中360亿参数对任意输入激活
- 在12万亿文本和代码token上预训练
- 相比Mixtral-8x7B等开源MoE模型,DBRX使用16个专家选4的细粒度结构(其他模型多为8选2),专家组合可能性提升65倍
- 采用RoPE位置编码、GLU门控线性单元和GQA分组查询注意力机制
- 使用改进版GPT-4分词器(基于tiktoken实现)
训练数据方面:
- 使用32K上下文窗口在12万亿精选token上预训练
- 数据质量较MPT模型训练集提升2倍以上
- 采用Databricks全栈工具(Apache Spark™、Unity Catalog等)进行数据处理
- 通过课程学习策略动态调整数据混合比例
技术规格:
使用方式
可通过以下途径使用DBRX模型:
- HuggingFace下载(基础版当前仓库,指令微调版见此)
- GitHub模型仓库访问
- 通过Databricks基础模型API使用企业级部署
- 使用LLM-Foundry进行微调(参见文档)
快速入门
注意:当前为未微调的基础版,仅支持文本补全任务
如需交互式聊天模型请使用DBRX Instruct
运行要求:
- 约264GB内存
- 安装transformers≥4.40.0:
pip install "transformers>=4.40.0"
加速下载(可选):
pip install hf_transfer
export HF_HUB_ENABLE_HF_TRANSFER=1
多GPU运行示例:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("databricks/dbrx-base", token="hf_YOUR_TOKEN")
model = AutoModelForCausalLM.from_pretrained("databricks/dbrx-base",
device_map="auto",
torch_dtype=torch.bfloat16,
token="hf_YOUR_TOKEN")
input_text = "Databricks成立于"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))
支持FlashAttention2加速(需GPU支持):
在from_pretrained()中添加参数attn_implementation="flash_attention_2"
限制与伦理考量
训练数据限制
- 知识截止日期:2023年12月
- 主要支持英语,未测试其他语言能力
- 不支持多模态输入
风险提示
所有基础模型均可能存在生成不准确、有偏见或不适当内容的风险。建议:
- 关键场景结合RAG技术使用
- 针对具体应用领域进行安全测试
- 输出内容需人工审核
适用场景
推荐用途
- 通用英语文本补全
- 代码生成与补全
- 商业与研究领域的二次微调
不适用场景
- 非英语场景直接使用
- 任何违反使用条款的行为(详见许可证)
训练技术栈
DBRX训练依托Databricks自研基础设施,关键技术组件包括:
- Composer:优化训练循环、检查点、日志记录
- Streaming:云端大规模数据集处理
- Megablocks:高效MoE训练支持
- LLM Foundry:端到端训练流程整合
评估表现
在以下基准测试中超越主流开源模型:
- Databricks Model Gauntlet(30+任务跨6大类别)
- Hugging Face开放LLM排行榜(综合6项测试)
- HumanEval(代码能力评估)
详细评估结果参见技术博客
致谢
特别感谢开源社区贡献:
- MegaBlocks:MoE实现基础
- PyTorch FSDP:分布式训练框架
- 及其他相关技术项目