language:
- en
inference: false
tags:
- pytorch
- causal-lm
- Cerebras
- BTLM
datasets:
- cerebras/SlimPajama-627B
- Anthropic/hh-rlhf
pipeline_tag: text-generation
license: apache-2.0
BTLM-3B-8k-chat 模型
BTLM-3B-8k-chat 是基于 BTLM-3B-8K-base 模型开发的对话版本,采用 DPO 方法在 Anthropic-HH-RLHF 数据集上训练而成。该模型专为符合人类偏好而优化,适用于对话场景。
核心亮点
BTLM-3B-8k-chat 具有以下优势:
- 商用许可(Apache 2.0协议)
- 在10项下游任务和MMLU基准上较基础模型提升2.26%
- 增强的对话能力
- 降低有害性,提升实用性
使用指南
注意:由于Transformers未全面支持muP,加载BTLM-3B-8k-chat需使用自定义模型类。用户需选择:(1)加载时启用trust_remote_code=True
参数 或 (2)接受模型加载时的代码执行警告。
使用generate()方法:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("cerebras/btlm-3b-8k-chat")
model = AutoModelForCausalLM.from_pretrained("cerebras/btlm-3b-8k-chat", trust_remote_code=True, torch_dtype="auto")
prompt = "爱因斯坦以"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(
**inputs,
num_beams=5,
max_new_tokens=50,
early_stopping=True,
no_repeat_ngram_size=2
)
generated_text = tokenizer.batch_decode(outputs, skip_special_tokens=True)
print(generated_text[0])
使用pipeline方式:
from transformers import AutoTokenizer, AutoModelForCausalLM
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("cerebras/btlm-3b-8k-chat")
model = AutoModelForCausalLM.from_pretrained("cerebras/btlm-3b-8k-chat", trust_remote_code=True, torch_dtype="auto")
prompt = """艾萨克·牛顿是"""
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
generated_text = pipe(
prompt,
max_length=50,
do_sample=False,
no_repeat_ngram_size=2)[0]
print(generated_text['generated_text'])
模型评估对比
与基础模型性能对比
图1. 在11项任务中与基础模型的性能对比
表1: 下游任务详细对比(MMLU采用5-shot测试,其余为0-shot)
训练细节
- 使用TRL框架进行DPO训练
- 学习率:5e-5
- 批量大小:64
- 训练周期:1轮
- Dropout率:0
- Lora参数:r=128, alpha=16
- Beta值:0.05
- 了解更多:技术博客
应用与限制
适用范围
本模型主要支持大语言模型研究,可作为NLP应用、伦理对齐研究的基础模型。基于Apache许可协议,社区可自由使用。
可通过Cerebras Model Studio或第三方库进行微调。实际生产应用前需进行安全性测试与缓解措施。
生成示例
提示:"阿尔卑斯山和莱茵河如何影响西欧的定居与农业?列举三点影响。"
生成:"阿尔卑斯山和莱茵河对西欧的定居与农业产生了深远影响:
1. 阿尔卑斯山作为天然屏障,塑造了不同的文化语言区域
2. 莱茵河作为贸易通道促进了新技术传播
3. 两者提供了肥沃耕地支持大规模农业发展"
提示:"分析性写作中评估论证的五个核心原则"
生成:"论证评估五原则:
1. 识别核心主张
2. 分析支撑证据
3. 评估证据质量
4. 发现逻辑谬误
5. 得出最终结论"
风险与伦理考量
- 人类价值观:模型输出可能不完全符合人类价值观,生产环境部署前需全面评估
- 潜在风险:训练数据RedPajama可能存在分布偏差,需警惕刻板印象强化、训练数据记忆等问题
致谢
感谢所有Cerebras工程师的贡献。