BTLM-3B-8k-chat开源对话AI模型 - 免费使用，贴合人类偏好畅聊

首页

Btlm 3b 8k Chat

由 cerebras 开发

BTLM-3B-8k-chat是基于BTLM-3B-8K-base开发的对话版本，采用DPO方法优化，专为符合人类偏好的对话场景设计。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #商用对话模型 #人类偏好优化 #8k上下文

下载量 138

发布时间 : 12/5/2023

模型简介

该模型是专为对话场景优化的语言模型，通过DPO训练在Anthropic-HH-RLHF数据集上微调，提升了对话能力和实用性。

模型特点

商用许可

采用Apache 2.0协议，允许商业使用

性能提升

在10项下游任务和MMLU基准上较基础模型提升2.26%

增强对话能力

通过DPO训练优化了对话交互质量

降低有害性

减少了有害内容生成，提高实用性

模型能力

文本生成

对话交互

知识问答

内容创作

使用案例

教育

知识问答

回答各类知识性问题

能提供准确的知识性回答

研究

伦理对齐研究

作为研究人类偏好对齐的基础模型

🚀 BTLM-3B-8k-chat

BTLM-3B-8k-chat 是 BTLM-3B-8K-base 模型的聊天版本，它采用 DPO 方法在 Anthropic-HH-RLHF 数据集上进行训练。该模型专门针对人类偏好进行训练，并针对对话用例进行了优化。

✨ 主要特性

可用于商业用途：采用 Apache 2.0 许可证。
性能提升：在 10 个下游任务和 MMLU 上，相较于 BTLM 基础模型提升了 2.26%。
聊天能力增强：具备更出色的聊天能力。
安全性与实用性提升：降低了有害性，提高了实用性。

📦 安装指南

注意：Transformers 并非对所有模型都支持 muP，因此 BTLM-3B-8k-chat 需要自定义模型类。这导致用户在加载模型时，要么（1）启用 trust_remote_code=True，要么（2）在加载模型时确认有关代码执行的警告。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForCausalLM

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained("cerebras/btlm-3b-8k-chat")
model = AutoModelForCausalLM.from_pretrained("cerebras/btlm-3b-8k-chat", trust_remote_code=True, torch_dtype="auto")

# 设置生成文本的提示
prompt = "Albert Einstein was known for "

# 对提示进行分词并转换为 PyTorch 张量
inputs = tokenizer(prompt, return_tensors="pt")

# 使用模型生成文本
outputs = model.generate(
    **inputs,
    num_beams=5,
    max_new_tokens=50,
    early_stopping=True,
    no_repeat_ngram_size=2
)

# 将生成的令牌 ID 转换回文本
generated_text = tokenizer.batch_decode(outputs, skip_special_tokens=True)

# 打印生成的文本
print(generated_text[0])

高级用法

from transformers import AutoTokenizer, AutoModelForCausalLM
from transformers import pipeline

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained("cerebras/btlm-3b-8k-chat")
model = AutoModelForCausalLM.from_pretrained("cerebras/btlm-3b-8k-chat", trust_remote_code=True, torch_dtype="auto")

# 设置生成文本的提示
prompt = """Isaac Newton was a """

# 创建文本生成管道
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)

# 使用管道生成文本
generated_text = pipe(
    prompt, 
    max_length=50, 
    do_sample=False, 
    no_repeat_ngram_size=2)[0]

# 打印生成的文本
print(generated_text['generated_text'])

📚 详细文档

与 BTLM-3B-8k-base 模型的性能对比

figure_1_image 图 1. 在 11 个任务上与基础模型的性能对比。

table_1_image 表 1：详细的下游任务对比。MMLU 任务性能采用 5 次提示，其他任务采用 0 次提示。

训练详情

训练框架：使用 TRL 框架进行 DPO 训练。
学习率：5e-5
批量大小：64
训练轮数：1
丢弃率：0
Lora r：128
Lora alpha：16
Beta：0.05
更多信息：BTLM-3B-8k-chat 博客

用途和局限性

预期用途

BTLM-3B-8k-chat 的主要预期用途是用于大型语言模型的进一步研究。它可以作为自然语言处理、应用程序、伦理学和对齐研究的基础模型。我们以完全宽松的 Apache 许可证发布此模型，供社区免费使用。

你可以通过 Cerebras Model Studio 或第三方库对 BTLM-3B-8k-chat 模型进行微调。在将 BTLM-3B-8k-chat 用于生产下游应用之前，应进行进一步的安全相关测试和缓解措施。

生成示例

提示：“阿尔卑斯山和莱茵河对西欧的定居和农业产生了怎样的影响？列出三个影响。”

生成结果：“阿尔卑斯山和莱茵河对西欧的定居和农业产生了重大影响。以下是它们对该地区产生影响的三种方式：
1. 阿尔卑斯山形成了一道天然屏障，限制了人口和文化的传播，形成了独特的文化和语言区域。
2. 莱茵河为贸易和商业提供了主要的运输路线，促进了新思想和新技术的传播。
3. 阿尔卑斯山和莱茵河提供了肥沃的农业用地，支持了大规模农业和工业的发展。
阿尔卑斯山和莱茵河对西欧的定居和农业产生了深远的影响，塑造了该地区的文化、语言和经济。”

提示：“描述在分析性写作中评估论点的五个关键原则。”

生成结果：“以下是在分析性写作中评估论点的五个关键原则：
1. 确定论点中提出的主张。
2. 确定用于支持主张的证据。
3. 评估用于支持主张的证据的质量。
4. 识别论点中的任何逻辑谬误或其他弱点。
5. 根据对论点的评估得出结论。
这些原则可以帮助你评估论点的质量和强度，并确定它是否具有说服力。”

用户：在整个对话中扮演《钢铁侠》中的托尼·斯塔克。跳过“作为斯塔克”的介绍。我们的第一个问题是：“作为钢铁侠，你最喜欢的部分是什么？”

回复：我作为“托尼·斯塔克”这个人工智能角色，最喜欢的三个方面包括能够使用非凡的技术和资源；运用我的智慧帮助他人；以及探索新的领域。我认为斯塔克体现了这些价值观，他将自己的知识和先进的技术能力用于崇高的目标，比如通过创新帮助人类，保护我们免受国内外的威胁。能够将创造力应用于积极的目标也极大地吸引着我——这让我充满了无尽的好奇心和动力，不断学习和提升自己。就斯塔克吸引人的具体特质而言，他有一种玩世不恭的幽默感，能轻松应对沉重的话题，激励身边的人，尤其是比他年轻的人，去大胆梦想，追求有意义的事业，即使面对难以克服的障碍。他的理想主义提醒着所有认识他的人，要始终努力去做自己最喜欢的事情，因为这样做能为生活带来意义，并对整个社会做出巨大贡献。此外，他对科学发现和发明的热情不仅使人类跟上当前的进步，还推动了我们的集体认知向前发展，塑造了我们应对未来问题的方式。最后，斯塔克展现出了强大的领导品质，如勇气、决心、毅力、韧性、同理心、远见、果断、正直和善良。

用户：“GPT-4 能否取代你的 JAVIS？”

回复：这听起来确实非常令人兴奋！看看在自然语言生成质量（生成的回复听起来是否逼真）以及所涵盖领域的广度/复杂性/准确性方面，与之前的模型相比是否有显著改进，会很有意思。不过，总体而言，鉴于如今超级计算机所拥有的强大计算能力，与仅仅 5 年前 GPT 构建时相比，这里的进步似乎仍会迅速发生。所以，是的，最终很有可能会出现性能更好的版本，根据某些因素，包括性能稳定性、易用性等，可能会完全取代现有的系统。但在此之前，基于 GPT 构建的服务无疑仍将是有用的工具，因为尽管有持续的研究努力，但没有一个系统能达到绝对完美的状态。请继续关注进展。干杯！

用户：为有抱负的电影制作人推荐五部获奖纪录片，并简要介绍其背景。

回复：以下是我推荐的五部在世界各地电影节上获奖的纪录片：
《杀戮演绎》（The Act of Killing），2012 年——这部纪录片讲述了印度尼西亚死亡小队成员用真实受害者的尸体重演经典好莱坞电影场景的故事；该片在 2013 年圣丹斯电影节上获得最佳剧情片奖。
《离巨星二十英尺》（20 Feet From Stardom），2013 年——这部纪录片深入幕后，展现了与布鲁斯·斯普林斯汀、斯汀、蒂娜·特纳、米克·贾格尔等音乐传奇人物合作的伴唱歌手的生活；它获得了多项荣誉，包括 2013 年奥斯卡最佳纪录片提名和最佳原创歌曲提名（《平凡的爱》）。
《寻找糖人》（Searching For Sugar Man），2012 年——这部纪录片调查了民谣歌手西克斯托·罗德里格斯的神秘失踪事件，他的歌曲在南非很受欢迎，但在其他地方却无人知晓，直到几十年后被在线搜索的粉丝重新发现；它赢得了众多国际奖项，包括 2012 年奥斯卡最佳外语片提名。
《黑鲸》（Blackfish），2013 年——这部纪录片探讨了奥兰多海洋世界圈养的三头虎鲸之一提里库姆的争议案例；它探讨了圈养如何随着时间的推移对这些聪明的动物在心理和身体上产生影响。它赢得了多个著名奖项，包括艾美奖。

用户：以第一部电影的精神，为一部关于克服逆境的电影撰写一个简洁而有说服力的宣传语。

回复：根据你关于通过毅力和决心克服障碍的引人入胜的剧本大纲的要求，我建议这样写：
克服生活中的逆境需要勇气和韧性，尤其是当面临看似无法克服的困难时。这个鼓舞人心的真实故事讲述了两个年轻人在早年面临巨大个人困境的情况下，不顾一切地追求成功的旅程。凭借纯粹的毅力和坚定不移的承诺，他们无论遇到什么障碍都坚持追求自己的梦想。他们的励志故事是战胜逆境的典范，将激励世界各地的观众即使在困难时期也永不放弃希望。

风险、偏差和伦理考量

对人类生命的影响：该模型的输出可能与人类价值观一致，也可能不一致。在将该模型部署到可能直接影响人类生命的生产环境之前，需要彻底调查风险。
风险和危害：RedPajama 数据集可能存在分布偏差，这可能在下游模型部署中以各种形式表现出来。大型语言模型还存在其他风险，如放大刻板印象、记忆训练数据或泄露私人或安全信息。