dolly-v2-3b开源大语言模型 - 支持商业用途的指令问答工具

首页

Dolly V2 3b

由 databricks 开发

Databricks推出的28亿参数指令微调大语言模型，基于pythia-2.8b架构，在1.5万条指令数据上微调而成，支持商业用途

大型语言模型

Transformers

英语开源协议:MIT #商业可用指令微调 #轻量级LLM #多任务指令跟随

下载量 15.36k

发布时间 : 4/13/2023

模型简介

一款专注于指令跟随能力的开源语言模型，适用于文本生成、问答等任务，虽非最先进但具有实用价值

模型特点

商业友好许可

采用MIT开源协议，允许商业用途

指令微调优化

在15k条高质量指令数据上微调，显著提升指令理解能力

轻量级部署

28亿参数规模相对较小，适合资源有限场景

模型能力

文本生成

封闭问答

开放问答

信息抽取

内容摘要

分类任务

头脑风暴

使用案例

知识问答

科学概念解释

解释核裂变与核聚变的区别

生成简洁易懂的科学解释

信息处理

人物信息提取

从给定文本中提取关键人物信息

准确识别并提取时间、职务等关键信息

🚀 dolly-v2-3b模型卡片

dolly-v2-3b 是由Databricks基于 pythia-2.8b 开发的指令跟随大语言模型，在Databricks机器学习平台上训练，可用于商业用途。它在约15k条指令/响应微调记录上进行训练，展现出了较高质量的指令跟随能力。

🚀 快速开始

若要在配备GPU的机器上使用 transformers 库调用该模型，首先需确保已安装 transformers 和 accelerate 库。在Databricks笔记本中，可运行以下命令：

%pip install "accelerate>=0.16.0,<1" "transformers[torch]>=4.28.1,<5" "torch>=1.13.1,<2"

可使用 pipeline 函数加载指令跟随管道，如下所示。这将加载模型仓库中自定义的 InstructionTextGenerationPipeline（点击查看），因此需要设置 trust_remote_code=True。若GPU支持 torch.bfloat16 类型，建议添加 torch_dtype=torch.bfloat16 以减少内存使用，且不会影响输出质量。若内存充足，也可移除该参数。

import torch
from transformers import pipeline

generate_text = pipeline(model="databricks/dolly-v2-3b", torch_dtype=torch.bfloat16, trust_remote_code=True, device_map="auto")

然后，你可以使用该管道回答指令：

res = generate_text("Explain to me the difference between nuclear fission and fusion.")
print(res[0]["generated_text"])

或者，若你不想使用 trust_remote_code=True，可以下载 instruct_pipeline.py，将其与你的笔记本放在同一目录下，并使用加载的模型和分词器自行构建管道：

import torch
from instruct_pipeline import InstructionTextGenerationPipeline
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("databricks/dolly-v2-3b", padding_side="left")
model = AutoModelForCausalLM.from_pretrained("databricks/dolly-v2-3b", device_map="auto", torch_dtype=torch.bfloat16)

generate_text = InstructionTextGenerationPipeline(model=model, tokenizer=tokenizer)

LangChain使用示例

若要将该管道与LangChain结合使用，必须设置 return_full_text=True，因为LangChain期望返回完整文本，而管道默认仅返回新生成的文本。

import torch
from transformers import pipeline

generate_text = pipeline(model="databricks/dolly-v2-3b", torch_dtype=torch.bfloat16,
                         trust_remote_code=True, device_map="auto", return_full_text=True)

你可以创建仅包含指令或包含指令和上下文的提示：

from langchain import PromptTemplate, LLMChain
from langchain.llms import HuggingFacePipeline

# 无输入的指令模板
prompt = PromptTemplate(
    input_variables=["instruction"],
    template="{instruction}")

# 包含输入的指令模板
prompt_with_context = PromptTemplate(
    input_variables=["instruction", "context"],
    template="{instruction}\n\nInput:\n{context}")

hf_pipeline = HuggingFacePipeline(pipeline=generate_text)

llm_chain = LLMChain(llm=hf_pipeline, prompt=prompt)
llm_context_chain = LLMChain(llm=hf_pipeline, prompt=prompt_with_context)

使用简单指令进行预测的示例：

print(llm_chain.predict(instruction="Explain to me the difference between nuclear fission and fusion.").lstrip())

使用包含上下文的指令进行预测的示例：

context = """George Washington (February 22, 1732[b] - December 14, 1799) was an American military officer, statesman,
and Founding Father who served as the first president of the United States from 1789 to 1797."""

print(llm_context_chain.predict(instruction="When was George Washington president?", context=context).lstrip())

✨ 主要特性

商业可用：dolly-v2-3b 基于Databricks机器学习平台训练，可用于商业用途。
指令跟随能力：在约15k条指令/响应微调记录上进行训练，展现出较高质量的指令跟随行为。
多模型可选：Dolly v2还有其他更大规模的模型可供选择，如 dolly-v2-12b 和 dolly-v2-7b。

📚 详细文档

模型概述

dolly-v2-3b 是由 Databricks 创建的一个具有28亿参数的因果语言模型，它基于 EleutherAI 的 Pythia-2.8b 模型，并在Databricks员工生成的约15K条指令语料库（点击查看）上进行微调，该语料库以宽松的许可证（CC-BY-SA）发布。

已知局限性

性能局限性

dolly-v2-3b 并非最先进的生成式语言模型，尽管正在进行定量基准测试，但它的设计并非为了与更现代的模型架构或经过更大预训练语料库训练的模型竞争。 Dolly模型家族正在积极开发中，因此任何缺点列表都不太可能详尽无遗，但我们在此列出已知的局限性和失误，以便向社区记录和分享我们的初步发现。特别是，dolly-v2-3b 在处理以下方面存在困难：语法复杂的提示、编程问题、数学运算、事实性错误、日期和时间、开放式问答、幻觉、枚举特定长度的列表、风格模仿、幽默感等。此外，我们发现 dolly-v2-3b 不具备原始模型中的某些能力，如格式规范的信件写作。

数据集局限性

与所有语言模型一样，dolly-v2-3b 反映了其训练语料库的内容和局限性。

The Pile：GPT-J的预训练语料库主要包含从公共互联网收集的内容，与大多数网络规模的数据集一样，它包含许多用户可能会反感的内容。因此，该模型可能会反映这些缺点，在明确要求生成反感内容时可能会明显表现出来，有时也会微妙地表现出来，如存在有偏见或有害的隐含关联。
databricks-dolly-15k：dolly-v2-3b 进行指令微调的训练数据代表了Databricks员工在2023年3月至4月期间生成的自然语言指令，其中包括来自维基百科的段落，作为封闭式问答和摘要等指令类别的参考段落。据我们所知，它不包含淫秽内容、知识产权或非公众人物的个人身份信息，但可能包含拼写错误和事实性错误。该数据集也可能反映维基百科中存在的偏见。最后，该数据集可能反映了Databricks员工的兴趣和语义选择，这一群体并不能代表全球广大人口。 Databricks致力于持续的研究和开发工作，以开发有用、诚实和无害的人工智能技术，最大限度地发挥所有个人和组织的潜力。

基准指标

以下是各种模型在 EleutherAI LLM Evaluation Harness 上的基准测试性能；模型结果按几何平均值排序，以产生可理解的顺序。如上所述，这些结果表明 dolly-v2-3b 并非最先进的模型。在评估基准测试中，它的表现不如 dolly-v1-6b，考虑到它的参数数量只有后者的一半，这并不奇怪。

模型	openbookqa	arc_easy	winogrande	hellaswag	arc_challenge	piqa	boolq	gmean
EleutherAI/pythia-2.8b	0.348	0.585859	0.589582	0.591217	0.323379	0.73395	0.638226	0.523431
EleutherAI/pythia-6.9b	0.368	0.604798	0.608524	0.631548	0.343857	0.761153	0.6263	0.543567
databricks/dolly-v2-3b	0.384	0.611532	0.589582	0.650767	0.370307	0.742655	0.575535	0.544886
EleutherAI/pythia-12b	0.364	0.627104	0.636148	0.668094	0.346416	0.760065	0.673394	0.559676
EleutherAI/gpt-j-6B	0.382	0.621633	0.651144	0.662617	0.363481	0.761153	0.655963	0.565936
databricks/dolly-v2-12b	0.408	0.63931	0.616417	0.707927	0.388225	0.757889	0.568196	0.56781
databricks/dolly-v2-7b	0.392	0.633838	0.607735	0.686517	0.406997	0.750816	0.644037	0.573487
databricks/dolly-v1-6b	0.41	0.62963	0.643252	0.676758	0.384812	0.773667	0.687768	0.583431
EleutherAI/gpt-neox-20b	0.402	0.683923	0.656669	0.7142	0.408703	0.784004	0.695413	0.602236

📄 许可证

本项目采用MIT许可证。

📖 引用

@online{DatabricksBlog2023DollyV2,
    author    = {Mike Conover and Matt Hayes and Ankit Mathur and Jianwei Xie and Jun Wan and Sam Shah and Ali Ghodsi and Patrick Wendell and Matei Zaharia and Reynold Xin},
    title     = {Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM},
    year      = {2023},
    url       = {https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm},
    urldate   = {2023-06-30}
}