Opus V0 7B开源语言模型 - 免费部署助力高效文本生成任务

首页

Opus V0 7B GGUF

由 TheBloke 开发

Opus V0 7B是由DreamGen开发的基于Mistral架构的7B参数语言模型，专注于文本生成任务。

大型语言模型英语#多量化版本 #英文文本生成 #低资源部署

下载量 2,467

发布时间 : 11/9/2023

模型简介

Opus V0 7B是一个基于Mistral架构的7B参数语言模型，主要用于文本生成任务。模型支持英文，并提供了多种量化版本以适应不同的硬件需求。

模型特点

多种量化版本

提供了从2位到8位的多种量化版本，适应不同的硬件需求和性能要求。

高效推理

支持GGUF格式，兼容多种推理客户端和库，如llama.cpp、text-generation-webui等。

灵活的提示模板

使用DreamGen提示模板，支持系统消息和指令的灵活组合。

模型能力

文本生成

指令跟随

使用案例

创意写作

故事生成

根据用户提供的提示生成连贯的故事内容。

内容创作

文章摘要

生成长篇文章的简洁摘要。

🚀 Opus V0 7B - GGUF

本项目提供了 DreamGen的Opus V0 7B 模型的GGUF格式文件，方便用户进行模型推理和使用。

聊天与支持：TheBloke的Discord服务器

想要贡献？TheBloke的Patreon页面

TheBloke的大语言模型工作得到了 andreessen horowitz (a16z) 的慷慨资助

🚀 快速开始

本仓库包含了 DreamGen的Opus V0 7B 模型的GGUF格式文件。这些文件是使用 Massed Compute 提供的硬件进行量化的。

✨ 主要特性

多格式支持：提供了多种量化格式的模型文件，包括AWQ、GPTQ和GGUF，满足不同用户的需求。
广泛兼容：与多种客户端和库兼容，如llama.cpp、text-generation-webui等。
详细文档：提供了详细的使用说明和示例代码，方便用户快速上手。

📦 安装指南

下载GGUF文件

手动下载注意事项：通常不需要克隆整个仓库！本仓库提供了多种不同的量化格式，大多数用户只需要选择并下载单个文件。

以下客户端/库可以自动为你下载模型，并提供可用模型列表供你选择：

LM Studio
LoLLMS Web UI
Faraday.dev

在 `text-generation-webui` 中下载

在“Download Model”下，输入模型仓库地址 TheBloke/opus-v0-7B-GGUF，并在下方输入要下载的具体文件名，例如：opus-v0-7b.Q4_K_M.gguf。然后点击“Download”。

在命令行中下载（支持同时下载多个文件）

推荐使用 huggingface-hub Python库：

pip3 install huggingface-hub

然后可以使用以下命令将任何单个模型文件高速下载到当前目录：

huggingface-cli download TheBloke/opus-v0-7B-GGUF opus-v0-7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

更高级的huggingface-cli下载用法

你还可以使用通配符同时下载多个文件：

huggingface-cli download TheBloke/opus-v0-7B-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

有关使用 huggingface-cli 下载的更多文档，请参阅：HF -> Hub Python Library -> Download files -> Download from the CLI。

为了在高速连接（1Gbit/s或更高）上加速下载，请安装 hf_transfer：

pip3 install hf_transfer

并将环境变量 HF_HUB_ENABLE_HF_TRANSFER 设置为 1：

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/opus-v0-7B-GGUF opus-v0-7b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows命令行用户：可以在下载命令之前运行 set HF_HUB_ENABLE_HF_TRANSFER=1 来设置环境变量。

💻 使用示例

llama.cpp 命令示例

确保你使用的是 d0cee0d 或更高版本的 llama.cpp。

./main -ngl 32 -m opus-v0-7b.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<setting>\n{system_message}\n</setting>\n\n<instruction>\n{prompt}\n</instruction>"

将 -ngl 32 更改为要卸载到GPU的层数。如果没有GPU加速，请删除该参数。
将 -c 2048 更改为所需的序列长度。对于扩展序列模型（如8K、16K、32K），必要的RoPE缩放参数会从GGUF文件中读取，并由llama.cpp自动设置。

如果你想进行聊天式对话，请将 -p <PROMPT> 参数替换为 -i -ins。

有关其他参数及其使用方法，请参阅 llama.cpp文档。

在 `text-generation-webui` 中运行

更多说明请参阅：text-generation-webui/docs/llama.cpp.md。

从Python代码中运行

你可以使用 llama-cpp-python 或 ctransformers 库从Python中使用GGUF模型。

使用ctransformers在Python代码中加载此模型

首先安装包

根据你的系统运行以下命令之一：

# 无GPU加速的基础ctransformers
pip install ctransformers
# 或使用CUDA GPU加速
pip install ctransformers[cuda]
# 或使用AMD ROCm GPU加速（仅适用于Linux）
CT_HIPBLAS=1 pip install ctransformers --no-binary ctransformers
# 或仅适用于macOS系统的Metal GPU加速
CT_METAL=1 pip install ctransformers --no-binary ctransformers

简单的ctransformers示例代码

from ctransformers import AutoModelForCausalLM

# 将gpu_layers设置为要卸载到GPU的层数。如果你的系统没有GPU加速，请将其设置为0。
llm = AutoModelForCausalLM.from_pretrained("TheBloke/opus-v0-7B-GGUF", model_file="opus-v0-7b.Q4_K_M.gguf", model_type="mistral", gpu_layers=50)

print(llm("AI is going to"))

与LangChain一起使用

以下是使用llama-cpp-python和ctransformers与LangChain的指南：

📚 详细文档

关于GGUF

GGUF是llama.cpp团队在2023年8月21日引入的一种新格式。它是GGML的替代品，而GGML已不再受llama.cpp支持。

以下是已知支持GGUF的客户端和库的不完全列表：

llama.cpp：GGUF的源项目，提供了CLI和服务器选项。
text-generation-webui：最广泛使用的Web UI，具有许多功能和强大的扩展，支持GPU加速。
KoboldCpp：功能齐全的Web UI，支持跨所有平台和GPU架构的GPU加速，特别适合讲故事。
LM Studio：适用于Windows和macOS（Silicon）的易于使用且功能强大的本地GUI，支持GPU加速。
LoLLMS Web UI：一个很棒的Web UI，具有许多有趣和独特的功能，包括一个完整的模型库，便于模型选择。
Faraday.dev：一个有吸引力且易于使用的基于角色的聊天GUI，适用于Windows和macOS（Silicon和Intel），支持GPU加速。
ctransformers：一个支持GPU加速、LangChain和OpenAI兼容AI服务器的Python库。
llama-cpp-python：一个支持GPU加速、LangChain和OpenAI兼容API服务器的Python库。
candle：一个专注于性能的Rust机器学习框架，包括GPU支持，易于使用。

可用的仓库

提示模板：DreamGen

<setting>
{system_message}
</setting>

<instruction>
{prompt}
</instruction>

兼容性

这些量化的GGUFv2文件与2023年8月27日及以后的llama.cpp版本兼容，截至提交 d0cee0d。

它们还与许多第三方UI和库兼容，请参阅本README顶部的列表。

量化方法说明

点击查看详情

可用的新方法如下：

GGML_TYPE_Q2_K：“type-1” 2位量化，超级块包含16个块，每个块有16个权重。块的尺度和最小值用4位量化，最终每个权重有效使用2.5625位（bpw）。
GGML_TYPE_Q3_K：“type-0” 3位量化，超级块包含16个块，每个块有16个权重。尺度用6位量化，最终使用3.4375 bpw。
GGML_TYPE_Q4_K：“type-1” 4位量化，超级块包含8个块，每个块有32个权重。尺度和最小值用6位量化，最终使用4.5 bpw。
GGML_TYPE_Q5_K：“type-1” 5位量化，与GGML_TYPE_Q4_K具有相同的超级块结构，最终使用5.5 bpw。
GGML_TYPE_Q6_K：“type-0” 6位量化，超级块有16个块，每个块有16个权重。尺度用8位量化，最终使用6.5625 bpw。

请参考下面的“提供的文件”表，了解哪些文件使用了哪些方法以及如何使用。

提供的文件

名称	量化方法	位数	大小	所需最大RAM	使用场景
opus-v0-7b.Q2_K.gguf	Q2_K	2	3.08 GB	5.58 GB	最小，但质量损失显著，不建议用于大多数用途
opus-v0-7b.Q3_K_S.gguf	Q3_K_S	3	3.16 GB	5.66 GB	非常小，但质量损失高
opus-v0-7b.Q3_K_M.gguf	Q3_K_M	3	3.52 GB	6.02 GB	非常小，但质量损失高
opus-v0-7b.Q3_K_L.gguf	Q3_K_L	3	3.82 GB	6.32 GB	小，但质量损失较大
opus-v0-7b.Q4_0.gguf	Q4_0	4	4.11 GB	6.61 GB	旧版本；小，但质量损失非常高，建议使用Q3_K_M
opus-v0-7b.Q4_K_S.gguf	Q4_K_S	4	4.14 GB	6.64 GB	小，但质量损失较大
opus-v0-7b.Q4_K_M.gguf	Q4_K_M	4	4.37 GB	6.87 GB	中等，质量平衡，推荐使用
opus-v0-7b.Q5_0.gguf	Q5_0	5	5.00 GB	7.50 GB	旧版本；中等，质量平衡，建议使用Q4_K_M
opus-v0-7b.Q5_K_S.gguf	Q5_K_S	5	5.00 GB	7.50 GB	大，质量损失低，推荐使用
opus-v0-7b.Q5_K_M.gguf	Q5_K_M	5	5.13 GB	7.63 GB	大，质量损失非常低，推荐使用
opus-v0-7b.Q6_K.gguf	Q6_K	6	5.94 GB	8.44 GB	非常大，质量损失极低
opus-v0-7b.Q8_0.gguf	Q8_0	8	7.70 GB	10.20 GB	非常大，质量损失极低，但不建议使用

注意：上述RAM数字假设没有进行GPU卸载。如果将层卸载到GPU，这将减少RAM使用并使用VRAM。

🔧 技术细节

原始模型信息

属性	详情
模型类型	mistral
训练数据	微调数据集包含超过100万个协作写作任务示例的标记，每个示例最多4096个标记。此外，还包含超过2000万个更通用但指令较少的示例，以帮助保持泛化能力。

原始模型运行方式

在DreamGen.com上运行（免费）

你可以在 dreamgen.com 上免费试用该模型 — 注意需要一个账户。

使用vLLM运行

安装 vLLM（版本至少为0.2.1.post1）
运行 python -u -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --model dreamgen/opus-v0-7b
使用任何与OpenAI API兼容的库与模型进行交互

使用oobabooga/text-generation-webui运行

安装 oobabooga/text-generation-webui
转到“Model”选项卡
在“Download custom model or LoRA”下，输入 dreamgen/opus-v0-7b
转到“Text Generation”选项卡
输入你的提示

📄 许可证

个人和学术用途：与基础模型使用相同的许可证，在这种情况下为Apache 2.0。
商业用途：请联系 hello@dreamgen.com。

Discord

如需进一步支持，以及讨论这些模型和人工智能相关话题，请加入我们的： TheBloke AI的Discord服务器

感谢与贡献方式

感谢 chirper.ai 团队！

感谢 gpus.llm-utils.org 的Clay！

很多人问是否可以进行贡献。我喜欢提供模型并帮助他人，也希望能够花更多时间做这些事情，以及开展新的项目，如微调/训练。

如果你有能力并愿意贡献，将不胜感激，这将帮助我继续提供更多模型，并开始新的人工智能项目。

捐赠者将在任何人工智能/大语言模型/模型问题和请求上获得优先支持，访问私人Discord房间，以及其他福利。

Patreon：https://patreon.com/TheBlokeAI
Ko-Fi：https://ko-fi.com/TheBlokeAI

特别感谢：Aemon Algiz。

Patreon特别提及：Brandon Frisco、LangChain4j、Spiking Neurons AB、transmissions 11、Joseph William Delisle、Nitin Borwankar、Willem Michiel、Michael Dempsey、vamX、Jeffrey Morgan、zynix、jjj、Omer Bin Jawed、Sean Connelly、jinyuan sun、Jeromy Smith、Shadi、Pawan Osman、Chadd、Elijah Stavena、Illia Dulskyi、Sebastain Graf、Stephen Murray、terasurfer、Edmond Seymore、Celu Ramasamy、Mandus、Alex、biorpg、Ajan Kanaga、Clay Pascal、Raven Klaugh、阿明、K、ya boyyy、usrbinkat、Alicia Loh、John Villwock、ReadyPlayerEmma、Chris Smitley、Cap'n Zoog、fincy、GodLy、S_X、sidney chen、Cory Kujawski、OG、Mano Prime、AzureBlack、Pieter、Kalila、Spencer Kim、Tom X Nguyen、Stanislav Ovsiannikov、Michael Levine、Andrey、Trailburnt、Vadim、Enrico Ros、Talal Aujan、Brandon Phillips、Jack West、Eugene Pentland、Michael Davis、Will Dee、webtim、Jonathan Leane、Alps Aficionado、Rooh Singh、Tiffany J. Kim、theTransient、Luke @flexchar、Elle、Caitlyn Gatomon、Ari Malik、subjectnull、Johann-Peter Hartmann、Trenton Dambrowitz、Imad Khwaja、Asp the Wyvern、Emad Mostaque、Rainer Wilmers、Alexandros Triantafyllidis、Nicholas、Pedro Madruga、SuperWojo、Harry Royden McLaughlin、James Bentley、Olakabola、David Ziegler、Ai Maven、Jeff Scroggin、Nikolai Manek、Deo Leter、Matthew Berman、Fen Risland、Ken Nordquist、Manuel Alberto Morcote、Luke Pendergrass、TL、Fred von Graf、Randy H、Dan Guido、NimbleBox.ai、Vitor Caleffi、Gabriel Tamborski、knownsqashed、Lone Striker、Erik Bjäreholt、John Detwiler、Leonard Tan、Iucharbius

感谢所有慷慨的赞助者和捐赠者！

再次感谢a16z的慷慨资助。