zephyr-orpo-141b-A35b-v0.1-GGUF开源模型 - 专注英语文本生成任务

首页

Zephyr Orpo 141b A35b V0.1 GGUF

由 MaziyarPanahi 开发

基于Mixtral-8x22B-v0.1微调的1410亿参数混合专家模型(MoE)，激活参数350亿，主要用于英语文本生成任务

大型语言模型英语开源协议:Apache-2.0 #混合专家模型 #多比特量化 #英语文本生成

下载量 10.04k

发布时间 : 4/11/2024

模型简介

这是一个经过ORPO优化的Zephyr系列大型语言模型，采用混合专家架构，适用于高效文本生成任务

模型特点

高效混合专家架构

采用8专家混合设计，总参数量1410亿但仅激活350亿参数，实现高效推理

多级量化支持

提供从2比特到16比特多种量化级别，适应不同硬件需求

优化对话能力

基于高质量合成数据集微调，具备优秀的对话交互能力

模型能力

文本生成

对话系统

指令跟随

内容创作

使用案例

智能助手

在线客服机器人

部署为网站客服助手，处理常见问题咨询

示例对话显示能流畅处理多轮交互

内容生成

步骤指南生成

根据用户请求生成分步操作指南

示例中成功生成10步建站指南

🚀 泽菲尔 - ORPO - 141B - A35B - v0.1 - GGUF

本项目基于 Mixtral - 8x22B - v0.1 模型，由 @HuggingFaceH4 于4月11日发布了名为 [HuggingFaceH4/zephyr - orpo - 141b - A35b - v0.1](https://huggingface.co/HuggingFaceH4/zephyr - orpo - 141b - A35b - v0.1) 的微调模型，旨在为用户提供更强大的文本生成能力。

🚀 快速开始

加载分片模型

llama_load_model_from_file 会自动检测文件数量，并从其余文件中加载额外的张量。

llama.cpp/main -m zephyr-orpo-141b-A35b-v0.1.Q2_K-00001-of-00005.gguf --file prompt.txt -n 1024 -e

模型输出示例

Q2_K 量化模型的输出如下：

 <|system|>
You are a helpful assistant.
<|user|>
Hello, how are you?
<|assistant|>
I'm doing great. How can I help you today?
<|user|>
Show me how to build a website in 10 simple steps
<|assistant|>
当然，我很乐意引导你通过10个简单的步骤来构建一个网站。

1. 确定网站的目的：决定你的网站将用于什么，无论是用于商业、个人用途还是博客。
2. 选择域名：你的域名是人们用来找到你网站的地址。它应该容易记住并且与你网站的目的相关。
3. 选择网络托管服务提供商：网络托管服务提供商将存储你的网站文件，并使它们能够被世界各地的用户访问。研究不同的提供商并选择一个适合你需求的。
4. 选择平台：有许多用于构建网站的平台，包括WordPress、Wix和Squarespace。在选择平台时，考虑你的技术技能和你需要的功能。
5. 规划网站结构：决定你想在网站上包含的页面以及它们将如何组织。这将有助于指导设计过程。
6. 设计网站：使用模板或为你的网站创建自己的设计。确保它在视觉上有吸引力并且易于导航。
7. 向网站添加内容：为你的网站编写文本并创建图像或视频。确保内容与你网站的目的相关并且对用户有吸引力。
8. 为搜索引擎优化你的网站：通过在你的内容和元数据中使用关键词，确保你的网站易于被找到。这将有助于你的网站在搜索引擎结果中排名更高。
9. 测试你的网站：测试你的网站，确保一切正常工作，并且没有损坏的链接或错误。
10. 推出你的网站：一旦一切正常工作，就该推出你的网站了。与你的受众分享链接并开始推广你的网站。

我希望本指南能帮助你构建一个成功的网站。如果你有任何问题，请告诉我。[文本结束]

llama_print_timings:        load time =   11670.53 ms
llama_print_timings:      sample time =      16.30 ms /   422 runs   (    0.04 ms per token, 25894.34 tokens per second)
llama_print_timings: prompt eval time =    5084.73 ms /    78 tokens (   65.19 ms per token,    15.34 tokens per second)
llama_print_timings:        eval time =  279055.53 ms /   421 runs   (  662.84 ms per token,     1.51 tokens per second)
llama_print_timings:       total time =  284314.00 ms /   499 tokens
Log end

`prompt.txt` 文件内容

<|system|>
You are a helpful assistant.</s>
<|user|>
Hello, how are you?</s>
<|assistant|>
I'm doing great. How can I help you today?</s>
<|user|>
Show me how to build a website in 10 simple steps</s>
<|assistant|>

✨ 主要特性

模型信息

属性	详情
模型类型	专家混合（MoE）模型，总参数1410亿，活动参数350亿，在公开可用的合成数据集混合上进行微调。
语言（NLP）	主要为英语
许可证	Apache 2.0
微调基础模型	[mistral - community/Mixtral - 8x22B - v0.1](https://huggingface.co/mistral - community/Mixtral - 8x22B - v0.1)