🚀 GenZ
GenZ是一款先进的大语言模型(LLM),基于Meta的开源Llama V2 70B参数模型进行微调。其旨在为开源社区提供对微调大语言模型的广泛访问权限,推动人工智能技术的发展。
🚀 快速开始
在Hugging Face上使用我们的模型非常简单,按照以下步骤操作:
1️⃣ 导入必要的模块
首先从transformers
库和torch
导入必要的模块。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("budecosystem/genz-70b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("budecosystem/genz-70b", torch_dtype=torch.bfloat16, rope_scaling={"type": "dynamic", "factor": 2})
prompt = "### User:\nWrite a python flask code for login management\n\n### Assistant:\n"
inputs = tokenizer(prompt, return_tensors="pt")
sample = model.generate(**inputs, max_length=128)
print(tokenizer.decode(sample[0]))
如果想以更直观的方式与模型交互,我们设置了一个Gradio界面。前往我们的GitHub页面,克隆仓库,然后运行generate.py
脚本进行尝试。祝你实验愉快!😄
✨ 主要特性
- 开源共享:致力于为开源社区提供对微调大语言模型的广泛访问权限,将发布一系列不同参数数量(7B、13B和70B)和量化(32位和4位)的模型供开源社区使用、改进和扩展。
- 易于使用:较小量化版本的模型更易于访问,甚至可以在个人计算机上使用,为开发者、研究人员和爱好者提供了实验和贡献的可能性。
- 功能强大:不仅是一个强大的文本生成器,还是一个复杂的AI助手,能够理解用户提示并提供高质量的响应。
- 持续优化:团队致力于不断改进和增强模型,通过定期使用各种精心策划的数据集进行微调,以达到并超越现有技术水平。
📦 安装指南
文档未提及具体安装步骤,暂不提供。
💻 使用示例
基础用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("budecosystem/genz-70b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("budecosystem/genz-70b", torch_dtype=torch.bfloat16, rope_scaling={"type": "dynamic", "factor": 2})
prompt = "### User:\nWrite a python flask code for login management\n\n### Assistant:\n"
inputs = tokenizer(prompt, return_tensors="pt")
sample = model.generate(**inputs, max_length=128)
print(tokenizer.decode(sample[0]))
📚 详细文档
简介 🎉
GenZ是基于Meta的开源Llama V2 70B参数模型进行微调的先进大语言模型。Bud Ecosystem相信开源协作的力量能够加速技术的发展,其愿景是让开源社区能够广泛访问微调后的大语言模型。为此,将发布一系列不同参数数量和量化的模型供开源社区使用、改进和扩展。
较小量化版本的模型更易于访问,甚至可以在个人计算机上使用,为开发者、研究人员和爱好者提供了实验和贡献的可能性。GenZ不仅是一个强大的文本生成器,还是一个复杂的AI助手,能够理解用户提示并提供高质量的响应。这仅仅是创建更先进、更高效、更易于访问的语言模型之旅的开始,欢迎大家加入这个令人兴奋的旅程。
里程碑发布 ️🏁
评估 🎯
评估模型是微调过程的关键部分,有助于了解模型的性能以及与其他模型的比较情况。以下是GenZ 70B的一些关键评估:
基准比较
模型名称 |
MT Bench |
MMLU |
Human Eval |
BBH |
Genz 13B |
6.12 |
53.62 |
17.68 |
37.76 |
Genz 13B v2 |
6.79 |
53.68 |
21.95 |
38.1 |
Genz 70B |
7.33 |
70.32 |
37.8 |
54.69 |
MT Bench分数
MT Bench分数是评估模型性能的关键指标,它提供了对模型在一系列任务上性能的全面评估。
为什么选择GenZ? 💡
与预训练模型相比,GenZ经过精心微调,使用了精心策划的数据集,因此具有额外的技能和能力。无论是简单任务还是复杂项目,GenZ都能应对挑战。
团队致力于不断改进GenZ,通过定期使用各种精心策划的数据集进行微调,以达到并超越现有技术水平。文档中提供了详细的评估和性能细节,用户可以自行比较。选择GenZ,一起推动大语言模型的边界。
GenZ 70B模型卡片 📄
模型详情:
- 开发者:Bud Ecosystem
- 基础预训练模型类型:Llama V2 70B
- 模型架构:GenZ 70B是在Llama V2 70B基础上微调的自回归语言模型,采用了优化的Transformer架构。微调过程采用了监督微调(SFT)。
- 许可证:该模型可根据自定义商业许可证进行商业使用。更多信息,请访问:Meta AI模型和库下载
预期用途 💼
直接使用
GenZ 70B旨在作为大语言模型研究的强大工具,也是进一步针对特定用例进行专业化和微调的优秀基础,例如文本摘要、文本生成、聊天机器人创建等。
超出范围的使用 🚩
- 在未充分评估风险和采取缓解措施的情况下用于生产环境。
- 任何可能被认为不负责任或有害的用例。
- 以任何违反适用法律法规(包括贸易合规法律)的方式使用。
- 以任何违反Llama 2可接受使用政策和许可协议的方式使用。
请记住,GenZ 70B与任何大语言模型一样,是在代表网络的大规模语料库上进行训练的,因此可能存在常见的在线刻板印象和偏见。
建议 🧠
建议GenZ 70B的用户针对感兴趣的特定任务集进行微调。在任何生产使用中应采取适当的预防措施和保障措施。负责任地使用GenZ 70B是充分发挥其潜力并维护安全和尊重环境的关键。
训练详情 📚
微调训练数据
在微调过程中,使用了精心策划的数据集,包括来自OpenAssistant的指令微调数据集和Thought Source的思维链(CoT)方法数据集。这种多样化的数据源有助于增强模型在一系列任务上的能力。
超参数
超参数 |
值 |
热身比例 |
0.04 |
学习率调度器类型 |
余弦 |
学习率 |
2e-5 |
训练轮数 |
3 |
每个设备的训练批次大小 |
4 |
梯度累积步数 |
4 |
精度 |
FP16 |
优化器 |
AdamW |
展望未来 👀
团队对GenZ的未来充满期待,致力于不断改进和增强模型,并期待开源社区能够基于这些模型构建出更多优秀的应用。相信通过合作,能够共同推动大语言模型的发展。这只是一个开始,相信这个旅程将彻底改变大语言模型的世界。邀请大家一起加入这个令人兴奋的旅程,共同探索AI的无限可能。
🔧 技术细节
GenZ 70B是在Llama V2 70B基础上微调的自回归语言模型,采用了优化的Transformer架构。微调过程采用了监督微调(SFT)。在微调过程中,使用了精心策划的数据集,包括来自OpenAssistant的指令微调数据集和Thought Source的思维链(CoT)方法数据集。超参数设置如下:
超参数 |
值 |
热身比例 |
0.04 |
学习率调度器类型 |
余弦 |
学习率 |
2e-5 |
训练轮数 |
3 |
每个设备的训练批次大小 |
4 |
梯度累积步数 |
4 |
精度 |
FP16 |
优化器 |
AdamW |
📄 许可证
GenZ 70B模型可根据自定义商业许可证进行商业使用。更多信息,请访问:Meta AI模型和库下载
查看GitHub代码 -> GenZ