语言:
- 英文
许可证: apache-2.0
库名称: transformers
标签:
- 代码
模型索引:
- 名称: synapsellm-7b-mistral-v0.4-preview2
结果:
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: AI2推理挑战赛(25-Shot)
类型: ai2_arc
配置: ARC-Challenge
分割: 测试集
参数:
num_few_shot: 25
指标:
- 类型: acc_norm
值: 52.99
名称: 标准化准确率
来源:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=WebraftAI/synapsellm-7b-mistral-v0.4-preview2
名称: Open LLM排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: HellaSwag(10-Shot)
类型: hellaswag
分割: 验证集
参数:
num_few_shot: 10
指标:
- 类型: acc_norm
值: 74.54
名称: 标准化准确率
来源:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=WebraftAI/synapsellm-7b-mistral-v0.4-preview2
名称: Open LLM排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MMLU(5-Shot)
类型: cais/mmlu
配置: 全部
分割: 测试集
参数:
num_few_shot: 5
指标:
- 类型: acc
值: 54.6
名称: 准确率
来源:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=WebraftAI/synapsellm-7b-mistral-v0.4-preview2
名称: Open LLM排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: TruthfulQA(0-shot)
类型: truthful_qa
配置: 多项选择
分割: 验证集
参数:
num_few_shot: 0
指标:
- 类型: mc2
值: 53.79
来源:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=WebraftAI/synapsellm-7b-mistral-v0.4-preview2
名称: Open LLM排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: Winogrande(5-shot)
类型: winogrande
配置: winogrande_xl
分割: 验证集
参数:
num_few_shot: 5
指标:
- 类型: acc
值: 73.95
名称: 准确率
来源:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=WebraftAI/synapsellm-7b-mistral-v0.4-preview2
名称: Open LLM排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: GSM8k(5-shot)
类型: gsm8k
配置: 主要
分割: 测试集
参数:
num_few_shot: 5
指标:
- 类型: acc
值: 25.7
名称: 准确率
来源:
url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=WebraftAI/synapsellm-7b-mistral-v0.4-preview2
名称: Open LLM排行榜
SynapseLLM:
SynapseLLM是WebraftAI的重要成果,代表了一系列旨在创建强大、通用和去中心化信息系统的大型语言AI模型。本仓库专门存放基于Mistral微调的SynapseLLM版本。微调过程是在一个自定义数据集上进行的,虽然范围有限,但专注于代码和常规问答场景。这种调整展示了模型在特定领域的多功能性和适用性,为AI技术的更广泛发展做出了贡献。
模型详情
SynapseLLM:
- 参数: 7B
- 学习率: 2e-4
- 使用的适配器: Qlora
- 精度: float16
- 批量大小: 32
- 最大梯度范数: 0.3
- 优化器: paged_adamw_32bit
- 预热比例: 0.03
- 训练步数: 150
- 训练周期: 1
模型描述
这是一个基于7B参数的仅解码器Transformer微调模型,专注于聊天问答和代码指令。这是对Mistral 7B v0.1的预览微调,使用了包含770k行数据的样本数据集,其中包括361k数学指导问答、143k GPT-3.5问答、140k通用代码、63k Python代码和54k通用问答(通过GPT-4生成)[每行包含一个指令和一个响应]。这是一个完整模型,与训练好的适配器合并并编译,因此可以通过transformers库轻松加载。
- 开发者: WebraftAI
- 资助者: Webraft Cloud
- 共享者: WebraftAI
- 模型类型: 仅解码器Transformer
- 语言: 仅限英语
- 许可证: Apache 2.0
- 微调基础模型: Mistral-7b-v0.1
提示格式:
该模型遵循与mistral instruct 7b v0.1相同的提示格式。示例如下:
<s>[INST] 你好,最近怎么样? [/INST]
示例代码:
以下是使用HF提供的transformers
库的示例代码。
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("WebraftAI/synapsellm-7b-mistral-v0.4-preview2")
model = AutoModelForCausalLM.from_pretrained("WebraftAI/synapsellm-7b-mistral-v0.4-preview2")
prompt= "<s>[INST] 你好! [/INST] "
device = "cuda"
model_inputs = tokenizer([prompt], return_tensors="pt").to(device)
model.to(device)
generated_ids = model.generate(**model_inputs, max_new_tokens=100, do_sample=True)
print(tokenizer.batch_decode(generated_ids)[0])
模型偏差:
该模型存在一些偏差领域,讨论如下:
- 模型可能输出事实错误的信息。
- 模型不遵循系统提示。
- 模型没有任何形式的记忆,研究人员可以尝试提供记忆。
- 模型在不同数据上训练,因此可能产生偏差信息或自称GPT模型。
详细结果可查看此处
指标 |
值 |
平均 |
55.93 |
AI2推理挑战赛(25-Shot) |
52.99 |
HellaSwag(10-Shot) |
74.54 |
MMLU(5-Shot) |
54.60 |
TruthfulQA(0-shot) |
53.79 |
Winogrande(5-shot) |
73.95 |
GSM8k(5-shot) |
25.70 |