模型介绍
内容详情
替代品
模型简介
该模型是在Mistral-7B基础上通过多轮微调优化的版本,特别强化了在物理、化学、生物、数学等科学领域的表现,使用了包括AI2推理挑战赛、Camel科学数据集等高质量训练数据
模型特点
科学领域优化
专门针对STEM(科学、技术、工程、数学)领域任务进行微调,在物理、化学、生物等学科表现优异
长上下文支持
支持8192 tokens的长上下文处理能力,适合处理复杂科学问题和推理任务
多数据集融合训练
整合了20+高质量科学数据集,包括AI2推理挑战赛、Camel科学系列、ScienceQA等
ChatML模板支持
内置ChatML对话模板,便于构建对话系统和助手应用
模型能力
科学问题解答
数学推理
物理概念解释
化学方程式生成
生物知识问答
多轮对话
复杂推理
使用案例
教育
科学辅导助手
帮助学生理解STEM学科概念和解决问题
在AI2推理挑战赛上达到64.68%准确率
研究辅助工具
协助研究人员快速获取科学知识和参考资料
评估
科学能力评估
评估学生在STEM领域的知识和推理能力
在MMLU测试中达到62.31%准确率
语言:
- 英文 许可证: 其他 标签:
- 蝾螈
- 训练生成
- 薄雾
- 指导
- 微调
- 聊天标记语言
- GPT4
- 合成数据
- 科学
- 物理
- 化学
- 生物
- 数学 基础模型: mistralai/Mistral-7B-v0.1 数据集:
- allenai/ai2_arc
- camel-ai/physics
- camel-ai/chemistry
- camel-ai/biology
- camel-ai/math
- metaeval/reclor
- openbookqa
- mandyyyyii/scibench
- derek-thomas/ScienceQA
- TIGER-Lab/ScienceEval
- jondurbin/airoboros-3.2
- LDJnr/Capybara
- Cot-Alpaca-GPT4-From-OpenHermes-2.5
- STEM-AI-mtl/Electrical-engineering
- knowrohit07/saraswati-stem
- sablo/oasst2_curated
- glaiveai/glaive-code-assistant
- lmsys/lmsys-chat-1m
- TIGER-Lab/MathInstruct
- bigbio/med_qa
- meta-math/MetaMathQA-40K
- openbookqa
- piqa
- metaeval/reclor
- derek-thomas/ScienceQA
- scibench
- sciq
- Open-Orca/SlimOrca
- migtissera/Synthia-v1.3
- TIGER-Lab/ScienceEval 模型索引:
- 名称: Einstein-v4-7B
结果:
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: AI2推理挑战赛 (25样本)
类型: ai2_arc
配置: ARC-挑战
分割: 测试
参数:
少量样本数: 25
指标:
- 类型: 标准化准确率 值: 64.68 名称: 标准化准确率 来源: 网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=Weyaxi/Einstein-v4-7B 名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: HellaSwag (10样本)
类型: hellaswag
分割: 验证
参数:
少量样本数: 10
指标:
- 类型: 标准化准确率 值: 83.75 名称: 标准化准确率 来源: 网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=Weyaxi/Einstein-v4-7B 名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MMLU (5样本)
类型: cais/mmlu
配置: 全部
分割: 测试
参数:
少量样本数: 5
指标:
- 类型: 准确率 值: 62.31 名称: 准确率 来源: 网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=Weyaxi/Einstein-v4-7B 名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: TruthfulQA (0样本)
类型: truthful_qa
配置: 多项选择
分割: 验证
参数:
少量样本数: 0
指标:
- 类型: 多选2 值: 55.15 来源: 网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=Weyaxi/Einstein-v4-7B 名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: Winogrande (5样本)
类型: winogrande
配置: winogrande_xl
分割: 验证
参数:
少量样本数: 5
指标:
- 类型: 准确率 值: 76.24 名称: 准确率 来源: 网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=Weyaxi/Einstein-v4-7B 名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: GSM8k (5样本)
类型: gsm8k
配置: 主要
分割: 测试
参数:
少量样本数: 5
指标:
- 类型: 准确率 值: 57.62 名称: 准确率 来源: 网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=Weyaxi/Einstein-v4-7B 名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: IFEval (0样本)
类型: HuggingFaceH4/ifeval
参数:
少量样本数: 0
指标:
- 类型: 指令级别严格准确率和提示级别严格准确率 值: 47.08 名称: 严格准确率 来源: 网址: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=Weyaxi/Einstein-v4-7B 名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: BBH (3样本)
类型: BBH
参数:
少量样本数: 3
指标:
- 类型: 标准化准确率 值: 14.3 名称: 标准化准确率 来源: 网址: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=Weyaxi/Einstein-v4-7B 名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MATH 第5级 (4样本)
类型: hendrycks/competition_math
参数:
少量样本数: 4
指标:
- 类型: 精确匹配 值: 1.74 名称: 精确匹配 来源: 网址: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=Weyaxi/Einstein-v4-7B 名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: GPQA (0样本)
类型: Idavidrein/gpqa
参数:
少量样本数: 0
指标:
- 类型: 标准化准确率 值: 4.25 名称: 标准化准确率 来源: 网址: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=Weyaxi/Einstein-v4-7B 名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MuSR (0样本)
类型: TAUR-Lab/MuSR
参数:
少量样本数: 0
指标:
- 类型: 标准化准确率 值: 19.02 名称: 标准化准确率 来源: 网址: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=Weyaxi/Einstein-v4-7B 名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MMLU-PRO (5样本)
类型: TIGER-Lab/MMLU-Pro
配置: 主要
分割: 测试
参数:
少量样本数: 5
指标:
- 类型: 准确率 值: 13.99 名称: 准确率 来源: 网址: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=Weyaxi/Einstein-v4-7B 名称: 开放大模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: AI2推理挑战赛 (25样本)
类型: ai2_arc
配置: ARC-挑战
分割: 测试
参数:
少量样本数: 25
指标:
🔬 Einstein-v4-7B
该模型是基于mistralai/Mistral-7B-v0.1在多样化数据集上完整微调的版本。
该模型使用7xRTX3090
+ 1xRTXA6000
通过axolotl进行微调。
此模型的训练由sablo.ai赞助。
查看axolotl配置
axolotl版本: 0.4.0
基础模型: mistralai/Mistral-7B-v0.1
模型类型: MistralForCausalLM
分词器类型: LlamaTokenizer
是否为薄雾衍生模型: 是
8位加载: 否
4位加载: 否
严格模式: 否
聊天模板: chatml
数据集:
- 路径: data/merged_all.json
数据集类型: json
类型: alpaca
对话: chatml
- 路径: data/capybara_sharegpt.json
数据集类型: json
类型: sharegpt
对话: chatml
- 路径: data/synthia-v1.3_sharegpt_12500.json
数据集类型: json
类型: sharegpt
对话: chatml
- 路径: data/cot_alpaca_gpt4_extracted_openhermes_2.5_sharegpt.json
数据集类型: json
类型: sharegpt
对话: chatml
- 路径: data/slimorca_dedup_filtered_95k_sharegpt.json
数据集类型: json
类型: sharegpt
对话: chatml
- 路径: data/airoboros_3.2_without_contextual_slimorca_orca_sharegpt.json
数据集类型: json
类型: sharegpt
对话: chatml
数据集准备路径: last_run_prepared
验证集大小: 0.005
输出目录: ./Einstein-v4-model
序列长度: 8192
样本打包: 是
填充至序列长度: 是
评估样本打包: 否
wandb项目: Einstein
wandb实体:
wandb监视:
wandb名称:
wandb记录模型:
中心模型ID: Weyaxi/Einstein-v4-7B
保存安全张量: 是
梯度累积步数: 4
微批次大小: 1
训练轮数: 1.5
优化器: adamw_bnb_8bit
学习率调度器: cosine
学习率: 0.000005
训练输入: 否
按长度分组: 否
bf16: 是
fp16: 否
tf32: 否
梯度检查点: 是
早停耐心:
从检查点恢复:
本地排名:
日志步数: 1
xformers注意力:
闪存注意力: 是
预热步数: 10
每轮评估次数: 2 # 已更改
评估表大小:
评估表最大新标记数: 128
每轮保存次数: 4
调试:
深度速度: zero3_bf16.json
权重衰减: 0.0
fsdp:
fsdp配置:
特殊标记:
起始标记: "<s>"
结束标记: "<|im_end|>"
未知标记: "<unk>"
标记:
- "<|im_start|>"
从检查点恢复: Einstein-v4-model/checkpoint-521
💬 提示模板
使用该模型时可以使用以下提示模板:
ChatML
<|im_start|>system
{系统}<|im_end|>
<|im_start|>user
{用户}<|im_end|>
<|im_start|>assistant
{助手}<|im_end|>
该提示模板可作为聊天模板使用,这意味着您可以使用tokenizer.apply_chat_template()
方法格式化消息:
消息 = [
{"role": "system", "content": "您是有帮助的AI助手。"},
{"role": "user", "content": "你好!"}
]
生成输入 = 分词器.apply_chat_template(消息, return_tensors="pt")
模型.generate(**生成输入)
🔄 量化版本
该模型的量化版本可用。
GGUF @LoneStriker
- https://huggingface.co/LoneStriker/Einstein-v4-7B-GGUF
AWQ @solidrust
- https://huggingface.co/solidrust/Einstein-v4-7B-AWQ
Exl2 @bartowski:
- https://huggingface.co/bartowski/Einstein-v4-7B-exl2
🎯 开放大模型排行榜评估结果
详细结果可查看此处
指标 | 值 |
---|---|
平均 | 66.62 |
AI2推理挑战赛 (25样本) | 64.68 |
HellaSwag (10样本) | 83.75 |
MMLU (5样本) | 62.31 |
TruthfulQA (0样本) | 55.15 |
Winogrande (5样本) | 76.24 |
GSM8k (5样本) | 57.62 |
🎯 开放大模型排行榜v2评估结果
详细结果可查看此处
指标 | 值 |
---|---|
平均 | 16.73 |
IFEval (0样本) | 47.08 |
BBH (3样本) | 14.30 |
MATH 第5级 (4样本) | 1.74 |
GPQA (0样本) | 4.25 |
MuSR (0样本) | 19.02 |
MMLU-PRO (5样本) | 13.99 |
📚 关于该模型的一些资源、讨论和评价
🐦 公告推文:
https://twitter.com/Weyaxi/status/1765851433448944125
🔍 Reddit上r/LocalLLaMA的帖子:
- https://www.reddit.com/r/LocalLLaMA/comments/1b9gmvl/meet_einsteinv47b_mistralbased_sft_model_using/
▶️ YouTube视频
-
https://www.youtube.com/watch?v=-3YWgHJIORE&t=18s
-
https://www.youtube.com/watch?v=Xo2ySU8gja0
🤖 关于训练的额外信息
该模型完整微调了1.5轮。
总步数为1562步。
损失曲线图
🤝 致谢
感谢sablo.ai赞助该模型。
感谢数据集中提到的所有数据集作者。
感谢axolotl提供用于创建该模型的仓库。
感谢所有开源AI社区。
如果您想支持我:
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型
支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型
英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型
英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型
英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型
英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型
英语
O
facebook
6.3M
198
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers

支持多种语言
L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型
支持多种语言
T
google-t5
5.4M
702
Xlm Roberta Large
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
5.3M
431
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文