许可证:apache-2.0
数据集:
- TIGER-Lab/AceCode-87K
- bespokelabs/Bespoke-Stratos-17k
- cognitivecomputations/dolphin-r1
- tuenguyen/dolphin_r1_reasoning
- facebook/natural_reasoning
- open-r1/OpenThoughts-114k-math
- HuggingFaceTB/smoltalk
语言:
- en
基础模型:
- marin-community/marin-8b-base
标签:
- 文本生成
Marin 8B模型卡
这是Marin 8B SFT模型的模型卡。Marin项目是一个开发开源基础模型的协作计划。
数据集
Marin 8B基础模型使用的数据集
Marin 8B基础模型在多种数据集上进行了训练:
以及一些新数据集:
(我们仍在陆续上传这些数据集。前三个数据集将按其原始许可证授权。第四个基于重新表述的网络内容,将采用CC-BY-SA 4.0许可证。)
完整报告可在我们的ReadTheDocs站点查阅。
Marin 8B指导模型使用的数据集
Marin 8B指导模型目前仅为SFT模型,训练使用了以下数据集:
未来我们很可能会发布该模型的改进版本。
检查点
我们发布了多个训练检查点。其他检查点可根据请求提供。
基础模型检查点
主页:marin-community/marin-8b-base
(更多检查点正在上传中。)
main
当前指向deeper-starling
。未来可能会更改,但我们将保持模型兼容性。如需特定检查点,请使用revision
参数。
指导模型检查点
主页:marin-community/marin-8b-instruct
main
当前指向deeper-starling-05-15
。未来可能会更改,但我们将保持模型兼容性。如需特定检查点,请使用revision
参数。
安装
Marin 8B采用Llama架构,因此应可直接与Hugging Face Transformers库及任何支持Llama架构的库配合使用。
我们使用了Llama 3分词器的变体:stanford-crfm/marin-tokenizer。
推理
您可以使用标准的HuggingFace Transformers库调用Marin:
from transformers import AutoModelForCausalLM, AutoTokenizer
marin = AutoModelForCausalLM.from_pretrained("marin-community/marin-8b-base")
tokenizer = AutoTokenizer.from_pretrained("marin-community/marin-8b-base")
message = ["The Marin wind is"]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
response = marin.generate(**inputs, max_new_tokens=100, do_sample=True, top_k=50, top_p=0.95)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])
我们发布了该模型的多个检查点。如需加载特定检查点,只需添加revision
参数:
marin = AutoModelForCausalLM.from_pretrained("marin-community/marin-8b-base", revision="deeper-starling")
模型描述
- 开发团队: Stanford CRFM的Marin团队
- 模型类型: 基于Transformer的自回归语言模型
- 知识截止时间: ~2024年7月
- 支持语言: 英语
- 许可证: 代码和模型基于Apache 2.0发布
- 联系方式:
dlwh at stanford.edu
模型来源
- 项目主页: https://marin.community
- 代码库:
- 核心库(数据与实验管理):https://github.com/marin-community/marin
- 训练代码:https://github.com/stanford-crfm/levanter
- 回顾报告: https://marin.readthedocs.io/en/latest/reports/marin-8b-retro.html
- W&B日志: Marin 8B
评估
基础模型结果
我们运行了一系列标准基准测试,将我们的模型与Llama 3.1 8B、开源7-8B模型Olmo 2 7B和MAP NEO 7B进行比较。所有基准测试均使用LM Eval Harness的默认任务配置。(由于配置差异,这些数值可能与报告结果有所不同。LM Eval Harness通常比其他测试框架更严格。)
|
平均分 |
AGI评估LSAT-AR |
ARC易 |
ARC挑战 |
BBH |
BoolQ |
常识问答 |
COPA |
GPQA |
HellaSwag 0-shot |
HellaSwag 10-shot |
lambada_openai |
MMLU 5-shot |
MMLU 0-shot |
MMLU专业 |
开放书问答 |
PIQA |
WinoGrande |
WSC |
Marin 8B基础版(Starling) |
68.3 |
20.9 |
86.5 |
63.1 |
50.6 |
85.9 |
79.1 |
92.0 |
30.3 |
82.3 |
83.6 |
74.7 |
67.6 |
65.9 |
36.5 |
44.2 |
84.4 |
74.5 |
82.1 |
Llama 3.1基础版 |
67.0 |
20.4 |
85.8 |
58.9 |
46.4 |
84.2 |
75.2 |
92.0 |
32.3 |
79.4 |
81.9 |
74.7 |
66.4 |
65.5 |
33.3 |
45.8 |
82.9 |
74.4 |
83.5 |
OLMo 2基础版 |
66.7 |
17.4 |
85.0 |
60.7 |
44.4 |
85.5 |
75.4 |
89.0 |
26.8 |
80.5 |
81.7 |
73.1 |
63.9 |
61.9 |
30.6 |
46.2 |
82.5 |
74.3 |
86.1 |
MAP NEO 7B |
62.2 |
23.0 |
81.1 |
52.0 |
42.4 |
84.7 |
81.7 |
82.0 |
27.8 |
72.5 |
73.3 |
64.6 |
58.2 |
56.4 |
TODO |
39.4 |
79.0 |
66.1 |
73.3 |
Marin 8B基础版在多数任务中表现优异。
模型详情
请参阅我们的技术回顾报告了解预训练过程的更多细节。
架构详情