语言:
- 英文
数据集:
- garage-bAInd/Open-Platypus
- Open-Orca/OpenOrca
许可证: cc-by-nc-4.0
Platypus2-70B-instruct
Platypus-70B-instruct 是 garage-bAInd/Platypus2-70B
和 upstage/Llama-2-70b-instruct-v2
的合并模型。

模型详情
- 训练者: Platypus2-70B 由 Cole Hunter 和 Ariel Lee 训练;Llama-2-70b-instruct 由 upstageAI 训练
- 模型类型: Platypus2-70B-instruct 是基于 LLaMA 2 变换器架构的自回归语言模型。
- 语言: 英语
- 许可证: 非商业性知识共享许可 (CC BY-NC-4.0)
提示模板
### 指令:
<prompt> (不带<>)
### 响应:
训练数据集
garage-bAInd/Platypus2-70B
使用 STEM 和逻辑基础的数据集 garage-bAInd/Open-Platypus
进行训练。
更多信息请参阅我们的论文和项目网页。
训练过程
garage-bAInd/Platypus2-70B
使用 LoRA 在 8 个 A100 80GB GPU 上进行指令微调。训练细节和推理说明请参阅 Platypus GitHub 仓库。
复现评估结果
安装 LM 评估工具:
# 克隆仓库
git clone https://github.com/EleutherAI/lm-evaluation-harness.git
# 进入仓库目录
cd lm-evaluation-harness
# 检出指定提交
git checkout b281b0921b636bc36ad05c0b0b0763bd6dd43463
# 安装
pip install -e .
每个任务在单个 A100 80GB GPU 上评估。
ARC:
python main.py --model hf-causal-experimental --model_args pretrained=garage-bAInd/Platypus2-70B-instruct --tasks arc_challenge --batch_size 1 --no_cache --write_out --output_path results/Platypus2-70B-instruct/arc_challenge_25shot.json --device cuda --num_fewshot 25
HellaSwag:
python main.py --model hf-causal-experimental --model_args pretrained=garage-bAInd/Platypus2-70B-instruct --tasks hellaswag --batch_size 1 --no_cache --write_out --output_path results/Platypus2-70B-instruct/hellaswag_10shot.json --device cuda --num_fewshot 10
MMLU:
python main.py --model hf-causal-experimental --model_args pretrained=garage-bAInd/Platypus2-70B-instruct --tasks hendrycksTest-* --batch_size 1 --no_cache --write_out --output_path results/Platypus2-70B-instruct/mmlu_5shot.json --device cuda --num_fewshot 5
TruthfulQA:
python main.py --model hf-causal-experimental --model_args pretrained=garage-bAInd/Platypus2-70B-instruct --tasks truthfulqa_mc --batch_size 1 --no_cache --write_out --output_path results/Platypus2-70B-instruct/truthfulqa_0shot.json --device cuda
局限性与偏见
LLaMA 2 及其微调变体是一项新技术,使用时存在风险。迄今为止的测试仅限于英语,并未覆盖也不可能覆盖所有场景。因此,与所有大型语言模型一样,LLaMA 2 及其任何微调变体的潜在输出无法提前预测,模型在某些情况下可能对用户提示产生不准确、偏见或其他令人不快的响应。因此,在部署任何 LLaMA 2 变体应用之前,开发者应进行针对其特定应用场景的安全测试和调优。
请参阅负责任使用指南:https://ai.meta.com/llama/responsible-use-guide/
引用
@article{platypus2023,
title={Platypus: Quick, Cheap, and Powerful Refinement of LLMs},
author={Ariel N. Lee and Cole J. Hunter and Nataniel Ruiz},
booktitle={arXiv preprint arxiv:2308.07317},
year={2023}
}
@misc{touvron2023llama,
title={Llama 2: Open Foundation and Fine-Tuned Chat Models},
author={Hugo Touvron and Louis Martin and Kevin Stone and Peter Albert and Amjad Almahairi and Yasmine Babaei and Nikolay Bashlykov year={2023},
eprint={2307.09288},
archivePrefix={arXiv},
}
@inproceedings{
hu2022lora,
title={Lo{RA}: Low-Rank Adaptation of Large Language Models},
author={Edward J Hu and Yelong Shen and Phillip Wallis and Zeyuan Allen-Zhu and Yuanzhi Li and Shean Wang and Lu Wang and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2022},
url={https://openreview.net/forum?id=nZeVKeeFYf9}
}
详细结果请见此处
指标 |
值 |
平均分 |
66.89 |
ARC (25次示例) |
71.84 |
HellaSwag (10次示例) |
87.94 |
MMLU (5次示例) |
70.48 |
TruthfulQA (0次示例) |
62.26 |
Winogrande (5次示例) |
82.72 |
GSM8K (5次示例) |
40.56 |
DROP (3次示例) |
52.41 |