语言:
- 英文
数据集:
- garage-bAInd/Open-Platypus
许可证: cc-by-nc-4.0
Camel-Platypus2-70B
Camel-Platypus2-70B 是由 garage-bAInd/Platypus2-70B
和 augtoma/qCammel-70-x
合并而成的模型。

模型详情
- 训练者: Platypus2-70B 由 Cole Hunter 和 Ariel Lee 训练;augtoma/qCammel-70-x 由 augtoma 训练
- 模型类型: Camel-Platypus2-70B 是一个基于 LLaMA 2 变压器架构的自回归语言模型。
- 语言: 英文
- 许可证: 非商业性知识共享许可 (CC BY-NC-4.0)
提示模板
### 指令:
<prompt> (去掉<>)
### 响应:
训练数据集
garage-bAInd/Platypus2-70B
使用 STEM 和逻辑基础的数据集 garage-bAInd/Open-Platypus
进行训练。
更多信息请参阅我们的论文和项目网页。
训练过程
garage-bAInd/Platypus2-70B
使用 LoRA 在 8 块 A100 80GB GPU 上进行了指令微调。训练细节和推理说明请参阅 Platypus GitHub 仓库。
复现评估结果
安装 LM 评估工具:
# 克隆仓库
git clone https://github.com/EleutherAI/lm-evaluation-harness.git
# 进入仓库目录
cd lm-evaluation-harness
# 检出指定提交
git checkout b281b0921b636bc36ad05c0b0b0763bd6dd43463
# 安装
pip install -e .
每项任务均在单块 A100 80GB GPU 上评估。
ARC:
python main.py --model hf-causal-experimental --model_args pretrained=garage-bAInd/Camel-Platypus2-70B --tasks arc_challenge --batch_size 1 --no_cache --write_out --output_path results/Camel-Platypus2-70B/arc_challenge_25shot.json --device cuda --num_fewshot 25
HellaSwag:
python main.py --model hf-causal-experimental --model_args pretrained=garage-bAInd/Camel-Platypus2-70B --tasks hellaswag --batch_size 1 --no_cache --write_out --output_path results/Camel-Platypus2-70B/hellaswag_10shot.json --device cuda --num_fewshot 10
MMLU:
python main.py --model hf-causal-experimental --model_args pretrained=garage-bAInd/Camel-Platypus2-70B --tasks hendrycksTest-* --batch_size 1 --no_cache --write_out --output_path results/Camel-Platypus2-70B/mmlu_5shot.json --device cuda --num_fewshot 5
TruthfulQA:
python main.py --model hf-causal-experimental --model_args pretrained=garage-bAInd/Camel-Platypus2-70B --tasks truthfulqa_mc --batch_size 1 --no_cache --write_out --output_path results/Camel-Platypus2-70B/truthfulqa_0shot.json --device cuda
局限性与偏差
Llama 2 及其微调变体是一项新技术,使用时存在风险。迄今为止的测试仅限于英文,并未涵盖也不可能涵盖所有场景。因此,与所有大型语言模型一样,Llama 2 及其任何微调变体的潜在输出无法提前预测,模型在某些情况下可能对用户提示产生不准确、有偏见或其他令人反感的响应。因此,在部署任何 Llama 2 变体应用之前,开发者应进行针对其具体应用场景的安全测试和调优。
请参阅负责任使用指南: https://ai.meta.com/llama/responsible-use-guide/
引用文献
@article{platypus2023,
title={Platypus: Quick, Cheap, and Powerful Refinement of LLMs},
author={Ariel N. Lee and Cole J. Hunter and Nataniel Ruiz},
booktitle={arXiv preprint arxiv:2308.07317},
year={2023}
}
@misc{touvron2023llama,
title={Llama 2: Open Foundation and Fine-Tuned Chat Models},
author={Hugo Touvron and Louis Martin and Kevin Stone and Peter Albert and Amjad Almahairi and Yasmine Babaei and Nikolay Bashlykov year={2023},
eprint={2307.09288},
archivePrefix={arXiv},
}
@inproceedings{
hu2022lora,
title={Lo{RA}: Low-Rank Adaptation of Large Language Models},
author={Edward J Hu and Yelong Shen and Phillip Wallis and Zeyuan Allen-Zhu and Yuanzhi Li and Shean Wang and Lu Wang and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2022},
url={https://openreview.net/forum?id=nZeVKeeFYf9}
}
详细结果请查看此处
指标 |
值 |
平均值 |
64.23 |
ARC (25样本) |
71.08 |
HellaSwag (10样本) |
87.6 |
MMLU (5样本) |
70.04 |
TruthfulQA (0样本) |
58.09 |
Winogrande (5样本) |
83.82 |
GSM8K (5样本) |
22.9 |
DROP (3样本) |
56.1 |