llama2_7b_mmlu开源AI模型 - 提升MMLU指标且稳定其他指标表现

首页

Llama2 7b Mmlu

由 itsliupeng 开发

基于Llama-2-7b-hf模型在MMLU数据集上持续训练，提升MMLU指标表现的同时保持其他指标稳定

大型语言模型

Transformers

英语开源协议:Apache-2.0 #MMLU性能优化 #多任务文本生成 #低资源高效推理

下载量 120

发布时间 : 10/10/2023

模型简介

该模型是Llama-2-7b-hf的改进版本，通过mmlu_recall数据集进行持续训练，专注于提升在MMLU基准测试中的表现，同时确保其他能力指标不受影响。

模型特点

MMLU性能提升

通过mmlu_recall数据集持续训练，MMLU指标达到60.04，相比原版有显著提升

多任务能力保持

在提升MMLU表现的同时，保持了ARC、HellaSwag等其他基准测试的稳定性能

开源许可

采用Apache-2.0许可证，允许商业和研究使用

模型能力

文本生成

知识问答

语言理解

推理能力

使用案例

教育

学术问答系统

用于回答各类学术问题，特别是需要广泛知识面的问题

在MMLU基准测试中表现优异

研究

模型性能研究

研究持续训练对特定指标的影响

实现了特定指标提升而不影响其他能力

指标	数值
平均值	46.31
ARC (25-shot)	56.14
HellaSwag (10-shot)	79.13
MMLU (5-shot)	60.04
TruthfulQA (0-shot)	40.95
Winogrande (5-shot)	74.43
GSM8K (5-shot)	7.88
DROP (3-shot)	5.59

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Llama2 7b Mmlu

模型简介

模型特点

模型能力

使用案例

🚀 基于Llama-2-7b-hf的文本生成模型

🚀 快速开始

✨ 主要特性

📚 详细文档

Open LLM Leaderboard评估结果

📄 许可证