模型简介
模型特点
模型能力
使用案例
许可证:mit
许可证链接:https://huggingface.co/microsoft/Phi-3.5-MoE-instruct/resolve/main/LICENSE
语言:
- 多语言
任务标签:文本生成
标签: - nlp
- 代码
小部件示例: - 消息:
- 角色:用户
内容:你能提供香蕉和火龙果的搭配吃法吗?
库名称:transformers
- 角色:用户
模型概述
Phi-3.5-MoE 是一个轻量级、最先进的开源模型,基于 Phi-3 使用的数据集构建——包括合成数据和经过筛选的公开文档——重点关注高质量、推理密集的数据。该模型支持多语言,并具有 128K 的上下文长度(以 token 计)。模型经过严格的增强流程,包括监督微调、近端策略优化和直接偏好优化,以确保精确的指令遵循和强大的安全措施。
üè° Phi-3 门户
üì∞ Phi-3 微软博客
üìñ Phi-3 技术报告
üë©‚Äçüç≥ Phi-3 使用指南
üñ•Ô∏è 试用
MoE 相关参考:
üìúPhi-3.5-MoE 博客 | üòÅGRIN MoE
Phi-3.5: [mini-instruct]; [MoE-instruct] ; [vision-instruct]
预期用途
主要用例
该模型适用于多语言的商业和研究用途。模型为通用人工智能系统和应用程序提供支持,适用于以下场景:
- 内存/计算受限的环境
- 延迟敏感的场景
- 强推理需求(尤其是代码、数学和逻辑)
我们的模型旨在加速语言和多模态模型的研究,作为生成式 AI 功能的构建模块。
用例注意事项
我们的模型并非为所有下游用途专门设计或评估。开发者在选择用例时应考虑语言模型的常见限制,并在特定下游用例(尤其是高风险场景)中评估和缓解准确性、安全性和公平性问题。开发者应了解并遵守适用于其用例的法律法规(包括隐私、贸易合规法律等)。
本模型卡中的任何内容均不应解释为对模型发布许可证的限制或修改。
使用方法
要求
Phi-3.5-MoE-instruct 从 4.46.0 版本开始集成到官方 transformers
中。
可通过以下命令验证当前 transformers
版本:pip list | grep transformers
。
所需包示例:
flash_attn==2.5.8
torch==2.3.1
accelerate==0.31.0
transformers==4.46.0
Phi-3.5-MoE-instruct 也可在 Azure AI Studio 中使用。
分词器
Phi-3.5-MoE-Instruct 支持最多 32064
个 token 的词汇量。分词器文件已提供可用于下游微调的占位 token,但也可以扩展到模型的词汇量上限。
输入格式
鉴于训练数据的性质,Phi-3.5-MoE-instruct 模型最适合使用以下聊天格式的提示:
<|system|>
你是一个乐于助人的助手。<|end|>
<|user|>
如何向中世纪骑士解释互联网?<|end|>
<|assistant|>
本地加载模型
获取 Phi-3.5-MoE-instruct 模型检查点后,用户可以使用以下示例代码进行推理。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
torch.random.manual_seed(0)
model = AutoModelForCausalLM.from_pretrained(
"microsoft/Phi-3.5-MoE-instruct",
device_map="cuda",
torch_dtype="auto",
trust_remote_code=False,
)
tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3.5-MoE-instruct")
messages = [
{"role": "system", "content": "你是一个乐于助人的 AI 助手。"},
{"role": "user", "content": "你能提供香蕉和火龙果的搭配吃法吗?"},
{"role": "assistant", "content": "当然!以下是香蕉和火龙果的一些搭配吃法:1. 香蕉火龙果奶昔:将香蕉和火龙果与牛奶和蜂蜜一起搅拌。2. 香蕉火龙果沙拉:将切片的香蕉和火龙果混合,加入柠檬汁和蜂蜜。"},
{"role": "user", "content": "如何解方程 2x + 3 = 7?"},
]
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
)
generation_args = {
"max_new_tokens": 500,
"return_full_text": False,
"temperature": 0.0,
"do_sample": False,
}
output = pipe(messages, **generation_args)
print(output[0]['generated_text'])
基准测试
为了了解模型的能力,我们通过内部基准平台将 Phi-3.5-MoE 与一组模型在多个基准上进行了比较。以下是模型在代表性基准上的高质量概述:
类别 | 基准 | Phi-3.5-MoE-instruct | Mistral-Nemo-12B-instruct-2407 | Llama-3.1-8B-instruct | Gemma-2-9b-It | Gemini-1.5-Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|
热门综合基准 | Arena Hard | 37.9 | 39.4 | 25.7 | 42.0 | 55.2 | 75.0 |
BigBench Hard CoT (0-shot) | 79.1 | 60.2 | 63.4 | 63.5 | 66.7 | 80.4 | |
MMLU (5-shot) | 78.9 | 67.2 | 68.1 | 71.3 | 78.7 | 77.2 | |
MMLU-Pro (0-shot, CoT) | 54.3 | 40.7 | 44.0 | 50.1 | 57.2 | 62.8 | |
推理 | ARC Challenge (10-shot) | 91.0 | 84.8 | 83.1 | 89.8 | 92.8 | 93.5 |
BoolQ (2-shot) | 84.6 | 82.5 | 82.8 | 85.7 | 85.8 | 88.7 | |
GPQA (0-shot, CoT) | 36.8 | 28.6 | 26.3 | 29.2 | 37.5 | 41.1 | |
HellaSwag (5-shot) | 83.8 | 76.7 | 73.5 | 80.9 | 67.5 | 87.1 | |
OpenBookQA (10-shot) | 89.6 | 84.4 | 84.8 | 89.6 | 89.0 | 90.0 | |
PIQA (5-shot) | 88.6 | 83.5 | 81.2 | 83.7 | 87.5 | 88.7 | |
Social IQA (5-shot) | 78.0 | 75.3 | 71.8 | 74.7 | 77.8 | 82.9 | |
TruthfulQA (MC2) (10-shot) | 77.5 | 68.1 | 69.2 | 76.6 | 76.6 | 78.2 | |
WinoGrande (5-shot) | 81.3 | 70.4 | 64.7 | 74.0 | 74.7 | 76.9 | |
多语言 | 多语言 MMLU (5-shot) | 69.9 | 58.9 | 56.2 | 63.8 | 77.2 | 72.9 |
MGSM (0-shot CoT) | 58.7 | 63.3 | 56.7 | 75.1 | 75.8 | 81.7 | |
数学 | GSM8K (8-shot, CoT) | 88.7 | 84.2 | 82.4 | 84.9 | 82.4 | 91.3 |
MATH (0-shot, CoT) | 59.5 | 31.2 | 47.6 | 50.9 | 38.0 | 70.2 | |
长上下文 | Qasper | 40.0 | 30.7 | 37.2 | 13.9 | 43.5 | 39.8 |
SQuALITY | 24.1 | 25.8 | 26.2 | 0.0 | 23.5 | 23.8 | |
代码生成 | HumanEval (0-shot) | 70.7 | 63.4 | 66.5 | 61.0 | 74.4 | 86.6 |
MBPP (3-shot) | 80.8 | 68.1 | 69.4 | 69.3 | 77.5 | 84.1 | |
平均 | 69.2 | 61.3 | 61.0 | 63.3 | 68.5 | 74.9 |
我们在下表中更详细地查看了 80 个公共基准数据集的不同类别:
类别 | Phi-3.5-MoE-instruct | Mistral-Nemo-12B-instruct-2407 | Llama-3.1-8B-instruct | Gemma-2-9b-It | Gemini-1.5-Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|
热门综合基准 | 62.6 | 51.9 | 50.3 | 56.7 | 64.5 | 73.9 |
推理 | 78.7 | 72.2 | 70.5 | 75.4 | 77.7 | 80.0 |
语言理解 | 71.8 | 67.0 | 62.9 | 72.8 | 66.6 | 76.8 |
鲁棒性 | 75.6 | 65.2 | 59.8 | 64.7 | 68.9 | 77.5 |
长上下文 | 25.5 | 24.5 | 25.5 | 0.0 | 27.0 | 25.4 |
数学 | 74.1 | 57.7 | 65.0 | 67.9 | 60.2 | 80.8 |
代码生成 | 68.3 | 56.9 | 65.8 | 58.3 | 66.8 | 69.9 |
多语言 | 65.8 | 55.3 | 47.5 | 59.6 | 64.3 | 76.6 |
总体而言,Phi-3.5-MoE 仅使用 6.6B 活跃参数,在语言理解和数学方面达到了与更大模型相似的水平。此外,模型在推理能力上优于更大的模型,仅次于 GPT-4o-mini。然而,由于模型规模的限制,在某些任务上仍存在根本性不足。模型没有足够的容量存储太多事实知识,因此用户可能会遇到事实错误。但我们相信,通过将 Phi-3.5 与搜索引擎结合使用(尤其是在 RAG 设置下),可以解决这一弱点。
多语言
下表展示了 Phi-3.5-MoE 在多语言 MMLU、MEGA 和多语言 MMLU-pro 数据集上的多语言能力。总体而言,我们观察到,即使仅使用 6.6B 活跃参数,模型在多语言任务上的表现也与其他具有更大活跃参数的模型非常具有竞争力。
类别 | Phi-3.5-MoE-instruct | Mistral-Nemo-12B-instruct-2407 | Llama-3.1-8B-instruct | Gemma-2-9b-It | Gemini-1.5-Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|
多语言 MMLU | 69.9 | 58.9 | 56.2 | 63.8 | 77.2 | 72.9 |
多语言 MMLU-Pro | 45.3 | 34.0 | 21.4 | 43.0 | 57.9 | 53.2 |
MGSM | 58.7 | 63.3 | 56.7 | 75.1 | 75.8 | 81.7 |
MEGA MLQA | 65.3 | 61.2 | 45.2 | 54.4 | 61.6 | 70.0 |
MEGA TyDi QA | 67.1 | 63.7 | 54.5 | 65.6 | 63.6 | 81.8 |
MEGA UDPOS | 60.4 | 58.2 | 54.1 | 56.6 | 62.4 | 66.0 |
MEGA XCOPA | 76.6 | 10.8 | 21.1 | 31.2 | 95.0 | 90.3 |
MEGA XStoryCloze | 82.8 | 92.3 | 71.0 | 87.0 | 20.7 | 96.6 |
平均 | 65.8 | 55.3 | 47.5 | 59.6 | 64.3 | 76.6 |
长上下文
Phi-3.5-MoE 支持 128K 上下文长度,因此模型能够处理多个长上下文任务,包括长文档/会议摘要、长文档问答、多语言上下文检索。我们看到 Phi-3.5 明显优于仅支持 8K 上下文长度的 Gemma-2 系列。Phi-3.5-MoE-instruct 与其他更大的开放权重模型(如 Llama-3.1-8B-instruct 和 Mistral-Nemo-12B-instruct-2407)相比非常具有竞争力。
基准 | Phi-3.5-MoE-instruct | Mistral-Nemo-12B-instruct-2407 | Llama-3.1-8B-instruct | Gemini-1.5-Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|
GovReport | 26.4 | 25.6 | 25.1 | 27.8 | 24.8 |
QMSum | 19.9 | 22.1 | 21.6 | 24.0 | 21.7 |
Qasper | 40.0 | 30.7 | 37.2 | 43.5 | 39.8 |
SQuALITY | 24.1 | 25.8 | 26.2 | 23.5 | 23.8 |
SummScreenFD | 16.9 | 18.2 | 17.6 | 16.3 | 17.0 |
平均 | 25.5 | 24.5 | 25.5 | 27.0 | 25.4 |
RULER:一个基于检索的长上下文理解基准
模型 | 4K | 8K | 16K | 32K | 64K | 128K | 平均 |
---|---|---|---|---|---|---|---|
Phi-3.5-MoE-instruct | 94.8 | 93 | 93.2 | 91.6 | 85.7 | 64.2 | 87.1 |
Llama-3.1-8B-instruct | 95.5 | 93.8 | 91.6 | 87.4 | 84.7 | 77.0 | 88.3 |
Mistral-Nemo-12B-instruct-2407 | 87.8 | 87.2 | 87.7 | 69.0 | 46.8 | 19.0 | 66.2 |
RepoQA:长上下文代码理解基准
模型 | Python | C++ | Rust | Java | TypeScript | 平均 |
---|---|---|---|---|---|---|
Phi-3.5-MoE-instruct | 89 | 74 | 81 | 88 | 95 | 85 |
Llama-3.1-8B-instruct | 80 | 65 | 73 | 76 | 63 | 71 |
Mistral-7B-instruct-v0.3 | 61 | 57 | 51 | 61 | 80 | 62 |
训练
模型
架构: Phi-3.5-MoE 具有 16x3.8B 参数,在使用 2 个专家时活跃参数为 6.6B。模型是一个基于混合专家(Mixture-of-Expert)的解码器 Transformer 模型,使用词汇量为 32,064 的分词器。
输入: 文本。最适合使用聊天格式的提示。
上下文长度: 128K token
GPU: 512 H100-80G
训练时间: 23 天
训练数据: 4.9T token
输出: 响应输入的生成文本
训练时间: 2024 年 4 月至 8 月
状态: 这是一个基于离线数据集训练的静态模型,公开数据的截止日期为 2023 年 10 月。随着模型的改进,未来可能会发布调整后的版本。
支持语言: 阿拉伯语、中文、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、德语、希伯来语、匈牙利语、意大利语、日语、韩语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语、泰语、土耳其语、乌克兰语
发布日期: 2024 年 8 月
训练数据集
我们的训练数据包括多种来源,总计 4.9 万亿 token(包括 10% 的多语言数据),是以下数据的组合:
- 经过严格质量筛选的公开文档、精选的高质量教育数据和代码;
- 新创建的合成、“教科书式”数据,用于教授数学、编码、常识推理、世界常识(科学、日常活动、心智理论等);
- 高质量聊天格式监督数据,涵盖各种主题,以反映人类在指令遵循、真实性、诚实性和帮助性等方面的偏好。
我们专注于可能提高模型推理能力的数据质量,并对公开文档进行筛选以包含适当的知识水平。例如,英超联赛某一天的比赛结果可能是前沿模型的良好训练数据,但对于小规模模型,我们需要删除此类信息,以便为推理保留更多模型容量。更多数据详情请参阅 Phi-3 技术报告。
负责任 AI 考虑
与其他语言模型一样,Phi 系列模型可能会表现出不公平、不可靠或冒犯性的行为。需要注意的一些限制行为包括:
- 服务质量:Phi 模型主要基于英语文本和一些额外的多语言文本进行训练。非英语语言将表现较差,并且在非英语语言之间存在性能差异。训练数据中代表性较低的英语变体可能比标准美式英语表现更差。
- 多语言性能和安全性差距:我们认为让语言模型在更多语言中更广泛可用非常重要,但 Phi 3 模型仍然表现出多语言发布中常见的挑战。与任何 LLM 部署一样,开发者应更好地测试其语言和文化背景下的性能或安全性差距,并通过额外的微调和适当的安全措施定制模型。
- 危害表现和刻板印象的延续:这些模型可能会过度或不足地代表某些人群,抹去某些群体的代表性,或强化贬低或负面的刻板印象。尽管进行了安全后训练,但由于不同群体的代表性水平、文化背景或训练数据中负面刻板印象示例的普遍性(反映了现实世界的模式和社会偏见),这些限制可能仍然存在。
- 不适当或冒犯性内容:这些模型可能会产生其他类型的不适当或冒犯性内容,因此在敏感环境中部署时可能需要额外的用例特定缓解措施。
- 信息可靠性:语言模型可能会生成无意义的内容或编造听起来合理但不准确或过时的内容。
- 代码范围有限:Phi-3 的大部分训练数据基于 Python 并使用常见包(如 "typing, math, random, collections, datetime, itertools")。如果模型生成使用其他包或其他语言的 Python 脚本,我们强烈建议用户手动验证所有 API 使用。
- 长对话:与其他模型一样,Phi-3 模型在某些情况下可能会在非常长的聊天会话中(无论是英语还是非英语)生成重复、无帮助或不一致的响应。开发者应放置适当的缓解措施,例如限制对话轮次以应对可能的对话漂移。
开发者应应用负责任 AI 的最佳实践,包括映射、测量和缓解与其特定用例和文化、语言背景相关的风险。Phi-3 系列模型是通用模型。当开发者计划将这些模型部署到特定用例时,鼓励他们针对其用例微调模型,并将模型作为具有语言特定安全措施的更广泛 AI 系统的一部分。需要考虑的重要领域包括:
- 分配:模型可能不适合对法律地位或资源或生活机会分配(例如住房、就业、信贷等)有重大影响的场景,除非进行进一步评估并采用额外的去偏技术。
- 高风险场景:开发者应评估在高风险场景中使用模型的适用性,其中不公平、不可靠或冒犯性的输出可能代价极高或导致伤害。这包括在准确性和可靠性至关重要的敏感或专业领域(例如法律或健康建议)提供建议。应根据部署上下文在应用程序级别实施额外的安全措施。
- 错误信息:模型可能会产生不准确的信息。开发者应遵循透明度最佳实践,并告知最终用户他们正在与 AI 系统交互。在应用程序级别,开发者可以构建反馈机制和管道,将响应基于用例特定的上下文信息,这种技术称为检索增强生成(RAG)。
- 有害内容生成:开发者应根据其上下文评估输出,并使用适用于其用例的可用安全分类器或自定义解决方案。
- 滥用:其他形式的滥用(如欺诈、垃圾邮件或恶意软件生产)可能存在,开发者应确保其应用程序不违反适用的法律法规。
安全评估和红队测试
我们利用各种评估技术(包括红队测试、对抗性对话模拟和多语言安全评估基准数据集)来评估 Phi-3.5 模型在多种语言和风险类别中产生不良输出的倾向。
使用了多种方法来弥补单一方法的局限性。各种评估方法的发现表明,如 Phi-3 安全后训练论文 中详述的安全后训练对多种语言和风险类别产生了积极影响,表现为拒绝率(拒绝输出不良输出)和对越狱技术的鲁棒性。
然而,需要注意的是,虽然对之前发布的 Phi 模型的所有模型进行了全面的红队评估,但本次发布主要针对 Phi-3.5 MOE 在多种语言和风险类别上进行了红队测试,因为它是三个模型中最大、能力最强的模型。
有关 Phi 模型之前红队评估的详细信息,请参阅 Phi-3 安全后训练论文。
对于本次发布,红队测试的见解表明,模型可能会拒绝用英语生成不良输出,即使不良输出的请求是用其他语言提出的。模型在英语和非英语语言中也可能更容易受到多轮越狱技术的影响。
这些发现凸显了行业范围内需要投资开发高质量的安全评估数据集,涵盖多种语言(包括低资源语言)和风险领域,并考虑这些语言所在文化的细微差别。
软件
硬件
请注意,默认情况下,Phi-3.5-MoE-instruct 模型使用 flash attention,这需要特定类型的 GPU 硬件才能运行。我们已在以下 GPU 类型上进行了测试:
- NVIDIA A100
- NVIDIA A6000
- NVIDIA H100
许可证
该模型根据 MIT 许可证 授权。
商标
本项目可能包含项目、产品或服务的商标或徽标。微软商标或徽标的授权使用必须遵循 微软商标和品牌指南。对本项目的修改版本中使用微软商标或徽标不得引起混淆或暗示微软的赞助。任何第三方商标或徽标的使用均受这些第三方的政策约束。
附录 A:韩语基准测试
提示与 CLIcK 论文 中的提示相同。以下实验结果是在 max_tokens=512(零样本)、max_tokens=1024(5-shot)、temperature=0.01 的条件下给出的。未使用系统提示。
- GPT-4o:2024-05-13 版本
- GPT-4o-mini:2024-07-18 版本
- GPT-4-turbo:2024-04-09 版本
- GPT-3.5-turbo:2023-06-13 版本
总体而言,仅使用 6.6B 活跃参数的 Phi-3.5 MoE 模型优于 GPT-3.5-Turbo。
基准测试 | Phi-3.5-MoE-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
CLIcK | 56.44 | 29.12 | 47.82 | 80.46 | 68.5 | 72.82 | 50.98 |
HAERAE 1.0 | 61.83 | 36.41 | 53.9 | 85.7 | 76.4 | 77.76 | 52.67 |
KMMLU (0-shot, CoT) | 47.43 | 30.82 | 38.54 | 64.26 | 52.63 | 58.75 | 40.3 |
KMMLU (5-shot) | 47.92 | 29.98 | 20.21 | 64.28 | 51.62 | 59.29 | 42.28 |
KMMLU-HARD (0-shot, CoT) | 25.34 | 25.68 | 24.03 | 39.62 | 24.56 | 30.56 | 20.97 |
KMMLU-HARD (5-shot) | 25.66 | 25.73 | 15.81 | 40.94 | 24.63 | 31.12 | 21.19 |
平均 | 45.82 | 29.99 | 29.29 | 62.54 | 50.08 | 56.74 | 39.61 |
CLIcK(韩语文化和语言智能)
按超类别的准确性
超类别 | Phi-3.5-MoE-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
文化 | 58.44 | 29.74 | 51.15 | 81.89 | 70.95 | 73.61 | 53.38 |
语言 | 52.31 | 27.85 | 40.92 | 77.54 | 63.54 | 71.23 | 46 |
总体 | 56.44 | 29.12 | 47.82 | 80.46 | 68.5 | 72.82 | 50.98 |
按类别的准确性
超类别 | 类别 | Phi-3.5-MoE-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|---|
文化 | 经济 | 77.97 | 28.81 | 66.1 | 94.92 | 83.05 | 89.83 | 64.41 |
文化 | 地理 | 60.31 | 29.01 | 54.2 | 80.15 | 77.86 | 82.44 | 53.44 |
文化 | 历史 | 33.93 | 30 | 29.64 | 66.92 | 48.4 | 46.4 | 31.79 |
文化 | 法律 | 52.51 | 22.83 | 44.29 | 70.78 | 57.53 | 61.19 | 41.55 |
文化 | 政治 | 70.24 | 33.33 | 59.52 | 88.1 | 83.33 | 89.29 | 65.48 |
文化 | 流行文化 | 80.49 | 34.15 | 60.98 | 97.56 | 85.37 | 92.68 | 75.61 |
文化 | 社会 | 74.43 | 31.72 | 65.05 | 92.88 | 85.44 | 86.73 | 71.2 |
文化 | 传统 | 58.11 | 31.98 | 54.95 | 87.39 | 74.77 | 79.28 | 55.86 |
语言 | 功能 | 48 | 24 | 32.8 | 84.8 | 64.8 | 80 | 40 |
语言 | 语法 | 29.58 | 23.33 | 22.92 | 57.08 | 42.5 | 47.5 | 30 |
语言 | 文本 | 73.33 | 33.33 | 59.65 | 91.58 | 80.7 | 87.37 | 62.11 |
HAERAE 1.0
类别 | Phi-3.5-MoE-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
常识 | 39.77 | 28.41 | 34.66 | 77.27 | 53.41 | 66.48 | 40.91 |
历史 | 60.64 | 22.34 | 44.15 | 92.02 | 84.57 | 78.72 | 30.32 |
外来词 | 70.41 | 35.5 | 63.31 | 79.88 | 76.33 | 78.11 | 59.17 |
罕见词 | 63.95 | 42.96 | 63.21 | 87.9 | 81.98 | 79.01 | 61.23 |
阅读理解 | 64.43 | 41.16 | 51.9 | 85.46 | 77.18 | 80.09 | 56.15 |
标准命名 | 66.01 | 32.68 | 58.82 | 88.89 | 75.82 | 79.08 | 53.59 |
总体 | 61.83 | 36.41 | 53.9 | 85.7 | 76.4 | 77.76 | 52.67 |
KMMLU (0-shot, CoT)
超类别 | Phi-3.5-MoE-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
应用科学 | 45.15 | 31.68 | 37.03 | 61.52 | 49.29 | 55.98 | 38.47 |
人文社科 | 49.75 | 26.47 | 37.29 | 69.45 | 56.59 | 63 | 40.9 |
其他 | 47.24 | 31.01 | 39.15 | 63.79 | 52.35 | 57.53 | 40.19 |
STEM | 49.08 | 31.9 | 40.42 | 65.16 | 54.74 | 60.84 | 42.24 |
总体 | 47.43 | 30.82 | 38.54 | 64.26 | 52.63 | 58.75 | 40.3 |
KMMLU (5-shot)
超类别 | Phi-3.5-MoE-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
应用科学 | 45.9 |


