模型简介
模型特点
模型能力
使用案例
🚀 Phi-4
Phi-4是一款先进的模型,提供了多模态指令和ONNX等不同版本,可满足多种应用场景的需求。
版本链接
- [multimodal-instruct | onnx]
- [mini-instruct | onnx]
✨ 主要特性
模型概述
Phi-3.5-mini是一个轻量级、最先进的开放模型。它基于Phi-3使用的数据集构建,包括合成数据和经过筛选的公开网站数据,尤其注重高质量、富含推理的数据。该模型属于Phi-3模型家族,支持128K的令牌上下文长度。经过严格的增强过程,包括监督微调、近端策略优化和直接偏好优化,确保了模型能够精确遵循指令并具备强大的安全措施。
相关链接
Phi-3.5版本链接
📦 安装指南
环境要求
Phi-3系列已集成到transformers
的4.43.0
版本中。可以使用以下命令验证当前transformers
的版本:
pip list | grep transformers
依赖包示例
flash_attn==2.5.8
torch==2.3.1
accelerate==0.31.0
transformers==4.43.0
其他使用途径
Phi-3.5-mini-instruct也可以在 Azure AI Studio 中使用。
💻 使用示例
基础用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
torch.random.manual_seed(0)
model = AutoModelForCausalLM.from_pretrained(
"microsoft/Phi-3.5-mini-instruct",
device_map="cuda",
torch_dtype="auto",
trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3.5-mini-instruct")
messages = [
{"role": "system", "content": "You are a helpful AI assistant."},
{"role": "user", "content": "Can you provide ways to eat combinations of bananas and dragonfruits?"},
{"role": "assistant", "content": "Sure! Here are some ways to eat bananas and dragonfruits together: 1. Banana and dragonfruit smoothie: Blend bananas and dragonfruits together with some milk and honey. 2. Banana and dragonfruit salad: Mix sliced bananas and dragonfruits together with some lemon juice and honey."},
{"role": "user", "content": "What about solving an 2x + 3 = 7 equation?"},
]
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
)
generation_args = {
"max_new_tokens": 500,
"return_full_text": False,
"temperature": 0.0,
"do_sample": False,
}
output = pipe(messages, **generation_args)
print(output[0]['generated_text'])
注意事项
如果想使用闪存注意力机制,可以在调用AutoModelForCausalLM.from_pretrained()
时添加attn_implementation="flash_attention_2"
参数。
📚 详细文档
预期用途
主要用例
该模型旨在用于多语言的商业和研究场景。适用于通用人工智能系统和应用,特别是以下场景:
- 内存或计算资源受限的环境
- 对延迟有要求的场景
- 需要强大推理能力的场景(特别是代码、数学和逻辑方面)
该模型的设计旨在加速语言和多模态模型的研究,可作为生成式人工智能功能的构建块。
使用案例考虑
我们的模型并非专门为所有下游用途设计或评估。开发者在选择使用案例时应考虑语言模型的常见局限性,并在特定下游用例中使用之前评估和减轻准确性、安全性和公平性方面的问题,特别是在高风险场景中。开发者应了解并遵守与其使用案例相关的适用法律或法规(包括隐私、贸易合规法律等)。
发布说明
这是基于用户宝贵反馈对2024年6月发布的指令微调版Phi-3 Mini的更新。该模型使用了额外的训练后数据,在多语言、多轮对话质量和推理能力方面取得了显著提升。我们相信大多数用例将从这次发布中受益,但建议用户在其特定的人工智能应用中进行测试。我们感谢大家对Phi-3模型家族的热情采用,并继续欢迎社区的所有反馈。
多语言能力
以下表格展示了Phi-3.5 Mini在多语言MMLU、MEGA和多语言MMLU-pro数据集上的多语言能力。总体而言,我们观察到即使只有38亿个活跃参数,该模型在多语言任务上与具有更多活跃参数的其他模型相比也具有竞争力。
基准测试 | Phi-3.5 Mini-Ins | Phi-3.0-Mini-128k-Instruct (June2024) | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|---|
多语言MMLU | 55.4 | 51.08 | 47.4 | 58.9 | 56.2 | 63.8 | 77.2 | 72.9 |
多语言MMLU-Pro | 30.9 | 30.21 | 15.0 | 34.0 | 21.4 | 43.0 | 57.9 | 53.2 |
MGSM | 47.9 | 41.56 | 31.8 | 63.3 | 56.7 | 75.1 | 75.8 | 81.7 |
MEGA MLQA | 61.7 | 55.5 | 43.9 | 61.2 | 45.2 | 54.4 | 61.6 | 70.0 |
MEGA TyDi QA | 62.2 | 55.9 | 54.0 | 63.7 | 54.5 | 65.6 | 63.6 | 81.8 |
MEGA UDPOS | 46.5 | 48.1 | 57.2 | 58.2 | 54.1 | 56.6 | 62.4 | 66.0 |
MEGA XCOPA | 63.1 | 62.4 | 58.8 | 10.8 | 21.1 | 31.2 | 95.0 | 90.3 |
MEGA XStoryCloze | 73.5 | 73.6 | 75.5 | 92.3 | 71.0 | 87.0 | 20.7 | 96.6 |
平均 | 55.2 | 52.3 | 47.9 | 55.3 | 47.5 | 59.6 | 64.3 | 76.6 |
以下表格显示了Phi-3.5 Mini-Ins在部分支持语言的多语言MMLU得分。更多多语言基准测试和详细信息,请参阅 附录A。
基准测试 | Phi-3.5 Mini-Ins | Phi-3.0-Mini-128k-Instruct (June2024) | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|---|
阿拉伯语 | 44.2 | 35.4 | 33.7 | 45.3 | 49.1 | 56.3 | 73.6 | 67.1 |
中文 | 52.6 | 46.9 | 45.9 | 58.2 | 54.4 | 62.7 | 66.7 | 70.8 |
荷兰语 | 57.7 | 48.0 | 51.3 | 60.1 | 55.9 | 66.7 | 80.6 | 74.2 |
法语 | 61.1 | 61.7 | 53.0 | 63.8 | 62.8 | 67.0 | 82.9 | 75.6 |
德语 | 62.4 | 61.3 | 50.1 | 64.5 | 59.9 | 65.7 | 79.5 | 74.3 |
意大利语 | 62.8 | 63.1 | 52.5 | 64.1 | 55.9 | 65.7 | 82.6 | 75.9 |
俄语 | 50.4 | 45.3 | 48.9 | 59.0 | 57.4 | 63.2 | 78.7 | 72.6 |
西班牙语 | 62.6 | 61.3 | 53.9 | 64.3 | 62.6 | 66.0 | 80.0 | 75.5 |
乌克兰语 | 45.2 | 36.7 | 46.9 | 56.6 | 52.9 | 62.0 | 77.4 | 72.6 |
长上下文能力
Phi-3.5-mini支持128K的上下文长度,因此该模型能够处理多个长上下文任务,包括长文档/会议摘要、长文档问答和长文档信息检索。我们发现Phi-3.5-mini明显优于仅支持8K上下文长度的Gemma-2系列。Phi-3.5-mini与其他更大的开放权重模型(如Llama-3.1-8B-instruct、Mistral-7B-instruct-v0.3和Mistral-Nemo-12B-instruct-2407)具有竞争力。
基准测试 | Phi-3.5-mini-instruct | Llama-3.1-8B-instruct | Mistral-7B-instruct-v0.3 | Mistral-Nemo-12B-instruct-2407 | Gemini-1.5-Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|
GovReport | 25.9 | 25.1 | 26.0 | 25.6 | 27.8 | 24.8 |
QMSum | 21.3 | 21.6 | 21.3 | 22.1 | 24.0 | 21.7 |
Qasper | 41.9 | 37.2 | 31.4 | 30.7 | 43.5 | 39.8 |
SQuALITY | 25.3 | 26.2 | 25.9 | 25.8 | 23.5 | 23.8 |
SummScreenFD | 16.0 | 17.6 | 17.5 | 18.2 | 16.3 | 17.0 |
平均 | 26.1 | 25.5 | 24.4 | 24.5 | 27.0 | 25.4 |
RULER:长上下文理解的基于检索的基准测试
模型 | 4K | 8K | 16K | 32K | 64K | 128K | 平均 |
---|---|---|---|---|---|---|---|
Phi-3.5-mini-instruct | 94.3 | 91.1 | 90.7 | 87.1 | 78.0 | 63.6 | 84.1 |
Llama-3.1-8B-instruct | 95.5 | 93.8 | 91.6 | 87.4 | 84.7 | 77.0 | 88.3 |
Mistral-Nemo-12B-instruct-2407 | 87.8 | 87.2 | 87.7 | 69.0 | 46.8 | 19.0 | 66.2 |
RepoQA:长上下文代码理解的基准测试
模型 | Python | C++ | Rust | Java | TypeScript | 平均 |
---|---|---|---|---|---|---|
Phi-3.5-mini-instruct | 86 | 67 | 73 | 77 | 82 | 77 |
Llama-3.1-8B-instruct | 80 | 65 | 73 | 76 | 63 | 71 |
Mistral-7B-instruct-v0.3 | 61 | 57 | 51 | 61 | 80 | 62 |
分词器
Phi-3.5-mini-Instruct支持最多32064
个令牌的词汇量。分词器文件 已经提供了可用于下游微调的占位符令牌,但也可以扩展到模型的词汇量大小。
输入格式
鉴于训练数据的性质,Phi-3.5-mini-instruct模型最适合使用以下聊天格式的提示:
<|system|>
You are a helpful assistant.<|end|>
<|user|>
How to explain Internet for a medieval knight?<|end|>
<|assistant|>
负责任的人工智能考虑
与其他语言模型一样,Phi系列模型可能会以不公平、不可靠或冒犯性的方式表现。需要注意的一些限制行为包括:
- 服务质量:Phi模型主要在英语文本和一些额外的多语言文本上进行训练。非英语语言的性能会较差,并且不同非英语语言之间的性能也会存在差异。训练数据中代表性较少的英语变体的性能可能比标准美式英语差。
- 多语言性能和安全差距:我们认为使语言模型在不同语言中更广泛可用很重要,但Phi 3模型在多语言版本中仍然存在常见的挑战。与任何大语言模型的部署一样,开发者将更有能力针对其语言和文化背景测试性能或安全差距,并通过额外的微调和平适当的保障措施对模型进行定制。
- 伤害的表现和刻板印象的延续:这些模型可能会过度或不足地代表某些人群,抹去某些群体的代表性,或强化贬低性或负面的刻板印象。尽管进行了安全训练后处理,但由于不同群体的代表性水平不同、文化背景不同或训练数据中反映现实世界模式和社会偏见的负面刻板印象示例的普遍性,这些限制可能仍然存在。
- 不适当或冒犯性内容:这些模型可能会产生其他类型的不适当或冒犯性内容,因此在没有针对具体情况进行额外缓解措施的情况下,可能不适合在敏感环境中部署。
- 信息可靠性:语言模型可能会生成无意义的内容或编造听起来合理但不准确或过时的内容。
- 代码范围有限:Phi-3的大部分训练数据基于Python,并使用常见的包(如“typing, math, random, collections, datetime, itertools”)。如果模型生成使用其他包或其他语言的Python脚本,我们强烈建议用户手动验证所有API的使用。
- 长对话:与其他模型一样,Phi-3模型在某些情况下可能会在非常长的聊天会话中生成重复、无用或不一致的响应,无论是英语还是非英语。建议开发者采取适当的缓解措施,例如限制对话轮数以应对可能的对话漂移。
开发者应应用负责任的人工智能最佳实践,包括映射、衡量和减轻与其特定用例以及文化、语言背景相关的风险。Phi-3系列模型是通用模型。当开发者计划将这些模型用于特定用例时,建议针对其用例对模型进行微调,并将模型作为具有特定语言保障措施的更广泛人工智能系统的一部分使用。需要考虑的重要领域包括:
- 分配:在没有进一步评估和额外去偏技术的情况下,模型可能不适用于可能对法律地位、资源分配或生活机会产生重大影响的场景(例如住房、就业、信贷等)。
- 高风险场景:开发者应评估在高风险场景中使用模型的适用性,在这些场景中,不公平、不可靠或冒犯性的输出可能会造成极大的代价或导致伤害。这包括在敏感或专业领域提供建议(例如法律或健康建议),在这些领域准确性和可靠性至关重要。应根据部署环境在应用层面实施额外的保障措施。
- 错误信息:模型可能会生成不准确的信息。开发者应遵循透明度最佳实践,并告知最终用户他们正在与人工智能系统进行交互。在应用层面,开发者可以构建反馈机制和管道,以将响应基于特定用例的上下文信息,这种技术称为检索增强生成(RAG)。
- 有害内容生成:开发者应根据其上下文评估输出,并使用适合其用例的可用安全分类器或自定义解决方案。
- 滥用:可能存在其他形式的滥用,如欺诈、垃圾邮件或恶意软件生产,开发者应确保其应用不违反适用的法律法规。
训练
模型信息
属性 | 详情 |
---|---|
架构 | Phi-3.5-mini有38亿个参数,是一个密集的仅解码器Transformer模型,使用与Phi-3 Mini相同的分词器。 |
输入 | 文本。最适合使用聊天格式的提示。 |
上下文长度 | 128K个令牌 |
GPU | 512个H100-80G |
训练时间 | 10天 |
训练数据 | 3.4T个令牌 |
输出 | 对输入的生成文本响应 |
日期 | 2024年6月至8月之间训练 |
状态 | 这是一个基于截止日期为2023年10月的公开可用数据的离线数据集训练的静态模型。随着我们改进模型,未来可能会发布微调模型的新版本。 |
支持语言 | 阿拉伯语、中文、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、德语、希伯来语、匈牙利语、意大利语、日语、韩语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语、泰语、土耳其语、乌克兰语 |
发布日期 | 2024年8月 |
训练数据集
我们的训练数据包括各种来源,总计34万亿个令牌,是以下数据的组合:
- 经过严格质量筛选的公开可用文档、精选的高质量教育数据和代码。
- 为教授数学、编码、常识推理、世界常识(科学、日常活动、心理理论等)而新创建的合成“教科书式”数据。
- 涵盖各种主题的高质量聊天格式监督数据,以反映人类在指令遵循、真实性、诚实性和帮助性等不同方面的偏好。
我们专注于可能提高模型推理能力的数据质量,并筛选公开可用文档以包含适当水平的知识。例如,某一天英超联赛的比赛结果可能是前沿模型的良好训练数据,但对于小尺寸模型,我们需要删除此类信息,以便为推理留出更多的模型容量。有关数据的更多详细信息,请参阅 Phi-3技术报告。
微调
此处 提供了一个使用TRL和Accelerate模块进行多GPU监督微调(SFT)的基本示例。
基准测试
我们报告了Phi-3.5-mini在标准开源基准测试中以完成格式呈现的结果,这些基准测试衡量了模型的推理能力(包括常识推理和逻辑推理)。我们将其与Mistral-7B-Instruct-v0.3、Mistral-Nemo-12B-Ins-2407、Llama-3.1-8B-Ins、Gemma-2-9B-Ins、Gemini 1.5 Flash和GPT-4o-mini-2024-07-18 (Chat) 进行了比较。
所有报告的数字都是使用完全相同的管道生成的,以确保数字具有可比性。由于评估中的细微差异,这些数字可能与其他公布的数字不同。
按照目前的标准,我们使用少样本提示在温度为0的情况下评估模型。提示和样本数量是微软内部评估语言模型工具的一部分,特别是我们没有对Phi-3的管道进行优化。具体来说,我们没有更改提示、选择不同的少样本示例、更改提示格式或对模型进行任何其他形式的优化。
每个基准测试的少样本示例数量如下。以下是模型在代表性基准测试上的质量概述:
类别 | 基准测试 | Phi-3.5 Mini-Ins | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|---|
流行综合基准 | Arena Hard | 37 | 18.1 | 39.4 | 25.7 | 42 | 55.2 | 75 |
BigBench Hard CoT (0-shot) | 69 | 33.4 | 60.2 | 63.4 | 63.5 | 66.7 | 80.4 | |
MMLU (5-shot) | 69 | 60.3 | 67.2 | 68.1 | 71.3 | 78.7 | 77.2 | |
MMLU-Pro (0-shot, CoT) | 47.4 | 18 | 40.7 | 44 | 50.1 | 57.2 | 62.8 | |
推理 | ARC Challenge (10-shot) | 84.6 | 77.9 | 84.8 | 83.1 | 89.8 | 92.8 | 93.5 |
BoolQ (2-shot) | 78 | 80.5 | 82.5 | 82.8 | 85.7 | 85.8 | 88.7 | |
GPQA (0-shot, CoT) | 30.4 | 15.6 | 28.6 | 26.3 | 29.2 | 37.5 | 41.1 | |
HellaSwag (5-shot) | 69.4 | 71.6 | 76.7 | 73.5 | 80.9 | 67.5 | 87.1 | |
OpenBookQA (10-shot) | 79.2 | 78 | 84.4 | 84.8 | 89.6 | 89 | 90 | |
PIQA (5-shot) | 81 | 73.4 | 83.5 | 81.2 | 83.7 | 87.5 | 88.7 | |
Social IQA (5-shot) | 74.7 | 73 | 75.3 | 71.8 | 74.7 | 77.8 | 82.9 | |
TruthfulQA (MC2) (10-shot) | 64 | 64.7 | 68.1 | 69.2 | 76.6 | 76.6 | 78.2 | |
WinoGrande (5-shot) | 68.5 | 58.1 | 70.4 | 64.7 | 74 | 74.7 | 76.9 | |
多语言 | 多语言MMLU (5-shot) | 55.4 | 47.4 | 58.9 | 56.2 | 63.8 | 77.2 | 72.9 |
MGSM (0-shot CoT) | 47.9 | 31.8 | 63.3 | 56.7 | 76.4 | 75.8 | 81.7 | |
数学 | GSM8K (8-shot, CoT) | 86.2 | 54.4 | 84.2 | 82.4 | 84.9 | 82.4 | 91.3 |
MATH (0-shot, CoT) | 48.5 | 19 | 31.2 | 47.6 | 50.9 | 38 | 70.2 | |
长上下文 | Qasper | 41.9 | 31.4 | 30.7 | 37.2 | 13.9 | 43.5 | 39.8 |
SQuALITY | 24.3 | 25.9 | 25.8 | 26.2 | 0 | 23.5 | 23.8 | |
代码生成 | HumanEval (0-shot) | 62.8 | 35.4 | 63.4 | 66.5 | 61 | 74.4 | 86.6 |
MBPP (3-shot) | 69.6 | 50.4 | 68.1 | 69.4 | 69.3 | 77.5 | 84.1 | |
平均 | 61.4 | 48.5 | 61.3 | 61.0 | 63.3 | 68.5 | 74.9 |
我们在下表中更详细地查看了公共基准测试数据集的不同类别:
类别 | Phi-3.5 Mini-Ins | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|
流行综合基准 | 55.6 | 32.5 | 51.9 | 50.3 | 56.7 | 64.5 | 73.9 |
推理 | 70.1 | 65.2 | 72.2 | 70.5 | 75.4 | 77.7 | 80 |
语言理解 | 62.6 | 62.8 | 67 | 62.9 | 72.8 | 66.6 | 76.8 |
鲁棒性 | 59.7 | 53.4 | 65.2 | 59.8 | 64.7 | 68.9 | 77.5 |
长上下文 | 26.1 | 25.5 | 24.4 | 24.5 | 0 | 27 | 25.4 |
数学 | 67.4 | 36.7 | 57.7 | 65 | 67.9 | 60.2 | 80.8 |
代码生成 | 62 | 43.1 | 56.9 | 65.8 | 58.3 | 66.8 | 69.9 |
多语言 | 55.2 | 47.9 | 55.3 | 47.5 | 59.6 | 64.3 | 76.6 |
总体而言,仅具有38亿参数的模型在多语言理解和推理能力方面达到了与更大模型相似的水平。然而,它在某些任务上仍然受到其规模的根本限制。该模型根本没有足够的容量来存储太多事实知识,因此用户可能会遇到事实错误。然而,我们相信通过为Phi-3.5添加搜索引擎可以解决这一弱点,特别是在使用RAG设置下的模型时。
安全评估和红队测试
我们利用各种评估技术,包括红队测试、对抗性对话模拟和多语言安全评估基准数据集,来评估Phi-3.5模型在多种语言和风险类别中产生不良输出的倾向。我们使用了多种方法来弥补单一方法的局限性。各种评估方法的结果表明,如 Phi-3安全训练后处理论文 中详细描述的安全训练后处理,在多种语言和风险类别中产生了积极影响,这可以从拒绝率(拒绝输出不良输出)和对越狱技术的鲁棒性中观察到。然而,需要注意的是,虽然在之前的Phi模型版本中对所有模型进行了全面的红队评估,但本次发布的红队测试主要集中在多语言和风险类别中的Phi-3.5 MOE,因为它是三个模型中最大且功能最强的模型。有关之前Phi模型红队评估的详细信息,请参阅 Phi-3安全训练后处理论文。对于本次发布,红队测试的结果表明,即使请求不良输出的语言不是英语,模型也可能拒绝在英语中生成不良输出。模型在英语和非英语语言中也可能更容易受到较长的多轮越狱技术的影响。这些发现强调了在行业范围内投资开发涵盖多种语言(包括资源较少的语言)和考虑语言使用地区文化细微差别的高质量安全评估数据集的必要性。
软件依赖
硬件要求
请注意,默认情况下,Phi-3.5-mini-instruct模型使用闪存注意力机制,这需要特定类型的GPU硬件才能运行。我们已经在以下GPU类型上进行了测试:
- NVIDIA A100
- NVIDIA A6000
- NVIDIA H100
如果要在以下GPU上运行模型:
- NVIDIA V100或更早一代的GPU:在调用
AutoModelForCausalLM.from_pretrained()
时添加attn_implementation="eager"
参数。
📄 许可证
该模型根据 MIT许可证 授权。
商标说明
本项目可能包含项目、产品或服务的商标或标识。对微软商标或标识的授权使用须遵守并必须遵循 微软商标和品牌指南。在本项目的修改版本中使用微软商标或标识不得造成混淆或暗示微软的赞助。任何第三方商标或标识的使用须遵守这些第三方的政策。
附录A
MGSM
语言 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|---|
德语 | 69.6 | 65.2 | 42.4 | 74.4 | 68.4 | 76.8 | 81.6 | 82.8 |
英语 | 85.2 | 83.2 | 60.0 | 86.0 | 81.2 | 88.8 | 90.8 | 90.8 |
西班牙语 | 79.2 | 77.6 | 46.4 | 75.6 | 66.4 | 82.4 | 84.8 | 86.8 |
法语 | 71.6 | 72.8 | 47.2 | 70.4 | 66.8 | 74.4 | 77.2 | 81.6 |
日语 | 50.0 | 35.2 | 22.8 | 62.4 | 49.2 | 67.6 | 77.6 | 80.4 |
俄语 | 67.2 | 51.6 | 43.2 | 73.6 | 67.2 | 78.4 | 84.8 | 86.4 |
泰语 | 29.6 | 6.4 | 18.4 | 53.2 | 56.0 | 76.8 | 87.6 | 81.6 |
中文 | 60.0 | 52.8 | 42.4 | 66.4 | 68.0 | 72.8 | 82.0 | 82.0 |
多语言MMLU-pro
语言 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|---|
捷克语 | 24.9 | 26.3 | 14.6 | 30.6 | 23.0 | 40.5 | 59.0 | 40.9 |
英语 | 47.7 | 46.2 | 17.7 | 39.8 | 43.1 | 49.0 | 66.1 | 62.7 |
芬兰语 | 22.3 | 20.5 | 11.5 | 30.4 | 9.7 | 37.5 | 54.5 | 50.1 |
挪威语 | 29.9 | 27.8 | 14.4 | 33.2 | 22.2 | 44.4 | 60.7 | 59.1 |
波兰语 | 25.7 | 26.4 | 16.3 | 33.6 | 9.2 | 41.7 | 53.9 | 42.8 |
葡萄牙语 | 38.7 | 37.6 | 15.3 | 36.0 | 29.3 | 43.5 | 54.0 | 56.9 |
瑞典语 | 30.7 | 28.1 | 15.5 | 34.3 | 16.9 | 42.6 | 57.7 | 55.5 |
MEGA
MLQA
语言 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|---|
阿拉伯语 | 54.3 | 32.7 | 23.5 | 31.4 | 31.5 | 57.4 | 63.8 | 64.0 |
中文 | 36.1 | 31.8 | 22.4 | 27.4 | 18.6 | 45.4 | 38.1 | 38.9 |
英语 | 80.3 | 78.9 | 68.2 | 75.5 | 67.2 | 82.9 | 69.5 | 82.2 |
德语 | 61.8 | 59.1 | 49.0 | 57.8 | 38.9 | 63.8 | 55.9 | 64.1 |
西班牙语 | 68.8 | 67.0 | 50.3 | 63.6 | 52.7 | 72.8 | 59.6 | 70.1 |
TyDi QA
语言 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|---|
阿拉伯语 | 69.7 | 54.4 | 52.5 | 49.8 | 33.7 | 81.1 | 78.8 | 84.9 |
英语 | 82.0 | 82.0 | 60.5 | 77.3 | 65.1 | 82.4 | 60.9 | 81.8 |
芬兰语 | 70.3 | 64.3 | 68.6 | 57.1 | 74.4 | 85.7 | 73.5 | 84.8 |
日语 | 65.4 | 56.7 | 45.3 | 54.8 | 34.1 | 74.6 | 59.7 | 73.3 |
韩语 | 74.0 | 60.4 | 54.5 | 54.2 | 54.9 | 83.8 | 60.7 | 82.3 |
俄语 | 63.5 | 62.7 | 52.3 | 55.7 | 27.4 | 69.8 | 60.1 | 72.5 |
泰语 | 64.4 | 49.0 | 51.8 | 43.5 | 48.5 | 81.4 | 71.6 | 78.2 |
XCOPA
语言 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|---|
英语 | 94.6 | 94.6 | 85.6 | 94.4 | 37.6 | 63.8 | 92.0 | 98.2 |
意大利语 | 86.8 | 84.8 | 76.8 | 83.2 | 16.2 | 37.2 | 85.6 | 97.6 |
土耳其语 | 58.6 | 57.2 | 61.6 | 56.6 | 38.4 | 60.2 | 91.4 | 94.6 |
附录B:韩语基准测试
提示与 CLIcK论文 中的提示相同。以下实验结果是在max_tokens=512
(零样本)、max_tokens=1024
(5样本)、temperature=0.01
的条件下给出的。未使用系统提示。
- GPT-4o:2024年5月13日版本
- GPT-4o-mini:2024年7月18日版本
- GPT-4-turbo:2024年4月9日版本
- GPT-3.5-turbo:2023年6月13日版本
总体韩语基准测试表明,仅具有38亿参数的Phi-3.5-Mini-Instruct优于Llama-3.1-8B-Instruct。
基准测试 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
CLIcK | 42.99 | 29.12 | 47.82 | 80.46 | 68.5 | 72.82 | 50.98 |
HAERAE 1.0 | 44.21 | 36.41 | 53.9 | 85.7 | 76.4 | 77.76 | 52.67 |
KMMLU (0-shot, CoT) | 35.87 | 30.82 | 38.54 | 64.26 | 52.63 | 58.75 | 40.3 |
KMMLU (5-shot) | 37.35 | 29.98 | 20.21 | 64.28 | 51.62 | 59.29 | 42.28 |
KMMLU-HARD (0-shot, CoT) | 24 | 25.68 | 24.03 | 39.62 | 24.56 | 30.56 | 20.97 |
KMMLU-HARD (5-shot) | 24.76 | 25.73 | 15.81 | 40.94 | 24.63 | 31.12 | 21.19 |
平均 | 35.62 | 29.99 | 29.29 | 62.54 | 50.08 | 56.74 | 39.61 |
CLIcK(韩国文化和语言智能)
按超级类别划分的准确率
超级类别 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
文化 | 43.77 | 29.74 | 51.15 | 81.89 | 70.95 | 73.61 | 53.38 |
语言 | 41.38 | 27.85 | 40.92 | 77.54 | 63.54 | 71.23 | 46 |
总体 | 42.99 | 29.12 | 47.82 | 80.46 | 68.5 | 72.82 | 50.98 |
按类别划分的准确率
超级类别 | 类别 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|---|
文化 | 经济 | 61.02 | 28.81 | 66.1 | 94.92 | 83.05 | 89.83 | 64.41 |
文化 | 地理 | 45.8 | 29.01 | 54.2 | 80.15 | 77.86 | 82.44 | 53.44 |
文化 | 历史 | 26.15 | 30 | 29.64 | 66.92 | 48.4 | 46.4 | 31.79 |
文化 | 法律 | 32.42 | 22.83 | 44.29 | 70.78 | 57.53 | 61.19 | 41.55 |
文化 | 政治 | 54.76 | 33.33 | 59.52 | 88.1 | 83.33 | 89.29 | 65.48 |
文化 | 流行文化 | 60.98 | 34.15 | 60.98 | 97.56 | 85.37 | 92.68 | 75.61 |
文化 | 社会 | 54.37 | 31.72 | 65.05 | 92.88 | 85.44 | 86.73 | 71.2 |
文化 | 传统 | 47.75 | 31.98 | 54.95 | 87.39 | 74.77 | 79.28 | 55.86 |
语言 | 功能 | 37.6 | 24 | 32.8 | 84.8 | 64.8 | 80 | 40 |
语言 | 语法 | 27.5 | 23.33 | 22.92 | 57.08 | 42.5 | 47.5 | 30 |
语言 | 文本 | 54.74 | 33.33 | 59.65 | 91.58 | 80.7 | 87.37 | 62.11 |
HAERAE
类别 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
常识 | 31.25 | 28.41 | 34.66 | 77.27 | 53.41 | 66.48 | 40.91 |
历史 | 32.45 | 22.34 | 44.15 | 92.02 | 84.57 | 78.72 | 30.32 |
外来词 | 47.93 | 35.5 | 63.31 | 79.88 | 76.33 | 78.11 | 59.17 |
生僻词 | 55.06 | 42.96 | 63.21 | 87.9 | 81.98 | 79.01 | 61.23 |
阅读理解 | 42.95 | 41.16 | 51.9 | 85.46 | 77.18 | 80.09 | 56.15 |
标准命名法 | 44.44 | 32.68 | 58.82 | 88.89 | 75.82 | 79.08 | 53.59 |
总体 | 44.21 | 36.41 | 53.9 | 85.7 | 76.4 | 77.76 | 52.67 |
KMMLU (0-shot, CoT)
超级类别 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
应用科学 | 35.8 | 31.68 | 37.03 | 61.52 | 49.29 | 55.98 | 38.47 |
人文社科 | 31.56 | 26.47 | 37.29 | 69.45 | 56.59 | 63 | 40.9 |
其他 | 35.45 | 31.01 | 39.15 | 63.79 | 52.35 | 57.53 | 40.19 |
科学技术 | 38.54 | 31.9 | 40.42 | 65.16 | 54.74 | 60.84 | 42.24 |
总体 | 35.87 | 30.82 | 38.54 | 64.26 | 52.63 | 58.75 | 40.3 |
KMMLU (5-shot)
超级类别 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
应用科学 | 37.42 | 29.98 | 19.24 | 61.47 | 48.66 | 56.85 | 40.22 |
人文社科 | 34.72 | 27.27 | 22.5 | 68.79 | 55.95 | 63.68 | 43.35 |
其他 | 37.04 | 30.76 | 20.95 | 64.21 | 51.1 | 57.85 | 41.92 |
科学技术 | 38.9 | 30.73 | 19.55 | 65.28 | 53.29 | 61.08 | 44.43 |
总体 | 37.35 | 29.98 | 20.21 | 64.28 | 51.62 | 59.29 | 42.28 |
KMMLU-HARD (0-shot, CoT)
超级类别 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
应用科学 | 27.08 | 26.17 | 26.25 | 37.12 | 22.25 | 29.17 | 21.07 |
人文社科 | 20.21 | 24.38 | 20.21 | 41.97 | 23.31 | 31.51 | 19.44 |
其他 | 23.05 | 24.82 | 23.88 | 40.39 | 26.48 | 29.59 | 22.22 |
科学技术 | 24.36 | 26.91 | 24.64 | 39.82 | 26.36 | 32.18 | 20.91 |
总体 | 24 | 25.68 | 24.03 | 39.62 | 24.56 | 30.56 | 20.97 |
KMMLU-HARD (5-shot)
超级类别 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
应用科学 | 25 | 29 | 12 | 31 | 21 | 25 | 20 |
人文社科 | 21.89 | 19.92 | 14 | 43.98 | 23.47 | 33.53 | 19.53 |
其他 | 23.26 | 27.27 | 12.83 | 39.84 | 28.34 | 29.68 | 23.22 |
科学技术 | 20.5 | 25.25 | 12.75 | 40.25 | 23.25 | 27.25 | 19.75 |
总体 | 24.76 | 25.73 | 15.81 | 40.94 | 24.63 | 31.12 | 21.19 |



