许可证:cc-by-nc-4.0
模型索引:
- 名称:SOLAR-math-2x10.7b-v0.2
结果:
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:AI2推理挑战赛(25样本)
类型:ai2_arc
配置:ARC挑战赛
拆分:测试集
参数:
样本数:25
指标:
- 类型:标准化准确率
值:70.9
名称:标准化准确率
来源:
URL:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=macadeliccc/SOLAR-math-2x10.7b-v0.2
名称:开放大语言模型排行榜
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:HellaSwag(10样本)
类型:hellaswag
拆分:验证集
参数:
样本数:10
指标:
- 类型:标准化准确率
值:88.29
名称:标准化准确率
来源:
URL:同上
名称:开放大语言模型排行榜
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:MMLU(5样本)
类型:cais/mmlu
配置:全部
拆分:测试集
参数:
样本数:5
指标:
- 类型:准确率
值:66.25
名称:准确率
来源:
URL:同上
名称:开放大语言模型排行榜
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:TruthfulQA(0样本)
类型:truthful_qa
配置:多项选择
拆分:验证集
参数:
样本数:0
指标:
- 类型:mc2
值:71.68
来源:
URL:同上
名称:开放大语言模型排行榜
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:Winogrande(5样本)
类型:winogrande
配置:winogrande_xl
拆分:验证集
参数:
样本数:5
指标:
- 类型:准确率
值:83.5
名称:准确率
来源:
URL:同上
名称:开放大语言模型排行榜
-
任务:
类型:文本生成
名称:文本生成
数据集:
名称:GSM8k(5样本)
类型:gsm8k
配置:主测试集
拆分:测试集
参数:
样本数:5
指标:
- 类型:准确率
值:64.9
名称:准确率
来源:
URL:同上
名称:开放大语言模型排行榜
🌞🚀 SOLAR-math-10.7x2-v0.2_19B
由两个Solar-10.7B指令微调模型合并而成。

该模型性能与GPT-3.5和Gemini Pro相当,超越Mixtral-8x7b所有分数。
以下是简要评估结果概览,仅供用户进行数值对比参考,不代表完整分析。


🌅 代码示例
示例也可在Colab中查看
from transformers import AutoModelForCausalLM, AutoTokenizer
def generate_response(prompt):
"""
根据输入提示生成模型响应
参数:
prompt (str): 输入提示
返回:
str: 模型生成的响应
"""
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=512, eos_token_id=tokenizer.eos_token_id, pad_token_id=tokenizer.pad_token_id)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
return response
model_id = "macadeliccc/SOLAR-math-2x10.7B-v0.2"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, load_in_4bit=True)
prompt = "解释费马大定理的证明及其在数论中的意义。"
print("响应:")
print(generate_response(prompt), "\n")
示例输出:
解释费马大定理的证明及其在数论中的意义。
费马大定理(FLT)是一个著名的数学猜想,其表述为"对于任何大于2的整数n,不存在三个正整数a、b、c能满足a^n + b^n = c^n"。该定理由皮埃尔·德·费马在17世纪提出,但其证明直到20世纪末才由安德鲁·怀尔斯完成。
怀尔斯于1993年和1994年发表的证明过程复杂,涉及多个高等数学概念。证明的核心思想是使用模椭圆曲线——由多项式方程定义的代数曲线。怀尔斯引入了谷山-志村猜想的新概念,该猜想指出某些有理数域上的椭圆曲线与特定尖点形式之间存在一一对应关系。
怀尔斯的证明基于谷山-志村猜想为真的假设。他证明若该猜想成立,则费马大定理必然成立。这种证明策略称为"反证法"。怀尔斯论证如果FLT不成立,就会存在谷山-志村猜想的反例。但由于该猜想被认为成立,这将导致矛盾。因此根据反证原则,费马大定理必然为真。
该定理对数论的影响深远。FLT是整数研究的基础性成果,其证明促进了对多个数学概念的深入理解。证明过程还推动了代数几何、表示理论和数论本身等领域的发展。
此外,这一定理通过解决长期悬而未决的问题,强化了数论的基础。FLT的证明也为相关领域开辟了新的研究方向,激励数学家们探索新的学术路径。
🏆 评估结果
ARC挑战赛
任务 |
版本 |
指标 |
值 |
|
标准误差 |
arc_challenge |
1 |
原始准确率 |
0.68 |
|
|
|
|
原始准确率标准误差 |
0.01 |
|
|
|
|
标准化准确率 |
0.72 |
|
|
|
|
标准化准确率标准误差 |
0.01 |
|
|
|
|
别名 |
arc_challenge |
|
|
平均:71.76%
HellaSwag
任务 |
版本 |
指标 |
值 |
|
标准误差 |
hellaswag |
1 |
原始准确率 |
0.71 |
|
|
|
|
原始准确率标准误差 |
0 |
|
|
|
|
标准化准确率 |
0.88 |
|
|
|
|
标准化准确率标准误差 |
0 |
|
|
|
|
别名 |
hellaswag |
|
|
平均:88.01%
📚 引用文献
@misc{kim2023solar,
title={SOLAR 10.7B: 通过简单有效的深度升级扩展大语言模型},
author={金多贤 and 朴灿俊 and 金相勋 and 李文成 and 宋元浩 and 金允秀 and 金贤宇 and 金允基 and 李贤珠 and 金智厚 and 安昌培 and 梁成勋 and 李淑京 and 朴贤炳 and 金炅珍 and 车美京 and 李活淑 and 金成勋},
year={2023},
eprint={2312.15166},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
详细结果参见此处
指标 |
值 |
平均得分 |
74.25 |
AI2推理挑战赛(25样本) |
70.90 |
HellaSwag(10样本) |
88.29 |
MMLU(5样本) |
66.25 |
TruthfulQA(0样本) |
71.68 |
Winogrande(5样本) |
83.50 |
GSM8k(5样本) |
64.90 |