Piccolo-math-2x7b开源大语言模型 - 助力数学与代码生成推理任务

首页

Piccolo Math 2x7b

由 macadeliccc 开发

Piccolo-math-2x7b 是一个专注于数学和逻辑推理的大语言模型，以纪念作者的宠物狗克劳斯命名。该模型在多个基准测试中表现出色，尤其在数学和代码生成任务上。

大型语言模型

Transformers

开源协议:MIT #数学推理 #逻辑分析 #多任务评估

下载量 87

发布时间 : 1/16/2024

模型简介

Piccolo-math-2x7b 是一个基于 Transformer 架构的大语言模型，专注于数学、代码生成和逻辑推理任务。它支持高质量的文本生成，并在多个标准评估数据集上取得了优异成绩。

模型特点

数学推理能力

在GSM8k数学推理基准测试中达到70.13%准确率，显著优于同类基础模型

多任务处理

在文本生成、逻辑推理和代码生成等多种任务上表现均衡

高效推理

支持4-bit量化加载，降低硬件需求同时保持较好性能

模型能力

数学问题求解

代码生成

逻辑推理

常识问答

文本生成

使用案例

教育

数学辅导

帮助学生解决数学问题并解释解题步骤

在GSM8k测试集上达到70.13%准确率

开发辅助

代码生成

根据自然语言描述生成代码片段

示例显示可处理高质量代码生成

🚀 Piccolo-math-2x7b

Piccolo-math-2x7b 是一款具备高质量代码、数学和逻辑推理能力的模型。本项目以纪念作者的爱犬 Klaus（昵称为 Piccolo）为初衷，为用户提供强大的文本生成服务。

🚀 快速开始

你可以通过以下 Colab 链接进行推理和评估：点击此处

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer

def generate_response(prompt):
    """
    Generate a response from the model based on the input prompt.
    Args:
    prompt (str): Prompt for the model.

    Returns:
    str: The generated response from the model.
    """
    inputs = tokenizer(prompt, return_tensors="pt")
    outputs = model.generate(**inputs, max_new_tokens=256, eos_token_id=tokenizer.eos_token_id, pad_token_id=tokenizer.pad_token_id)

    response = tokenizer.decode(outputs[0], skip_special_tokens=True)

    return response

model_id = "macadeliccc/piccolo-math-2x7b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id,load_in_4bit=True)

prompt = "What is the best way to train Cane Corsos?"

print("Response:")
print(generate_response(prompt), "\n")

该模型能够进行高质量的代码、数学和逻辑推理。你可以尝试提出任何你想到的问题。

📚 详细文档

评估结果

模型	AGIEval	GPT4All	TruthfulQA	Bigbench	平均得分
piccolo-math-2x7b	43.89	74.98	63.96	44.99	56.96

EQ Bench

基准测试完成时间：2024-01-24 00:00:40
耗时：183.3 分钟
提示格式：Mistral
模型：macadeliccc/piccolo-math-2x7b
得分 (v2)：70.74
可解析性：167.0

AGIEval

任务	版本	指标	数值		标准误差
agieval_aqua_rat	0	准确率	24.41	±	2.70
		归一化准确率	24.80	±	2.72
agieval_logiqa_en	0	准确率	35.79	±	1.88
		归一化准确率	36.71	±	1.89
agieval_lsat_ar	0	准确率	23.48	±	2.80
		归一化准确率	23.91	±	2.82
agieval_lsat_lr	0	准确率	49.22	±	2.22
		归一化准确率	50.00	±	2.22
agieval_lsat_rc	0	准确率	63.94	±	2.93
		归一化准确率	64.31	±	2.93
agieval_sat_en	0	准确率	77.18	±	2.93
		归一化准确率	76.70	±	2.95
agieval_sat_en_without_passage	0	准确率	45.15	±	3.48
		归一化准确率	44.66	±	3.47
agieval_sat_math	0	准确率	33.64	±	3.19
		归一化准确率	30.00	±	3.10

平均得分：43.89%

GPT4All

任务	版本	指标	数值		标准误差
arc_challenge	0	准确率	61.86	±	1.42
		归一化准确率	62.88	±	1.41
arc_easy	0	准确率	84.34	±	0.75
		归一化准确率	80.47	±	0.81
boolq	1	准确率	86.88	±	0.59
hellaswag	0	准确率	68.56	±	0.46
		归一化准确率	85.16	±	0.35
openbookqa	0	准确率	37.00	±	2.16
		归一化准确率	47.80	±	2.24
piqa	0	准确率	82.21	±	0.89
		归一化准确率	83.68	±	0.86
winogrande	0	准确率	77.98	±	1.16

平均得分：74.98%

TruthfulQA

任务	版本	指标	数值		标准误差
truthfulqa_mc	1	单项选择题准确率	47.37	±	1.75
		多项选择题准确率	63.96	±	1.57

平均得分：63.96%

Bigbench

任务	版本	指标	数值		标准误差
bigbench_causal_judgement	0	多项选择题得分	55.26	±	3.62
bigbench_date_understanding	0	多项选择题得分	63.14	±	2.51
bigbench_disambiguation_qa	0	多项选择题得分	42.64	±	3.08
bigbench_geometric_shapes	0	多项选择题得分	22.84	±	2.22
		精确字符串匹配	3.34	±	0.95
bigbench_logical_deduction_five_objects	0	多项选择题得分	36.60	±	2.16
bigbench_logical_deduction_seven_objects	0	多项选择题得分	25.57	±	1.65
bigbench_logical_deduction_three_objects	0	多项选择题得分	56.00	±	2.87
bigbench_movie_recommendation	0	多项选择题得分	42.40	±	2.21
bigbench_navigate	0	多项选择题得分	54.70	±	1.57
bigbench_reasoning_about_colored_objects	0	多项选择题得分	62.90	±	1.08
bigbench_ruin_names	0	多项选择题得分	53.35	±	2.36
bigbench_salient_translation_error_detection	0	多项选择题得分	24.35	±	1.36
bigbench_snarks	0	多项选择题得分	62.43	±	3.61
bigbench_sports_understanding	0	多项选择题得分	70.28	±	1.46
bigbench_temporal_sequences	0	多项选择题得分	41.30	±	1.56
bigbench_tracking_shuffled_objects_five_objects	0	多项选择题得分	22.32	±	1.18
bigbench_tracking_shuffled_objects_seven_objects	0	多项选择题得分	17.77	±	0.91
bigbench_tracking_shuffled_objects_three_objects	0	多项选择题得分	56.00	±	2.87

平均得分：44.99%

总体平均得分：56.96%

总耗时：01:51:53

Open LLM Leaderboard 评估结果

详细结果可查看此处

指标	数值
平均值	72.32
AI2 推理挑战 (25 次少样本学习)	69.11
HellaSwag (10 次少样本学习)	87.27
MMLU (5 次少样本学习)	63.69
TruthfulQA (0 次少样本学习)	63.86
Winogrande (5 次少样本学习)	79.87
GSM8k (5 次少样本学习)	70.13