PowerLM-3b开源小语言模型 - 免费助力自然语言多选、代码生成与数学推理

首页

Powerlm 3b

由 ibm-research 开发

PowerLM-3B是一个30亿参数的小型语言模型，采用Power学习率调度器训练，在自然语言多选、代码生成和数学推理等多个基准测试中表现优异。

大型语言模型

Transformers

开源协议:Apache-2.0 #高效文本生成 #代码生成优化 #数学推理增强

下载量 11.07k

发布时间 : 8/14/2024

模型简介

PowerLM-3B是基于开源和专有数据集的混合训练而成的先进小型语言模型，适用于文本生成、代码生成和数学推理等任务。

模型特点

高效训练

采用Power学习率调度器训练，优化训练效率。

多任务表现优异

在自然语言多选、代码生成和数学推理等多个基准测试中表现优于同规模级别模型。

小型高效

30亿参数的紧凑设计，适合资源有限的环境部署。

模型能力

文本生成

代码生成

数学推理

自然语言理解

使用案例

编程辅助

代码生成

根据自然语言描述生成代码片段

在HumanEval基准测试中pass@1达到26.8%

代码补全

帮助开发者完成代码编写

在MBPP基准测试中pass@1达到33.6%

教育

数学问题解答

解决数学推理问题

在GSM8k基准测试中准确率达到34.9%

知识问答

回答各类知识性问题

在MMLU基准测试中准确率达到49.2%

🚀 IBM PowerLM-3B 语言模型

PowerLM-3B 是一款 30 亿参数的先进小型语言模型，借助 Power 学习率调度器进行训练。它在开源和专有数据集的混合数据上进行训练，在自然语言多选、代码生成和数学推理等各类基准测试中，相较于同规模的其他模型展现出了优异的性能。

🚀 快速开始

使用该模型需要从源代码安装 HF transformers。

✨ 主要特性

PowerLM-3B 采用 Power 学习率调度器进行训练，在多种基准测试中表现出色。
模型基于开源和专有数据集的混合数据进行训练，具有更广泛的适用性。
在自然语言多选、代码生成和数学推理等多个领域展现出良好的性能。

📚 详细文档

模型概述

PowerLM-3B 是一个 30 亿参数的先进小型语言模型，使用 Power 学习率调度器进行训练。它在开源和专有数据集的混合数据上进行训练，在自然语言多选、代码生成和数学推理等各种基准测试中，与同规模的其他模型相比，取得了令人瞩目的成果。论文链接：https://arxiv.org/abs/2408.13359

评估指标

数据集名称	评估指标	数值
ARC	归一化准确率	60.5
BoolQ	准确率	72.0
Hellaswag	归一化准确率	74.6
OpenBookQA	归一化准确率	43.6
PIQA	归一化准确率	79.9
Winogrande	归一化准确率	70.0
MMLU (5 shot)	准确率	49.2
GSM8k (5 shot)	准确率	34.9
math (4 shot)	准确率	15.2
humaneval	pass@1	26.8
MBPP	pass@1	33.6

💻 使用示例

基础用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # or "cpu"
model_path = "ibm/PowerLM-3b"
tokenizer = AutoTokenizer.from_pretrained(model_path)
# drop device_map if running on CPU
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()
# change input text as desired
prompt = "Write a code to find the maximum value in a list of numbers."
# tokenize the text
input_tokens = tokenizer(prompt, return_tensors="pt")
# transfer tokenized inputs to the device
for i in input_tokens:
    input_tokens[i] = input_tokens[i].to(device)
# generate output tokens
output = model.generate(**input_tokens, max_new_tokens=100)
# decode output tokens into text
output = tokenizer.batch_decode(output)
# loop over the batch to print, in this example the batch size is 1
for i in output:
    print(i)