Prem-1B-SQL开源文本转SQL模型 - 支持本地化部署，低配设备也能运行

首页

Prem 1B SQL

由 premai-io 开发

Prem-1B-SQL是Prem AI开发的10亿参数文本转SQL模型，专为本地化部署设计，支持低配GPU和CPU设备运行。

大型语言模型

Safetensors

英语开源协议:Apache-2.0 #文本转SQL #本地化部署 #小参数高效

下载量 521

发布时间 : 8/31/2024

模型简介

这是一个完全本地化的文本转SQL模型，专注于数据安全，能够将自然语言转换为可执行的SQL查询语句。

模型特点

本地优先设计

支持完全本地化运行，避免将数据库暴露给第三方服务，保障数据安全

轻量级部署

10亿参数规模，可运行在低配GPU设备上，量化后支持CPU运行

执行引导解码

通过执行生成的SQL并利用错误信息进行迭代修正，提高准确性

多数据集支持

支持BirdBench、Spider等多个主流文本转SQL基准数据集

模型能力

自然语言转SQL

数据库查询生成

SQL错误自动修正

数据分析辅助

使用案例

数据分析

商业智能查询

通过自然语言生成SQL查询，快速获取业务数据洞察

简化非技术人员的数据查询流程

数据库管理

自动生成数据库维护和管理的SQL语句

提高数据库管理员的工作效率

教育

SQL学习辅助

帮助学生理解自然语言与SQL语句的对应关系

降低SQL学习门槛

🚀 Prem-1B-SQL (HuggingFace)

Prem-1B-SQL 是由 Prem AI 开发的首批完全本地化的文本转 SQL 模型系列之一。作为一个拥有 10 亿参数的模型，它可以轻松适配低配置 GPU 设备（量化后也可在 CPU 设备上运行）。我们认为，人工智能辅助数据分析应优先考虑本地化。因为将数据库暴露给第三方闭源模型可能会导致数据安全漏洞。我们很快将公布该模型的一些公开基准测试结果，也会对该模型进行迭代优化以获得更好的效果。

阅读博客文章点击此处
PremSQL 库 | GitHub
开发者： Prem AI
许可证： [MIT]

✨ 主要特性

完全本地化：避免使用第三方闭源模型，保障数据安全。
低资源需求：10 亿参数模型，适合低配置 GPU 设备，量化后可在 CPU 设备运行。
持续优化：将公布公开基准测试结果，并对模型进行迭代优化。

📦 安装指南

要安装 PremSQL，只需创建一个新环境并输入以下命令：

pip install -U premsql

💻 使用示例

基础用法

使用 PremSQL BaseLine Agent 运行 Prem-1B-SQL：

from premsql.agents import BaseLineAgent
from premsql.generators import Text2SQLGeneratorOllama
from premsql.agents.tools import SimpleMatplotlibTool
from premsql.executors import SQLiteExecutor

text2_sqlmodel = Text2SQLGeneratorHF(
    model_or_name_or_path="premai-io/prem-1B-SQL",
    experiment_name="test_generators",
    device="cuda:0",
    type="test"
)

analyser_and_plotter = Text2SQLGeneratorHF(
    model_or_name_or_path="meta-llama/Llama-3.2-1B-Instruct",
    experiment_name="test_generators",
    device="cuda:0",
    type="test"
)

agent = BaseLineAgent(
    session_name="testing_hf",
    db_connection_uri="sqlite:////path/to/your/database.sqlite",
    specialized_model1=model,
    specialized_model2=model,
    plot_tool=SimpleMatplotlibTool(),
    executor=SQLiteExecutor()
)

response = agent(
    "/query what all tables are present inside the database"
)
response.show_dataframe()

在底层，它会自动连接到你的数据库，并为你完成所有繁重的工作，如创建提示、执行查询等。

高级用法

使用 PremSQL Generators 运行 Prem-1B-SQL：

from premsql.generators import Text2SQLGeneratorHF
from premsql.datasets import Text2SQLDataset

# Define a dataset
dataset = bird_dataset = Text2SQLDataset(
    dataset_name='bird', split="validation", force_download=False,
    dataset_folder="/path/to/dataset"
).setup_dataset(num_rows=10, num_fewshot=3)

# Define a generator
generator = Text2SQLGeneratorHF(
    model_or_name_or_path="premai-io/prem-1B-SQL",
    experiment_name="test_generators",
    device="cuda:0",
    type="test"
)

# Generate on the full dataset
responses = generator.generate_and_save_results(
    dataset=bird_dataset,
    temperature=0.1,
    max_new_tokens=256
)

print(responses)

这在你想对某个数据集进行批量生成时非常有用。

使用执行引导解码

这种策略会将生成的 SQL 在数据库上执行，如果执行失败，则使用错误消息进行修正，重复此过程直到得到有效结果或达到最大重试次数。 image/png

from premsql.executors import SQLiteExecutor

executor = SQLiteExecutor()
response = generator.generate_and_save_results(
    dataset=bird_dataset,
    temperature=0.1,
    max_new_tokens=256,
    force=True,
    executor=executor,
    max_retries=5 # this is optional (default is already set to 5)
)

📚 详细文档

你还可以使用 HuggingFace Transformers 和 PremSQL Tuners 对 Prem-1B-SQL 进行微调。请查看我们的文档以了解更多关于 PremSQL 的信息和我们提供的所有功能。

🔧 技术细节

评估结果

我们在两个流行的基准数据集上对模型进行了评估：BirdBench 和 Spider。BirdBench 包含一个公共验证数据集（有 1534 个数据点）和一个私有测试数据集，Spider 只有一个公共验证数据集。以下是评估结果：

数据集	执行准确率
BirdBench（验证集）	46%
BirdBench（私有测试集）	51.54%
Spider	85%

BirdBench 数据集分布在不同的难度级别上。以下是不同难度级别的私有测试结果详情：

难度	数量	执行准确率	软 F1 值
简单	949	60.70	61.48
中等	555	47.39	49.06
困难	285	29.12	31.83
总计	1789	51.54	52.90

以下是与流行的闭源和开源模型的更详细比较：

模型	参数数量（十亿）	BirdBench 测试得分
AskData + GPT-4o（当前获胜者）	未提供	72.39
DeepSeek coder 236B	236	56.68
GPT-4 (2023)	未提供	54.89
PremSQL 1B（我们的模型）	1	51.4
Qwen 2.5 7B Instruct	7	51.1
Claude 2 Base (2023)	未提供	49.02