Falcon-E-3B-Base开源语言模型 - 专为高效推理打造，免费部署超实用

首页

Falcon E 3B Base

由 tiiuae 开发

Falcon-E是由TII开发的1.58比特量化语言模型，采用纯Transformer架构，专为高效推理设计

大型语言模型

Transformers

开源协议:其他 #1.58比特量化 #低显存占用 #英语语言模型

下载量 51

发布时间 : 4/16/2025

模型简介

基于1.58比特量化的因果解码器架构语言模型，支持英语文本生成任务

模型特点

高效量化

采用1.58比特量化技术，显著降低显存占用

轻量部署

18亿参数模型仅需635MB显存，适合边缘设备部署

多版本支持

提供BitNet量化模型、预量化检查点和bfloat16三种变体

模型能力

英语文本生成

高效推理

支持微调

使用案例

边缘计算

移动端助手

在资源受限设备上部署智能对话系统

635MB显存占用实现流畅交互

研究应用

高效模型研究

作为低比特量化技术的基准模型

在多项基准测试中超越同规模模型

🚀 Transformers库之Falcon-E模型

本项目的Falcon-E模型是由相关机构开发的强大语言模型，具有特定的架构和语言支持，适用于多种自然语言处理任务，在推理和微调方面都有相应的使用方法，并且在评估中展现出了一定的性能优势。

🚀 快速开始

目前，若要使用此模型，你可以依赖Hugging Face的transformers库或 BitNet 库。根据你的目标用途，有多种方式可以与模型进行交互。对于每个Falcon - E系列模型，你有三种变体：BitNet模型、用于微调的预量化检查点以及BitNet模型的bfloat16版本。

✨ 主要特性

开发方：https://www.tii.ae
模型类型：因果解码器 / 基础版本
架构：纯Transformer - 1.58bit版本
语言（NLP）：英语
许可证：Falcon - LLM许可证

📦 安装指南

若要使用此模型，你可以通过以下方式安装所需依赖：

若使用Hugging Face的transformers库，可通过常规的Python包管理工具进行安装。
若使用 BitNet 库，可运行以下命令：

git clone https://github.com/microsoft/BitNet && cd BitNet
pip install -r requirements.txt

💻 使用示例

基础用法

使用transformers库进行推理

若要对BitNet检查点进行推理，可运行以下代码：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "tiiuae/Falcon-E-1B-Base"

model = AutoModelForCausalLM.from_pretrained(
  model_id,
  torch_dtype=torch.bfloat16,
).to("cuda")

# Perform text generation

若要使用经典的bfloat16版本，可运行以下代码：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "tiiuae/Falcon-E-1B-Base"
revision = "bfloat16"

model = AutoModelForCausalLM.from_pretrained(
  model_id,
  torch_dtype=torch.bfloat16,
  revision=revision,
).to("cuda")

# Perform text generation

使用BitNet库进行推理

git clone https://github.com/microsoft/BitNet && cd BitNet
pip install -r requirements.txt
python setup_env.py --hf-repo tiiuae/Falcon-E-1B-Base -q i2_s
python run_inference.py -m models/Falcon-E-1B-Base/ggml-model-i2_s.gguf -p "You are a helpful assistant" -cnv

高级用法

模型微调

若要对模型进行微调，你应该加载模型的prequantized版本，并使用onebitllms Python包，示例代码如下：

import torch

from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import SFTTrainer
from onebitllms import replace_linear_with_bitnet_linear, quantize_to_1bit

model_id = "tiiuae/Falcon-E-1B-Base"

tokenizer = AutoTokenizer.from_pretrained(model_id, revision="prequantized")
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    revision="prequantized"
)
model = replace_linear_with_bitnet_linear(model)

trainer = SFTTrainer(
    model,
    ...
)

trainer.train()

quantize_to_1bit(output_directory)

📚 详细文档

评估结果

以下表格展示了该模型在内部管道基准测试中的评估结果（评估结果为前Hugging Face排行榜v2任务的标准化分数）：

1B规模及以下模型

模型	参数数量	内存占用	IFEVAL	Math - Hard	GPQA	MuSR	BBH	MMLU - Pro	平均分
Qwen - 2.5 - 0.5B	0.5B	1GB	16.27	3.93	0.0	2.08	6.95	10.06	6.55
SmolLM2 - 360M	0.36B	720MB	21.15	1.21	0.0	7.73	5.54	1.88	6.25
Qwen - 2.5 - 1.5B	1.5B	3.1GB	26.74	9.14	16.66	5.27	20.61	4.7	13.85
Llama - 3.2 - 1B	1.24B	2.47GB	14.78	1.21	4.37	2.56	2.26	0	4.2
SmolLM2 - 1.7B	1.7B	3.4GB	24.4	2.64	9.3	4.6	12.64	3.91	9.58
Falcon - 3 - 1B - Base	1.5B	3GB	24.28	3.32	11.34	9.71	6.76	3.91	9.89
Hymba - 1.5B - Base	1.5B	3GB	22.95	1.36	7.69	5.18	10.25	0.78	8.04
Falcon - E - 1B - Base	1.8B	635MB	32.9	10.97	2.8	3.65	12.28	17.82	13.40

3B规模模型

模型	参数数量	内存占用	IFEVAL	Math - Hard	GPQA	MuSR	BBH	MMLU - Pro	平均分
Falcon - 3 - 3B - Base	3B	6.46GB	15.74	11.78	21.58	6.27	18.09	6.26	15.74
Qwen2.5 - 3B	3B	6.17GB	26.9	14.8	24.3	11.76	24.48	6.38	18.1
Falcon - E - 3B - Base	3B	999MB	36.67	13.45	8.67	4.14	19.83	27.16	18.32

以下是指令微调模型的结果：

1B规模及以下模型

模型	参数数量	内存占用	IFEVAL	Math - Hard	GPQA	MuSR	BBH	MMLU - Pro	平均分
Qwen - 2.5 - 0.5B - Instruct	500M	1GB	30.71	0	8.43	0.94	7.75	0	6.59
SmolLM2 - 360M - Instruct	360M	720MB	38.42	1.51	4.17	2.77	1.3	0.67	8.14
Qwen - 2.5 - 1.5B - Instruct	1.5B	3.1GB	44.76	22.05	19.81	3.19	19.99	0.78	18.43
SmolLM2 - 1.7B	1.7B	3.4GB	53.68	5.82	10.92	4.1	11.71	0	15.02
Falcon - 3 - 1B - Instruct	1.5B	3GB	55.57	6.34	12.96	10.56	9.32	2.24	16.16
Hymba - 1.5B - Instruct	1.5B	3GB	60.09	2.72	4.59	1.05	11.56	5.515	14.19
Falcon - E - 1B - Instruct	1.8B	635MB	54.35	9.12	16.5	2.51	19.42	9.64	18.59

3B规模模型

模型	参数数量	内存占用	IFEVAL	Math - Hard	GPQA	MuSR	BBH	MMLU - Pro	平均分
Falcon - 3 - 3B - Instruct	3B	6.46GB	69.77	25	26.29	11.13	22.28	5.15	26.6
Qwen2.5 - 3B - Instruct	3B	6.17GB	64.75	36.78	25.8	7.57	25.05	3.02	27.16
Falcon - E - 3B - Instruct	3B	999MB	60.97	15.3	23.59	2.12	26.45	7.45	22.64666667

有用链接

查看发布博客文章。
了解更多关于 onebitllms 库的信息。
如果你有任何问题或想与研究人员和开发人员交流，欢迎加入 Discord服务器。

🔧 技术细节

关于此模型的训练协议的更多详细信息，请参考 Falcon - E技术博客文章。

📄 许可证

本模型使用Falcon - LLM许可证，具体条款请参考许可证链接。

📚 引用

如果Falcon - E系列模型对你的工作有帮助，请引用以下内容：

@misc{tiionebitllms,
    title = {Falcon-E, a series of powerful, universal and fine-tunable 1.58bit language models.},
    author = {Falcon-LLM Team},
    month = {April},
    url = {https://falcon-lm.github.io/blog/falcon-edge},
    year = {2025}
}