Falcon-H1-1.5B-Instruct开源语言模型 - 免费支持英语及多语言任务

首页

Falcon H1 1.5B Instruct

由 tiiuae 开发

猎鹰-H1是由TII开发的高效混合架构语言模型，结合了Transformers和Mamba架构的优势，支持英语和多语言任务。

大型语言模型

Transformers

开源协议:其他 #混合架构 #多语言推理 #高效计算

下载量 1,022

发布时间 : 5/1/2025

模型简介

猎鹰-H1是一个因果解码器专用模型，采用混合Transformers+Mamba架构，旨在提供高效的文本生成和理解能力。

模型特点

高效混合架构

结合Transformers和Mamba架构的优势，在保持高性能的同时提高效率

多语言支持

支持英语和多种语言的文本处理

卓越推理能力

在数学推理、代码生成等复杂任务上表现优异

模型能力

文本生成

语言理解

数学推理

代码生成

指令遵循

使用案例

教育

数学问题解答

解决复杂的数学问题

在GSM8k数据集上达到74.98%准确率

编程

代码生成

根据自然语言描述生成代码

在HumanEval数据集上达到68.29%准确率

通用AI助手

指令遵循

理解和执行复杂指令

在IFEval评估中达到80.66%准确率

🚀 变形金刚（transformers）库

本项目提供了基于transformers库使用Falcon-H1系列模型的方法，支持多种推理方式，在多种任务上表现出色，能为自然语言处理相关工作提供强大助力。

🚀 快速开始

目前，要使用此模型，你可以依赖Hugging Face的transformers、vLLM或我们定制的llama.cpp库的分支。

推理

确保安装最新版本的transformers或vLLM，必要时从源代码安装这些包：

pip install git+https://github.com/huggingface/transformers.git

更多关于从源代码构建vLLM的详细信息，请参考官方vLLM文档。

🤗 transformers

参考以下代码片段，使用🤗 transformers运行H1模型：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "tiiuae/Falcon-H1-1B-Base"

model = AutoModelForCausalLM.from_pretrained(
  model_id,
  torch_dtype=torch.bfloat16,
  device_map="auto"
)

# Perform text generation

vLLM

对于vLLM，只需执行以下命令启动服务器：

# pip install vllm
vllm serve tiiuae/Falcon-H1-1B-Instruct --tensor-parallel-size 2 --data-parallel-size 1

`llama.cpp`

我们正在努力将我们的架构直接集成到llama.cpp库中，在此期间，你可以安装我们的库分支并直接使用：https://github.com/tiiuae/llama.cpp-Falcon-H1，安装指南与llama.cpp相同。

✨ 主要特性

模型类型：因果解码器
架构：混合Transformer + Mamba架构
支持语言：英语、多语言
许可证：Falcon-LLM许可证

📦 安装指南

安装`transformers`

pip install git+https://github.com/huggingface/transformers.git

安装`vLLM`

pip install vllm

安装`llama.cpp`分支

参考https://github.com/tiiuae/llama.cpp-Falcon-H1的安装指南。

💻 使用示例

基础用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "tiiuae/Falcon-H1-1B-Base"

model = AutoModelForCausalLM.from_pretrained(
  model_id,
  torch_dtype=torch.bfloat16,
  device_map="auto"
)

# Perform text generation

高级用法

# vLLM启动服务器
vllm serve tiiuae/Falcon-H1-1B-Instruct --tensor-parallel-size 2 --data-parallel-size 1

📚 详细文档

模型详情

开发者：https://www.tii.ae
模型类型：因果解码器
架构：混合Transformer + Mamba架构
支持语言：英语、多语言
许可证：Falcon-LLM许可证

训练详情

有关此模型训练协议的更多详细信息，请参考Falcon-H1技术博客文章。

评估

Falcon-H1系列在各种任务上表现出色，包括推理任务。

任务	Falcon-H1-1.5B	Qwen3-1.7B	Qwen2.5-1.5B	Gemma3-1B	Llama3.2-1B	Falcon3-1B
通用任务
BBH	46.47	35.18	42.41	35.86	33.21	34.47
ARC-C	42.06	34.81	40.53	34.13	34.64	43.09
TruthfulQA	45.98	49.39	47.05	42.17	42.08	42.31
HellaSwag	63.33	49.27	62.23	42.24	55.3	58.53
MMLU	62.03	57.04	59.76	40.87	45.93	46.1
数学任务
GSM8k	74.98	69.83	57.47	42.38	44.28	44.05
MATH-500	74.0	73.0	48.4	45.4	13.2	19.8
AMC-23	43.59	46.09	24.06	19.22	7.19	6.87
AIME-24	11.25	12.5	2.29	0.42	1.46	0.41
AIME-25	9.58	8.12	1.25	1.25	0.0	0.21
科学任务
GPQA	26.34	27.68	26.26	28.19	26.59	26.76
GPQA_Diamond	35.19	33.33	25.59	21.55	25.08	31.31
MMLU-Pro	37.8	23.54	28.35	14.46	16.2	18.49
MMLU-stem	64.13	54.3	54.04	35.39	39.16	39.64
代码任务
HumanEval	68.29	67.68	56.1	40.85	34.15	22.56
HumanEval+	61.59	60.96	50.61	37.2	29.88	20.73
MBPP	64.81	58.73	64.81	57.67	33.6	20.63
MBPP+	56.35	49.74	56.08	50.0	29.37	17.2
LiveCodeBench	17.61	14.87	12.52	5.09	2.35	0.78
CRUXEval	39.57	18.88	34.76	12.7	0.06	15.58
指令跟随任务
IFEval	80.66	70.77	45.33	61.48	55.34	54.26
Alpaca-Eval	28.18	21.89	9.54	17.87	9.38	6.98
MTBench	8.46	7.61	7.1	7.03	6.37	6.03
LiveBench	34.13	40.73	21.65	18.79	14.97	14.1

你可以在我们的发布博客文章中查看更详细的基准测试。

有用链接

查看我们的发布博客文章。
如果你有任何问题或想与我们的研究人员和开发人员交流，请随时加入我们的Discord服务器。

🔧 技术细节

有关此模型训练协议的更多详细信息，请参考Falcon-H1技术博客文章。

📄 许可证

本项目使用Falcon-LLM许可证，详情请见https://falconllm.tii.ae/falcon-terms-and-conditions.html。

引用

如果Falcon-H1系列模型对你的工作有帮助，请引用：

@misc{tiifalconh1,
    title = {Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance},
    url = {https://falcon-lm.github.io/blog/falcon-h1},
    author = {Falcon-LLM Team},
    month = {May},
    year = {2025}
}