🚀 普莱雅斯检索增强生成模型3.5亿参数版(Pleias-RAG-350m)
普莱雅斯检索增强生成模型3.5亿参数版(Pleias-RAG-350M)是一款拥有3.5亿参数的小型推理模型,专为检索增强生成(RAG)、搜索和源摘要任务而训练。它与普莱雅斯检索增强生成模型10亿参数版(Pleias-RAG-1B)同属普莱雅斯第一代专业推理模型。该模型在检索增强生成的标准化基准测试(如HotPotQA、2wiki)中超越了大多数小型语言模型(参数在40亿及以下),是Qwen-2.5-7B、Llama-3.1-8B和Gemma-3-4B等流行大模型的高性价比替代方案。它也是迄今为止唯一一款在主要欧洲语言中保持一致检索增强生成性能,并能确保陈述有系统参考依据的小型语言模型。
完整模型报告
由于其规模小、易于在受限基础设施(包括手机)上部署,且内置对事实和准确信息的支持,普莱雅斯检索增强生成模型3.5亿参数版为生成式人工智能开辟了一系列新的应用场景。
✨ 主要特性
结构化输入输出处理
普莱雅斯检索增强生成模型3.5亿参数版是一款专业语言模型,它使用一系列特殊标记来处理结构化输入(查询和源数据),并生成结构化输出(推理序列和带源数据的答案)。为了便于实现,我们建议使用相关的API库。
引用支持
普莱雅斯检索增强生成模型3.5亿参数版基于从提供的源数据中提取的摘录和引用,原生生成有依据的答案,使用了受维基百科启发的自定义语法()。它是迄今为止少数具备此功能的开源权重模型之一,也是第一个为实际部署而设计的模型。
与Anthropic的方法(“引用模式”)不同,该模型会整体生成引用,而不是外部分块的产物。因此,我们可以提供另一个简化源数据检查的理想特性:对较长摘录进行引用缩短(使用“(…)”)。
检索增强生成推理
普莱雅斯检索增强生成模型3.5亿参数版生成特定的推理序列,融入了多种适用于检索增强生成应用的类智能体能力。该模型能够直接做出一系列决策:
- 评估查询是否可理解。
- 评估查询是否简单到无需冗长的预分析(可调整推理)。
- 评估源数据是否包含足够的输入来生成有依据的答案。
结构化推理跟踪包括以下步骤:
- 查询语言检测。模型始终会努力用原始查询的语言进行回答。
- 查询分析和相关查询报告。分析可能会得出标准答案、针对简单问题的缩短推理跟踪/答案、重新表述的查询或拒绝回答(在应用上下文中可转换为用户输入查询)。
- 源数据分析和相关源数据报告。此步骤评估提供的源数据相对于查询的覆盖范围和深度。
- 最终答案草稿。
多语言支持
普莱雅斯检索增强生成模型3.5亿参数版能够使用主要欧洲语言进行读写,包括法语、德语、意大利语、西班牙语,在一定程度上还支持波兰语、拉丁语和葡萄牙语。
迄今为止,它是唯一一款在与检索增强生成相关的任务中,在主要欧洲语言上性能损失可忽略不计的小型语言模型。在翻译后的HotPotQA数据集上,我们观察到大多数小型语言模型的性能显著下降,参数在10亿以下的模型下降幅度从10%到30 - 35%不等。
我们预计,对普莱雅斯检索增强生成模型进行的任何标准英语评估结果,在很大程度上都可以转移到主要欧洲语言上,从而降低多语言环境下的评估和部署成本。
📦 安装指南
部署普莱雅斯检索增强生成模型3.5亿参数版最简单的方法是通过我们的官方库。它具有类似API的工作流程,可将结构化推理/答案输出标准化导出为JSON格式。你可以使用Colab笔记本进行轻松测试和实验。
💻 使用示例
基础用法
rag = RAGWithCitations("PleIAs/Pleias-RAG-350M")
query = "What is the capital of France?"
sources = [
{
"text": "Paris is the capital and most populous city of France. With an estimated population of 2,140,526 residents as of January 2019, Paris is the center of the Île-de-France metropolitan area and the hub of French economic, political, and cultural life. The city's landmarks, including the Eiffel Tower, Arc de Triomphe, and Cathedral of Notre-Dame, make it one of the world's most visited tourist destinations.",
"metadata": {"source": "Geographic Encyclopedia", "reliability": "high"}
},
{
"text": "The Eiffel Tower is located in Paris, France. It was constructed from 1887 to 1889 as the entrance to the 1889 World's Fair and was initially criticized by some of France's leading artists and intellectuals for its design. Standing at 324 meters (1,063 ft) tall, it was the tallest man-made structure in the world until the completion of the Chrysler Building in New York City in 1930. The tower receives about 7 million visitors annually and has become an iconic symbol of Paris and France.",
"metadata": {"source": "Travel Guide", "year": 2020}
}
]
response = rag.generate(query, sources)
print(response["processed"]["clean_answer"])
预期输出:
The capital of France is Paris. This can be confirmed by the fact that Paris is explicitly stated to be "the capital and most populous city of France" [1].
**Citations**
[1] "Paris is the capital and most populous city of France" [Source 1]
📚 详细文档
训练情况
普莱雅斯检索增强生成模型3.5亿参数版在大型合成数据集上进行训练,该数据集模拟了从通用语料库中检索各种多语言开放源数据的过程。它们原生支持引用和基于直接引用的依据。遵循智能体化的最新趋势,该模型重新整合了与检索增强生成工作流程相关的多个特性,如查询路由、查询重新表述、源数据重新排序。
评估情况
普莱雅斯检索增强生成模型3.5亿参数版在三个标准检索增强生成基准测试中进行了评估,分别是2wiki、HotPotQA和MuSique。
所有基准测试仅评估“简单”模式下的问题,这些问题需要对源数据进行某种形式的多跳推理(答案分散在不同源数据中),以及对干扰源数据的辨别。
普莱雅斯检索增强生成模型3.5亿参数版不仅仅是大模型的高性价比版本。我们发现,它能够正确回答HotPotQA中的数百个问题,而Llama-3-8b和Qwen-2.5-7b都无法解决这些问题。因此,我们鼓励将其作为多模型检索增强生成系统的一部分使用。
使用与部署
普莱雅斯检索增强生成模型3.5亿参数版仅有3.5亿参数,被归类为“手机级小型语言模型”,这是一个选择非常有限的细分领域(如Smollm、Qwen-0.5),目前没有一款模型在检索增强生成方面表现良好。
我们还发布了未量化的GGUF版本,用于在CPU上部署。我们的内部性能基准测试表明,即使在受限的RAM下,目前大多数情况下的等待时间也是可以接受的:在8GB及以下的RAM上,包括推理跟踪的复杂生成大约需要20秒。由于该模型未量化,文本生成质量应与原始模型相同。
一旦集成到检索增强生成系统中,普莱雅斯检索增强生成模型3.5亿参数版还可用于更广泛的非对话式应用场景,包括用户支持或教育辅助。通过此次发布,我们旨在通过系统地依赖外部化内存,使小型模型在生产环境中可行。
Github仓库:https://github.com/Pleias/Pleias-RAG-Library
📄 许可证
本项目采用Apache-2.0许可证。
属性 |
详情 |
基础模型 |
PleIAs/Pleias-350m-Preview |
支持语言 |
英语、法语、意大利语、德语、西班牙语 |
许可证 |
Apache-2.0 |
任务类型 |
文本生成 |
标签 |
Transformers |
库名称 |
Transformers |