基础模型:
- PleIAs/Pleias-350m-Preview
支持语言:
- 英语
- 法语
- 意大利语
- 德语
- 西班牙语
许可证: Apache-2.0
任务标签: 文本生成
标签:
- transformers
库名称: transformers
Pleias-RAG-350m检索增强生成模型
完整模型报告
Pleias-RAG-350M是一款3.5亿参数的小型推理模型,专为检索增强生成(RAG)、搜索和来源摘要任务而训练。作为普勒伊亚斯第一代专业推理模型系列成员,与Pleias-RAG-1B共同构成该系列。
在HotPotQA、2wiki等检索增强生成标准基准测试中,Pleias-RAG-350M性能超越多数4B参数以下的SLM(小型语言模型),是Qwen-2.5-7B、Llama-3.1-8B和Gemma-3-4B等流行大模型的高性价比替代方案。这是目前唯一能在主要欧洲语言中保持稳定RAG性能,并确保系统性引用溯源的小型语言模型。
凭借其小巧体积、在受限设备(包括手机)上的易部署性,以及对事实准确性的内置支持,Pleias-RAG-350m为生成式AI解锁了全新应用场景。
核心特性
本模型采用特殊标记体系处理结构化输入(查询与来源)并生成结构化输出(推理序列与带来源的答案)。为简化实现,建议使用配套API库。
原生引用支持
模型基于输入来源自动生成带维基百科风格引用标记()的答案,是首批具备此特性的开源权重模型,也是首个面向实际部署设计的方案。
与Anthropic的"引用模式"不同,本模型的引用完全由模型生成,而非依赖外部文本分块。我们还提供"引用缩略"功能(使用"(…)"标记长引文)以简化来源核对。
RAG推理流程
模型具备类智能体决策能力:
- 判断查询可理解性
- 识别可简化处理的简单问题(可调推理)
- 评估来源充分性
结构化推理轨迹包含:
- 查询语言检测(始终使用查询语言应答)
- 查询分析报告(可能触发标准应答/简答/查询重构/拒绝应答)
- 来源覆盖度评估
- 最终答案草案生成
多语言能力
精通法、德、意、西等主要欧洲语言,部分支持波兰语、拉丁语和葡萄牙语。是目前唯一在欧洲主流语言RAG任务中性能无损的小型模型。在HotPotQA翻译测试集中,多数1B以下SLM性能下降10%-35%,而本模型表现稳定。
英语评估结果可直接迁移至主要欧洲语言,显著降低多语言场景评估成本。
训练过程
基于模拟Common Corpus多语言检索的合成数据集训练,原生支持引文与原文锚定。融合查询路由、重构、来源重排等RAG工作流特性。
性能评估
在2wiki、HotpotQA和MuSique三大RAG基准测试中表现优异:
测试聚焦需要多跳推理(答案分散于不同来源)及干扰源辨别的"非简单"问题。本模型正确解答了数百道Llama-3-8b和Qwen-2.5-7b均出错的HotPotQA题目,建议作为多模型RAG系统的组成单元。
部署应用
推荐通过官方库部署,提供API式工作流及JSON格式输出。Colab笔记本可供快速体验。
基础调用示例:
rag = RAGWithCitations("PleIAs/Pleias-RAG-350M")
query = "法国首都是哪里?"
sources = [
{
"text": "巴黎是法国首都及最大城市。截至2019年1月,其人口约214万,是法兰西岛大区中心,法国经济、政治、文化中枢。埃菲尔铁塔、凯旋门等标志性建筑使其成为全球热门旅游目的地。",
"metadata": {"来源": "地理百科全书", "可信度": "高"}
}
]
response = rag.generate(query, sources)
print(response["processed"]["clean_answer"])
预期输出:
法国首都是巴黎。根据记载:"巴黎是法国首都及最大城市"[1]。
**引用**
[1] "巴黎是法国首都及最大城市" [来源1]
作为仅3.5亿参数的"手机级SLM",在检索增强生成领域尚无竞品。我们同时发布未量化的GGUF版本,在8G内存设备上复杂推理生成仅需约20秒。
该模型可集成至客服、教育辅助等非对话场景,通过外接记忆库实现小模型的生产级应用。
GitHub仓库: https://github.com/Pleias/Pleias-RAG-Library