Nous Consilience 40B开源文本模型 - 支持多语言，还原人类多样创意产出

首页

Consilience 40b J4iA6BRm

由 PsycheFoundation 开发

Nous Consilience 40B 是一个400亿参数的生成式文本模型，通过去中心化方式从零开始预训练，支持多种语言，旨在代表人类广泛的创造性产出。

大型语言模型

Safetensors

支持多种语言#多语言生成 #去中心化训练 #持续预训练

下载量 46

发布时间 : 5/2/2025

模型简介

这是一个仅解码器的Transformer模型，专注于文本生成任务，融合了FineWeb和The Stack v2等大规模数据集进行预训练。

模型特点

去中心化预训练

模型通过互联网以去中心化的方式从零开始预训练，每500个训练步骤自动更新一次。

多语言支持

支持超过30种语言，涵盖全球主要语种和部分小众语言。

持续训练

采用持续训练策略，不设置最终数据'退火'步骤，以保留模型的创造力和有趣行为。

双重许可协议

默认采用CC0协议贡献至公共领域，同时允许用户选择MIT协议（需署名且免责）。

模型能力

多语言文本生成

创造性内容生成

大规模语言理解

使用案例

内容创作

多语言文章写作

生成各种语言的创意文章或技术文档

创意写作辅助

帮助作家进行故事构思和内容扩展

教育

语言学习工具

为语言学习者提供多语言示例和练习材料

🚀 Nous Consilience 40B

Nous Consilience 40B 是一个文本生成模型，它通过互联网以去中心化的方式从头开始进行预训练。该模型每训练 500 步就会自动更新一次，最新的检查点会从正在进行的预训练仪表盘上传到此处。欲了解更多信息，请阅读博客文章。

🚀 快速开始

本模型每 500 个训练步骤会自动更新一次，最新的检查点会从正在进行的预训练仪表盘上传。如需更多信息，请阅读博客文章。

✨ 主要特性

基于互联网以去中心化方式从头开始预训练。
每 500 个训练步骤自动更新。

📚 详细文档

模型详情

属性	详情
模型类型	仅解码器的变压器模型
参数	400 亿
架构	DeepSeek v3 + MLA（无 MoE 路由器的密集版本）
预训练数据	20T 令牌，合并了 FineWeb、FineWeb 2 和 The Stack v2
训练时长	待定
优化器	DisTrO，去中心化版本

预训练数据集

在训练数据方面，我们合并了 FineWeb（14T）、去除了一些不常见语言的 FineWeb - 2（4T）以及 The Stack V2（约 0.2T，上采样至 1T 令牌）。我们选择这些数据集，而非那些旨在单纯提高基准性能的更专业化的预训练数据集。我们使用 Consilience 的目标是打造一个真正的 “基础” 模型 —— 一个能够代表人类全部创造性产出的模型，而不仅仅是为了在基准测试中获胜。

此外，我们在训练这个模型时没有进行最终的数据 “退火” 步骤。虽然退火有助于基础模型更准确地响应基准测试并提高可用性，但它可能会限制创造力和有趣的行为。我们的解决方案是同时发布两个版本：首先是原始的、未退火的基础模型，随后是经过退火处理的版本以提高可用性。