Nous Consilience 40B开源文本生成模型 - 展现人类多样创造性成果！

首页

Consilience 40b CqX3FUm4

由 PsycheFoundation 开发

Nous Consilience 40B 是一个通过互联网以去中心化方式预训练的生成式文本模型，代表人类广泛多样的创造性成果。

大型语言模型

Safetensors

支持多种语言#多语言文本生成 #去中心化预训练 #未退火创造力

下载量 287

发布时间 : 5/2/2025

模型简介

这是一个400亿参数的仅解码器Transformer模型，专注于文本生成任务，支持多种语言，旨在成为真正的基础模型而非仅追求基准测试性能。

模型特点

去中心化预训练

模型通过互联网以去中心化的方式从头开始预训练，每500次训练步骤自动更新一次。

大规模多语言支持

支持超过30种语言，涵盖全球主要语系和地区性语言。

双重许可证

采用CC0公共领域许可证和MIT许可证双重授权，满足不同使用场景的需求。

持续训练策略

不设置最终数据的退火步骤，保留模型的创造力和有趣行为，同时提供退火版本以提升可用性。

模型能力

多语言文本生成

创造性内容生成

长文本连贯生成

使用案例

内容创作

多语言文章写作

生成各种语言的新闻、博客或创意写作内容

可生成连贯、有创意的长文本

代码生成与补全

基于The Stack v2数据集的能力，支持编程语言的代码生成

教育

语言学习辅助

为多种语言学习者提供示例文本和练习材料

🚀 Nous Consilience 40B

Nous Consilience 40B是一个生成式文本模型，它通过互联网以去中心化的方式从头开始进行预训练。该模型每训练500步就会自动更新，最新的检查点会从正在进行的预训练仪表盘上传至此。如需了解更多信息，请阅读博客文章。

🚀 快速开始

Nous Consilience 40B是一个从头开始在互联网上以去中心化方式进行预训练的生成式文本模型。该模型每500个训练步骤自动更新一次，最新的检查点会从正在进行的预训练仪表盘上传到此处。

如需了解更多信息，请阅读博客文章。

📚 详细文档

模型详情

属性	详情
模型类型	仅解码器的Transformer
参数数量	400亿
架构	DeepSeek v3 + MLA（无MoE路由器的密集版本）
预训练数据	20T个标记，合并了FineWeb、FineWeb 2和The Stack v2
训练时长	待定
优化器	DisTrO，去中心化版本

预训练数据集

在训练数据方面，我们合并了FineWeb（14T）、去除了一些不太常见语言的FineWeb - 2（4T）以及The Stack V2（约0.2T，上采样至1T标记）。我们选择这些数据集，而非那些旨在单纯提高基准性能的更专业化的预训练数据集。我们使用Consilience的目标是打造一个真正的“基础”模型——一个能够代表人类全部创造性产出的模型，而不仅仅是为了在基准测试中获胜。

此外，我们在训练这个模型时没有进行最终的数据“退火”步骤。虽然退火有助于基础模型更准确地响应基准测试并提高可用性，但它可能会限制创造性和有趣的行为。我们的解决方案是同时发布两个版本：首先是原始的、未退火的基础模型，然后是经过退火处理的版本以提高可用性。