Nous Consilience 40B开源文本生成模型 - 支持多语言展现人类多元创造产出

首页

Consilience 40b 7Y9v38s5

由 PsycheFoundation 开发

Nous Consilience 40B是一个400亿参数的生成式文本模型，通过去中心化方式从零开始预训练，支持多种语言，代表人类多元创造性产出。

大型语言模型

Safetensors

支持多种语言#多语言文本生成 #持续预训练 #去中心化架构

下载量 44

发布时间 : 5/9/2025

模型简介

这是一个仅解码器的Transformer模型，采用DeepSeek v3 + MLA架构，预训练数据整合了FineWeb、FineWeb 2和The Stack v2数据集，总计约20T token。

模型特点

去中心化预训练

模型通过互联网以去中心化方式从零开始预训练，每500个训练步骤自动更新。

持续训练策略

采用持续训练策略，不设最终数据'退火'步骤，以保持创造力和有趣行为。

多语言支持

支持超过30种语言，涵盖全球主要语种。

双重许可协议

默认采用CC0许可（贡献至公共领域），同时允许用户选择附带署名与免责声明的MIT许可。

模型能力

多语言文本生成

创造性内容生成

大规模文本处理

使用案例

内容创作

多语言文章生成

生成各种语言的创意文章或技术文档

创意写作辅助

帮助作家进行故事构思和内容创作

教育

多语言学习辅助

为语言学习者提供多语言文本示例

🚀 Nous Consilience 40B文本生成模型

Nous Consilience 40B是一个文本生成模型，它通过去中心化的方式在互联网上从零开始进行预训练。该模型每训练500步就会自动更新一次，并会从正在进行的预训练仪表盘上传最新的检查点。欲了解更多信息，请阅读博客文章。

🚀 快速开始

本文档将为你详细介绍Nous Consilience 40B模型的相关信息，包括模型细节、预训练数据集和许可证等内容。

✨ 主要特性

自动更新：每训练500步自动更新，确保模型的时效性。
多语言支持：支持包括英语、中文、俄语等在内的多种语言。
双重许可：采用CC0和MIT双重许可，满足不同用户的需求。

📚 详细文档

模型细节

属性	详情
模型类型	仅解码器的Transformer
参数数量	400亿
架构	DeepSeek v3 + MLA（无MoE路由器的密集版本）
预训练数据	20T令牌，合并了FineWeb、FineWeb 2和The Stack v2
训练时长	待确定
优化器	DisTrO，去中心化版本

预训练数据集

在训练数据方面，我们将FineWeb（14T）、去除了一些不太常见语言的FineWeb - 2（4T）和The Stack V2（约0.2T，上采样至1T令牌）进行了合并。我们选择这些数据集，而非那些旨在单纯提高基准性能的更专业化的预训练数据集。我们使用Consilience的目标是打造一个真正的“基础”模型——一个能够代表人类全部创造性产出的模型，而不仅仅是为了在基准测试中获胜。

此外，我们在训练这个模型时没有进行最终的数据“退火”步骤。虽然退火有助于基础模型更准确地响应基准测试并提高可用性，但它可能会限制创造力和有趣的行为。我们的解决方案是同时发布两个版本：首先是原始的、未退火的基础模型，然后是经过退火处理的版本，以提高可用性。