UltraLong-Thinking开源语言模型 - 融合双模型优势开启智慧对话新体验

首页

Ultralong Thinking

由 mergekit-community 开发

通过SLERP方法合并的8B参数语言模型，结合了DeepSeek-R1和Nemotron-8B模型的优势

大型语言模型

Transformers

#长文本理解 #指令精调 #知识蒸馏

下载量 69

发布时间 : 4/17/2025

模型简介

这是一个通过mergekit工具合并的预训练语言模型，采用球面线性插值(SLERP)方法将DeepSeek-R1和Nemotron-8B模型进行融合，旨在结合两者的优势特性

模型特点

模型融合优势

结合了DeepSeek-R1的蒸馏知识和Nemotron-8B的超长上下文处理能力

V型混合策略

输入输出层采用Hermes特性，中间层采用WizardMath特性

长上下文支持

继承Nemotron模型的4M tokens超长上下文处理能力

模型能力

文本生成

指令跟随

长上下文理解

多轮对话

使用案例

对话系统

智能助手

构建能够处理复杂多轮对话的智能助手

可处理长达4M tokens的上下文信息

内容生成

长文写作

辅助创作长篇文章或技术文档

保持长距离的上下文一致性

属性	详情
基础模型	mobiuslabsgmbh/DeepSeek-R1-ReDistill-Llama3-8B-v1.1、nvidia/Llama-3.1-Nemotron-8B-UltraLong-4M-Instruct
库名称	transformers
标签	mergekit、merge

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Ultralong Thinking

模型简介

模型特点

模型能力

使用案例

🚀 预训练语言模型合并项目

🚀 快速开始

✨ 主要特性

📚 详细文档

📋 合并详情

🔗 合并方法

🧩 合并的模型

⚙️ 配置信息

📄 信息表格