Virtuoso-Medium-v2开源语言模型 - 基于优质架构，基准测试表现出色！

首页

Virtuoso Medium V2

由 arcee-ai 开发

基于Qwen-2.5-32B架构的320亿参数语言模型，通过Deepseek-v3蒸馏训练，在多项基准测试中表现优异。

大型语言模型

Transformers

开源协议:Apache-2.0 #320亿参数大模型 #Deepseek-v3蒸馏 #STEM领域专家

下载量 412

发布时间 : 1/27/2025

模型简介

下一代320亿参数语言模型，通过logit级蒸馏从Deepseek-v3获取知识，适用于高级自然语言处理任务。

模型特点

深度蒸馏技术

采用logit级蒸馏从Deepseek-v3提取数十亿标记知识，确保高保真知识传递

跨架构分词器兼容

通过专用'分词器手术'实现Deepseek-v3与Qwen分词器的无缝对齐

扩展推理能力

特别强化科技查询、代码生成和数学求解等专业领域的推理能力

融合合并方法

采用专有技术进行logit级蒸馏，最大限度保留教师模型专长

模型能力

高级文本生成

复杂逻辑推理

多轮对话处理

科技文献理解

编程代码生成

数学问题求解

多语言处理

使用案例

智能助手

企业级虚拟助手

处理复杂工作流查询和数据分析任务

在内部测试中超越前代模型30%的任务完成率

教育科技

STEM教学辅助

解释复杂科学概念和解决数学问题

在MMLU-PRO基准测试中达到顶尖水平

科研辅助

文献分析与模拟

快速理解科研论文并生成模拟假设

🚀 Virtuoso-Medium-v2 (32B)

Virtuoso-Medium-v2 (32B) 是我们基于原始 Virtuoso-Medium 架构开发的下一代 320 亿参数语言模型。该版本从 Deepseek-v3 中提炼而来，利用了包含 50 亿 + 标记的扩展数据集的对数几率（logits）。与我们之前发布的模型相比，它在基准测试中取得了更高的分数（在某些任务中甚至超过了 Arcee-Nova 2024）。

Virtuoso-Lite Logo

🚀 快速开始

以下是使用 transformers 库的示例代码：

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "arcee-ai/Virtuoso-Medium-v2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

prompt = "Provide a concise summary of quantum entanglement."
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=150)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

✨ 主要特性

性能卓越：凭借更大的参数数量和更丰富的训练语料库，Virtuoso-Medium-v2 在多个基准测试（如 BBH、MMLU-PRO、MATH 等）中取得了高分。在特定任务中，它经常超越其他 300 亿 + 参数的模型，甚至一些 700 亿 + 参数的架构。
知识精准迁移：以 Deepseek-v3 作为教师模型，采用全对数几率级别的复制，确保更精确的知识迁移，包括在技术和科学查询、复杂代码生成、数学问题解决等方面的高级推理能力。
跨架构兼容性：初始集成 Deepseek-v3 分词器进行对数几率提取，最终使用 Qwen 分词器，并通过专门的“分词器手术”实现跨架构兼容性。

📦 安装指南

GGUF 量化模型

可在此处获取量化模型。

📚 详细文档

模型详情

属性	详情
架构基础	Qwen-2.5-32B
参数数量	320 亿
分词器	初始集成 Deepseek-v3 分词器进行对数几率提取，最终使用 Qwen 分词器，并通过专门的“分词器手术”实现跨架构兼容性。
提炼数据	约 11 亿来自 Deepseek-v3 训练数据的标记/对数几率，之后使用专有的“融合合并”方法进行对数几率级别的提炼，以确保最大保真度。
许可证	Apache-2.0

Deepseek 提炼背景

Deepseek-v3 作为教师模型，我们从中捕获了数十亿标记的对数几率。与标准的监督微调不同，我们采用了全对数几率级别的复制，这确保了更精确的知识迁移，包括在以下方面的高级推理能力：

技术和科学查询
复杂代码生成
数学问题解决

预期用例

高级聊天机器人和虚拟助手
企业数据分析和工作流自动化
研究模拟和自然语言理解
STEM 领域的教育工具

评估

Virtuoso-Lite Logo

训练与微调

初始训练：从 Qwen-32B 开始，针对大规模文本摄入进行校准。
提炼与合并：在约 11 亿标记的 Deepseek-v3 对数几率上进行训练，采用“融合合并”方法尽可能保留教师模型的专业知识，最后一步包括使用直接偏好优化（DPO）来改善对齐并减少模型幻觉。
持续开发：正在进行额外的 R1 提炼，以进一步提高性能和专业性。