DeepSeek-qwen-Bllossom-32B开源模型 - 有效提升韩语环境下的推理性能

首页

Deepseek Qwen Bllossom 32B

由 UNIVA-Bllossom 开发

DeepSeek-qwen-Bllossom-32B是基于DeepSeek-R1-Distill-Qwen-32B模型构建的，旨在提升韩语环境下的推理性能。

大型语言模型

Transformers

支持多种语言开源协议:MIT #韩英双语推理 #STEM领域优化 #多语言混合增强

下载量 167

发布时间 : 4/7/2025

模型简介

该模型通过额外训练克服了原基础模型在韩语推理时的性能下降问题，实现了内部思考过程以英语进行，最终根据用户输入语言输出响应，大幅提升了韩语环境下的推理表现。

模型特点

多语言推理能力

内部思考过程以英语进行，最终根据用户输入语言输出响应，显著提升韩语推理性能。

高质量训练数据

训练数据包含韩英双语推理数据集，涵盖多领域内容，提供更准确可靠的韩语推理结果。

高效蒸馏方法

采用大模型优秀推理能力向基础模型高效蒸馏的方法，有效弥补原模型不足。

模型能力

韩语文本生成

英语文本生成

复杂推理任务

多领域知识问答

使用案例

教育

数学问题解答

解决复杂的数学推理问题，如分数计算、代数问题等。

在AIME24_ko基准测试中达到66.67分，显著优于原模型。

研究

数学定理证明

提供多种数学定理的证明方法，如素数无限的证明。

能提供多种角度的证明方法，包括欧几里得反证法、阶乘法和欧拉ζ函数法。

🚀 DeepSeek-qwen-bllossom-32B

DeepSeek-Bllossom系列是为解决现有DeepSeek-R1-Distill系列模型的语言混合和多语言性能下降问题而进行额外训练的模型。DeepSeek-qwen-Bllossom-32B基于DeepSeek-R1-Distill-Qwen-32B模型构建，旨在提升韩语环境下的推理性能。该模型是UNIVA和Bllossom团队合作推出的首个模型。

🚀 快速开始

DeepSeek-qwen-Bllossom-32B模型基于DeepSeek-R1-Distill-Qwen-32B模型构建，为解决原模型在语言混合和多语言性能方面的问题，特别是韩语推理性能下降的问题，进行了额外的训练。通过使用韩语和英语推理数据，以及多领域的数据，该模型在韩语环境下的推理性能得到了显著提升。

✨ 主要特性

解决语言问题：解决了原DeepSeek-R1-Distill系列模型的语言混合和多语言性能下降问题。
提升韩语性能：以韩语环境下的推理性能提升为目标进行开发。
多领域数据训练：除了STEM领域数据，还使用了多领域的数据进行训练。

📦 安装指南

文档未提供安装步骤，故跳过此章节。

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained(
    "UNIVA-Bllossom/DeepSeek-llama3.1-Bllossom-8B",
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("UNIVA-Bllossom/DeepSeek-qwen-Bllossom-32B")

system='''
You are a highly capable assistant. For every user question, follow these instructions exactly:
    1. First, think through the problem step-by-step in English. Enclose all of your internal reasoning between <think> and </think> tags. This chain-of-thought should detail your reasoning process.
    2. After the closing </think> tag, provide your final answer.
    3. Do not include any additional text or commentary outside of this format.
    4. Your output should strictly follow this structure:

<think>
[Your detailed step-by-step reasoning in English]
</think>
[Your final answer]
'''

text="철수, 영희, 민수가 3회의 게임에서 점수를 받았습니다. 영희의 점수는 민수의 점수의 두 배이며, 민수의 점수는 철수의 4배입니다. 철수가 10점을 받았다면 이 3명의 평균 점수를 계산하세요."
chat = [
    {"role": "system", "content": system},
    {"role": "user", "content": text}
]

prompt=tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer(
    prompt,
    return_tensors="pt",
    add_special_tokens=True
)

if "token_type_ids" in model_inputs:
    del model_inputs["token_type_ids"]

model_inputs = {k: v.to(model.device) for k, v in model_inputs.items()}

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=8192,
)

📚 详细文档

模型信息

属性	详情
模型类型	DeepSeek-qwen-Bllossom-32B
基础模型	DeepSeek-R1-Distill-Qwen-32B
下载链接	🤗 HuggingFace

模型对比

输入 (Prompt)	DeepSeek-R1-distill-Llama-70B	DeepSeek-llama3.3-Bllossom-70B
Alice, Bob, Charlie在3次游戏中获得了分数。Alice的分数是Bob的两倍，Bob的分数是Charlie的4倍。如果Charlie得了10分，计算这3人的平均分数。	Charlie的分数是10分。 Bob的分数是Charlie的4倍，所以Bob的分数是 $$ 4 \times 10 = 40 $$ 分。 Alice的分数是Bob的两倍，所以Alice的分数是 $$ 2 \times 40 = 80 $$ 分。三人的总分数是 $$ 10 + 40 + 80 = 130 $$ 分。平均分数是 $$ \frac{130}{3} \approx 43.33$$分。 $$ \boxed{43.33} $$ Charlie的分数是10分。	Charlie的分数给定为10分。Bob的分数是Charlie分数的4倍，计算如下： $$ 4 \times 10 = 40 $$ Alice的分数是Bob分数的两倍，即： $$ 2 \times 40 = 80 $$ 三人的总分数如下： $$ 10 + 40 + 80 = 130 $$ 这三人的平均分数是总分数除以人数： $$ \frac{130}{3} $$ 因此，这三人的平均分数是 $$ \boxed{\dfrac{130}{3}} $$ 。
用三种方法证明素数是无限的。	以下是用三种方法证明素数无限的详细步骤： ### 方法一：欧几里得的反证法 1. 假设：假设素数是有限的，且所有素数为 $ p_1, p_2, p_3, \ldots, p_n $。 2. 构造数：构造一个新数 $ N = (p_1 \times p_2 \times p_3 \times \ldots \times p_n) + 1 $。 3. 分析N的性质： - 如果N是素数，则N不在原假设的素数列表中，与假设矛盾。 - 如果N是合数，则存在某个素数 $ p $ 整除N。但由于N除以任何 $ p_i $ 都余1，故 $ p $ 不在原列表中，同样矛盾。 4. 结论：因此，素数必须是无限的。 ### 方法二：费马数的性质 1. 定义：费马数形如 $ F_k = 2^{2^k} + 1 $，其中 $ k $ 为非负整数。 2. 假设：假设素数是有限的，且所有素数为 $ p_1, p_2, \ldots, p_n $。 3. 构造费马数：对于每个 $ k $，构造 $ F_k $。如果 $ F_k $ 是素数，则不在原列表中；如果是合数，其素因数不在原列表中。 4. 结论：因此，素数必须是无限的。 ### 方法三：欧拉函数与素数无限性 1. 欧拉函数：欧拉函数 $ \phi(n) $ 表示小于 $ n $ 且与 $ n $ 互质的数的个数。 2. 假设：假设素数有限，记为 $ p_1, p_2, \ldots, p_n $。 3. 构造数：考虑形如 $ N = p_1^{k_1} p_2^{k_2} \ldots p_n^{k_n} $ 的数，其欧拉函数为 $ \phi(N) = N \prod_{i=1}^{n} \left(1 - \frac{1}{p_i}\right) $。 4. 分析：如果素数有限，$ \prod_{p \text{素数}} \left(1 - \frac{1}{p}\right) $ 收敛，但实际上该积发散，导致矛盾。 5. 结论：因此，素数必须是无限的。这三种方法各自从不同的角度证明了素数的无限性，展示了数论中素数无限性的深刻性。	为了用三种方法证明素数是无限的，我们可以采用以下方法： 1. 欧几里得的反证法： - 假设：假设素数的数量是有限的，为 $ p_1, p_2, \dots, p_n $。 - 构造：定义 $ P = p_1 \times p_2 \times \dots \times p_n + 1 $。 - 结论：如果 $ P $ 是素数，那么它是列表中没有的新素数。如果 $ P $ 是合数，那么它必须包含列表中没有的素数。两种情况都与假设矛盾。因此，素数是无限的。 2. 阶乘方法： - 假设：假设素数的数量是有限的，为 $ p_1, p_2, \dots, p_n $。 - 构造：考虑 $ n! + 1 $，其中 $ n $ 是最大的素数。 - 结论：因为 $ n! $ 能被所有 $ p_i $ 整除，所以 $ n! + 1 $ 不包含任何 $ p_i $。如果 $ n! + 1 $ 是素数，那么它是比 $ n $ 大的新素数。如果 $ n! + 1 $ 是合数，那么它必须包含比 $ n $ 大的素数。两种情况都与假设矛盾。因此，素数是无限的。 3. 欧拉的zeta函数证明： - 概念：欧拉证明了zeta函数 $ \zeta(s) = \sum_{k=1}^\infty \frac{1}{k^s} $ 可以表示为素数的乘积：$ \zeta(s) = \prod_{p \text{ 素数}} \frac{1}{1 - \frac{1}{p^s}} $。 - 结论：如果素数是有限的，那么乘积应该是有限的。但是当 $ s $ 趋近于大于1的值时，$ \zeta(s) $ 发散到无穷大。这要求乘积必须发散，因此素数必须是无限的。每种方法都证实了素数是无限的，并且基于不同的数学原理。欧几里得的证明使用了反证法，阶乘方法使用了简单的数论，欧拉的证明使用了解析数论的工具。所有三种方法都加强了对素数无限性的理解。

基准测试

推理时使用float16数据类型。
最大令牌数：32786
温度：0.7
评估方式：每个基准测试重复执行3次后计算平均分数。
_en基准测试：使用原始基准测试问题。
_ko基准测试：使用高质量翻译为韩语的原始基准测试问题。

模型	AIME24_ko	AIME24_en	MATH500_ko	MATH500_en
DeepSeek-R1-Distill-Llama-8B	25.56	46.67	63.40	88.87
DeepSeek-llama3.1-Bllossom-8B	36.67	40.00	78.07	87.80
DeepSeek-R1-Distill-Qwen-32B	48.89	75.56	86.87	93.47
DeepSeek-qwen-Bllossom-32B	66.67	67.78	87.67	93.73
DeepSeek-R1-Distill-Llama-70B	58.89	70.00	88.53	93.73
DeepSeek-llama3.3-Bllossom-70B	62.22	65.56	88.40	93.33

🔧 技术细节

DeepSeek-qwen-Bllossom-32B利用自行制作的多种推理数据进行了后训练过程。在这个过程中，采用了将大规模模型所具备的优秀推理能力和韩语处理能力有效蒸馏到DeepSeek-R1-Distill-Qwen-32B模型中的方法。通过这种方式，弥补了原模型的性能不足，并针对复杂的推理问题进行了优化，使其能够生成更准确、可靠的响应。