许可证: MIT
语言:
- 韩语
- 英语
基础模型:
- deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
库名称: transformers
DeepSeek-qwen-bllossom-32B
DeepSeek-Bllossom系列是为了解决原有DeepSeek-R1-Distill系列模型的语言混合及多语言性能下降问题而进行额外训练的模型。
DeepSeek-qwen-Bllossom-32B是基于DeepSeek-R1-Distill-Qwen-32B模型构建的,旨在提升韩语环境下的推理性能。
本模型是UNIVA与Bllossom团队合作开发的首款模型。
1. 简介
DeepSeek-qwen-Bllossom-32B是基于DeepSeek-R1-Distill-Qwen-32B模型构建的,旨在克服原基础模型因主要使用中英文数据训练带来的局限性。原DeepSeek-R1-Distill-Qwen-32B在韩语推理时存在性能显著下降的问题,而DeepSeek-Bllossom通过额外训练实现了内部思考过程以英语进行,最终根据用户输入语言输出响应,从而大幅提升了韩语环境下的推理表现。
训练数据包含韩英双语推理数据集,除原DeepSeek-R1模型常用的STEM领域数据外,还涵盖多领域内容。在数据集设计和模型训练过程中,DeepSeek-qwen-Bllossom-32B以提供更准确可靠的韩语推理结果为核心目标。
2. 后期训练
DeepSeek-qwen-Bllossom-32B利用自研的多样化推理数据集进行了后期训练。该过程采用了大模型优秀推理能力向DeepSeek-R1-Distill-Qwen-32B高效蒸馏的方法,有效弥补了原模型不足,使其在复杂推理问题上能生成更精准可信的响应。
3. 推理示例
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model = AutoModelForCausalLM.from_pretrained(
"UNIVA-Bllossom/DeepSeek-llama3.1-Bllossom-8B",
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("UNIVA-Bllossom/DeepSeek-qwen-Bllossom-32B")
system='''
你是一个高能力的助手。对于每个用户问题,请严格遵循以下指令:
1. 首先用英语逐步思考问题。将所有内部推理过程包裹在<think>和</think>标签之间。
2. 在</think>标签后提供最终答案。
3. 不要在此格式外添加任何额外文本或注释。
4. 输出必须严格遵循以下结构:
<think>
[你的详细分步英语推理]
</think>
[你的最终答案]
'''
text="哲洙、英熙、敏秀在三轮游戏中得分。英熙的分数是敏秀的两倍,敏秀的分数是哲洙的4倍。如果哲洙得了10分,请计算这三人的平均分。"
chat = [
{"role": "system", "content": system},
{"role": "user", "content": text}
]
prompt=tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer(
prompt,
return_tensors="pt",
add_special_tokens=True
)
if "token_type_ids" in model_inputs:
del model_inputs["token_type_ids"]
model_inputs = {k: v.to(model.device) for k, v in model_inputs.items()}
generated_ids = model.generate(
**model_inputs,
max_new_tokens=8192,
)
4. 模型响应对比
输入 (Prompt) |
DeepSeek-R1-distill-Llama-70B |
DeepSeek-llama3.3-Bllossom-70B |
Alice、Bob、Charlie在三轮游戏中得分。 Alice的分数是Bob的两倍,Bob的分数是Charlie的4倍。 如果Charlie得了10分,请计算这三人的平均分。 |
Charlie得分为10分。 Bob的分数是Charlie的4倍,因此Bob得分为 $$ 4 \times 10 = 40 $$ 分。 Alice的分数是Bob的两倍,因此Alice得分为 $$ 2 \times 40 = 80 $$ 分。 三人总分为 $$ 10 + 40 + 80 = 130 $$ 分。 平均分为 $$ \frac{130}{3} \approx 43.33$分。 $$ \boxed{43.33} $$ Charlie得分为10分。 |
已知Charlie得分为10分。Bob的分数是Charlie的4倍,计算如下: $$ 4 \times 10 = 40 $$ Alice的分数是Bob的两倍,计算如下: $$ 2 \times 40 = 80 $$ 三人总分为: $$ 10 + 40 + 80 = 130 $$ 平均分通过总分除以人数计算: $$ \frac{130}{3} $$ 因此,三人平均分为 $$ \boxed{\dfrac{130}{3}} $$ 。 |
用三种方法证明素数无限。 |
以下是三种证明素数无限的详细步骤: ### 方法一:欧几里得反证法 1. 假设:假设素数有限,全部素数为$ p_1, p_2, p_3, \ldots, p_n $。 2. 构造数:构造新数$ N = (p_1 \times p_2 \times p_3 \times \ldots \times p_n) + 1 $。 3. 分析性质: - 若N是素数,则不在原素数列表中,矛盾。 - 若N是合数,则存在素数$ p $整除N。但N除以任何$ p_i $余1,故$ p $不在原列表,矛盾。 4. 结论:素数无限。 ### 方法二:费马数性质 1. 定义:费马数$ F_k = 2^{2^k} + 1 $。 2. 假设:假设素数有限,全部素数为$ p_1, p_2, \ldots, p_n $。 3. 构造费马数:每个$ F_k $要么是新素数,要么含新素因数。 4. 结论:素数无限。 ### 方法三:欧拉函数法 1. 欧拉函数:$ \phi(n) $表示与$ n $互质的数的个数。 2. 假设:假设素数有限,记为$ p_1, p_2, \ldots, p_n $。 3. 构造数:$ N = p_1^{k_1} p_2^{k_2} \ldots p_n^{k_n} $的欧拉函数为$ \phi(N) = N \prod_{i=1}^{n} \left(1 - \frac{1}{p_i}\right) $。 4. 分析:若素数有限,乘积应收敛,但实际上发散,矛盾。 5. 结论:素数无限。 三种方法从不同角度证明了素数的无限性。 |
素数无限的三种证明方法: 1. 欧几里得反证法: - 假设素数有限集$ p_1, p_2, \dots, p_n $。 - 构造$ P = p_1 \times p_2 \times \dots \times p_n + 1 $。 - $ P $若是素数则为新素数;若为合数则含新素因数,均矛盾。 2. 阶乘法: - 设最大素数为$ n $,考虑$ n! + 1 $。 - $ n! + 1 $不被任何$ p_i $整除,必含新素数。 3. 欧拉ζ函数法: - ζ函数$ \zeta(s) = \prod_{p \text{素数}} \frac{1}{1 - \frac{1}{p^s}} $。 - 若素数有限,乘积应有限,但$ s\to1^+ $时ζ函数发散,矛盾。 三种方法分别基于反证、数论和分析数论,共同验证素数无限性。 |
5. 基准测试
- 推理精度: float16
- 最大token数: 32786
- 温度参数: 0.7
- 评估方式: 各基准测试运行3次取平均分
- _en基准: 使用原始英文问题
- _ko基准: 使用高质量韩语翻译问题
模型 |
AIME24_ko |
AIME24_en |
MATH500_ko |
MATH500_en |
DeepSeek-R1-Distill-Llama-8B |
25.56 |
46.67 |
63.40 |
88.87 |
DeepSeek-llama3.1-Bllossom-8B |
36.67 |
40.00 |
78.07 |
87.80 |
DeepSeek-R1-Distill-Qwen-32B |
48.89 |
75.56 |
86.87 |
93.47 |
DeepSeek-qwen-Bllossom-32B |
66.67 |
67.78 |
87.67 |
93.73 |
DeepSeek-R1-Distill-Llama-70B |
58.89 |
70.00 |
88.53 |
93.73 |
DeepSeek-llama3.3-Bllossom-70B |
62.22 |
65.56 |
88.40 |
93.33 |
6. 许可证
本代码仓库及模型权重采用MIT许可证授权。
DeepSeek-Bllossom系列支持商用,允许任何修改和衍生作品(包括但不限于训练其他