DeepSeek-llama3.1-Bllossom-8B开源模型 - 韩语推理强，英语思考实现多语言输出

首页

Deepseek Llama3.1 Bllossom 8B

由 UNIVA-Bllossom 开发

基于DeepSeek-R1-distill-Llama-8B优化的韩语推理增强模型，通过英语内部思考实现多语言输出

大型语言模型

Transformers

支持多种语言开源协议:MIT #韩语推理优化 #多语言混合推理 #STEM领域增强

下载量 8,030

发布时间 : 2/13/2025

模型简介

该模型针对原DeepSeek-R1-distill-Llama-8B在韩语环境下性能下降的问题进行了优化，通过额外训练提升了韩语推理能力，同时保持英语处理能力。模型内部思考过程使用英语，最终根据输入语言输出响应。

模型特点

韩语推理增强

针对韩语环境特别优化，解决了原模型在韩语推理时性能下降的问题

双语处理能力

支持韩语和英语，内部思考过程使用英语，输出根据输入语言自适应

多样化领域训练

除了STEM领域数据外，还包含多样化的领域训练数据

推理能力优化

针对复杂推理问题优化，生成更准确、可靠的响应

模型能力

韩语文本生成

英语文本生成

逻辑推理

数学计算

多语言处理

使用案例

教育

数学问题解答

解决韩语数学应用题，如计算平均分数等问题

能正确解析韩语数学问题并给出分步解答

研究

数学定理证明

用多种方法证明数学定理，如素数无限性证明

能提供多种证明方法并详细解释推理过程

🚀 DeepSeek-llama3.1-Bllossom-8B

DeepSeek-Bllossom系列模型是为解决原有DeepSeek-R1-Distill系列模型存在的语言混合、多语言性能下降问题而进一步训练得到的。DeepSeek-llama3.1-Bllossom-8B基于DeepSeek-R1-distill-Llama-8B模型构建，旨在提升韩语环境下的推理性能。该模型是UNIVA与Bllossom团队合作推出的首个模型。

📋 模型信息

属性	详情
模型类型	DeepSeek-llama3.1-Bllossom-8B
基础模型	DeepSeek-R1-Distill-Llama-8B
库名称	transformers

📦 相关模型

模型	基础模型	下载地址
DeepSeek-qwen-Bllossom-1.5B	DeepSeek-R1-Distill-Qwen-1.5B	待公开
DeepSeek-qwen-Bllossom-7B	DeepSeek-R1-Distill-Qwen-7B	待公开
DeepSeek-llama3.1-Bllossom-8B	DeepSeek-R1-Distill-Llama-8B	🤗 HuggingFace
DeepSeek-qwen-Bllossom-14B	DeepSeek-R1-Distill-Qwen-14B	待公开
DeepSeek-qwen-Bllossom-32B	DeepSeek-R1-Distill-Qwen-32B	待公开
DeepSeek-llama3.3-Bllossom-70B	DeepSeek-R1-Distill-Llama-70B	🤗 HuggingFace

🚀 快速开始

模型简介

DeepSeek-llama3.1-Bllossom-8B基于DeepSeek-R1-distill-Llama-8B模型构建。原DeepSeek-R1-Distill系列模型存在语言混合、多语言性能下降的问题，特别是在韩语推理时性能大幅下降。而DeepSeek-Bllossom系列模型通过额外训练解决了这些问题，它在内部思考过程使用英语，最终响应根据输入语言输出，从而显著提升了韩语环境下的推理性能。

训练过程使用了韩语和英语推理数据，除了原DeepSeek-R1模型主要使用的STEM领域数据外，还涵盖了更多不同领域的数据。该模型旨在为韩语使用环境提供更准确、可靠的推理结果。

后训练

DeepSeek-llama3.1-Bllossom-8B利用自制的多种推理数据进行了后训练。此过程采用了将大模型的优秀推理能力和韩语处理能力有效蒸馏到DeepSeek-R1-distill-Llama-8B模型中的方法，优化了模型性能，使其能够对复杂推理问题生成更准确、可靠的响应。

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained(
    "UNIVA-Bllossom/DeepSeek-llama3.1-Bllossom-8B",
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("UNIVA-Bllossom/DeepSeek-llama3.3-Bllossom-70B")

system='''
You are a highly capable assistant. For every user question, follow these instructions exactly:
    1. First, think through the problem step-by-step in English. Enclose all of your internal reasoning between <think> and </think> tags. This chain-of-thought should detail your reasoning process.
    2. After the closing </think> tag, provide your final answer.
    3. Do not include any additional text or commentary outside of this format.
    4. Your output should strictly follow this structure:

<think>
[Your detailed step-by-step reasoning in English]
</think>
[Your final answer]
'''

text="철수, 영희, 민수가 3회의 게임에서 점수를 받았습니다. 영희의 점수는 민수의 점수의 두 배이며, 민수의 점수는 철수의 4배입니다. 철수가 10점을 받았다면 이 3명의 평균 점수를 계산하세요."
chat = [
    {"role": "system", "content": system},
    {"role": "user", "content": text}
]

prompt=tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer(
    prompt,
    return_tensors="pt",
    add_special_tokens=True
)

if "token_type_ids" in model_inputs:
    del model_inputs["token_type_ids"]

model_inputs = {k: v.to(model.device) for k, v in model_inputs.items()}

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=8192,
)

📊 模型响应比较

输入 (Prompt)	DeepSeek-R1-distill-Llama-70B	DeepSeek-llama3.3-Bllossom-70B
Alice、Bob和Charlie在3场游戏中获得了分数。 Alice的分数是Bob的两倍，Bob的分数是Charlie的4倍。如果Charlie得了10分，计算这三个人的平均分数。	Charlie的分数是10分。 Bob的分数是Charlie的4倍，所以Bob的分数是 $$ 4 \times 10 = 40 $$ 分。 Alice的分数是Bob的两倍，所以Alice的分数是 $$ 2 \times 40 = 80 $$ 分。三人的总分数是 $$ 10 + 40 + 80 = 130 $$ 分。平均分数是 $$ \frac{130}{3} \approx 43.33$$分。 $$ \boxed{43.33} $$ Charlie的分数是10分。	已知Charlie的分数是10分。Bob的分数是Charlie的4倍，计算如下： $$ 4 \times 10 = 40 $$ Alice的分数是Bob的两倍，即： $$ 2 \times 40 = 80 $$ 三人的总分数为： $$ 10 + 40 + 80 = 130 $$ 这三个人的平均分数通过总分数除以人数计算得出： $$ \frac{130}{3} $$ 因此，这三个人的平均分数是 $$ \boxed{\dfrac{130}{3}} $$ 。
用三种方法证明素数是无限的。	以下是用三种方法证明素数无限的详细步骤： ### 方法一：欧几里得的反证法 1. 假设：假设素数是有限的，且所有素数为 $ p_1, p_2, p_3, \ldots, p_n $。 2. 构造数：构造一个新数 $ N = (p_1 \times p_2 \times p_3 \times \ldots \times p_n) + 1 $。 3. 分析N的性质： - 如果N是素数，则N不在原假设的素数列表中，与假设矛盾。 - 如果N是合数，则存在某个素数 $ p $ 整除N。但由于N除以任何 $ p_i $ 都余1，故 $ p $ 不在原列表中，同样矛盾。 4. 结论：因此，素数必须是无限的。 ### 方法二：费马数的性质 1. 定义：费马数形如 $ F_k = 2^{2^k} + 1 $，其中 $ k $ 为非负整数。 2. 假设：假设素数是有限的，且所有素数为 $ p_1, p_2, \ldots, p_n $。 3. 构造费马数：对于每个 $ k $，构造 $ F_k $。如果 $ F_k $ 是素数，则不在原列表中；如果是合数，其素因数不在原列表中。 4. 结论：因此，素数必须是无限的。 ### 方法三：欧拉函数与素数无限性 1. 欧拉函数：欧拉函数 $ \phi(n) $ 表示小于 $ n $ 且与 $ n $ 互质的数的个数。 2. 假设：假设素数有限，记为 $ p_1, p_2, \ldots, p_n $。 3. 构造数：考虑形如 $ N = p_1^{k_1} p_2^{k_2} \ldots p_n^{k_n} $ 的数，其欧拉函数为 $ \phi(N) = N \prod_{i=1}^{n} \left(1 - \frac{1}{p_i}\right) $。 4. 分析：如果素数有限，$ \prod_{p \text{素数}} \left(1 - \frac{1}{p}\right) $ 收敛，但实际上该积发散，导致矛盾。 5. 结论：因此，素数必须是无限的。这三种方法各自从不同的角度证明了素数的无限性，展示了数论中素数无限性的深刻性。	为了用三种方法证明素数是无限的，我们可以采用以下方法： 1. 欧几里得反证法： - 假设：假设素数的数量是有限的，为 $ p_1, p_2, \dots, p_n $。 - 构造：定义 $ P = p_1 \times p_2 \times \dots \times p_n + 1 $。 - 结论：如果 $ P $ 是素数，那么它是列表中没有的新素数。如果 $ P $ 是合数，它必须包含列表中没有的素数。这两种情况都与假设矛盾。因此，素数是无限的。 2. 阶乘方法： - 假设：假设素数的数量是有限的，为 $ p_1, p_2, \dots, p_n $。 - 构造：考虑 $ n! + 1 $，其中 $ n $ 是最大的素数。 - 结论：因为 $ n! $ 能被所有 $ p_i $ 整除，所以 $ n! + 1 $ 不包含任何 $ p_i $。如果 $ n! + 1 $ 是素数，那么它是比 $ n $ 大的新素数。如果 $ n! + 1 $ 是合数，它必须包含比 $ n $ 大的素数。这两种情况都与假设矛盾。因此，素数是无限的。 3. 欧拉zeta函数证明： - 概念：欧拉证明了zeta函数 $ \zeta(s) = \sum_{k=1}^\infty \frac{1}{k^s} $ 可以表示为素数的乘积：$ \zeta(s) = \prod_{p \text{ 素数}} \frac{1}{1 - \frac{1}{p^s}} $。 - 结论：如果素数是有限的，乘积应该是有限的。但是当 $ s $ 趋近于大于1的值时，$ \zeta(s) $ 会发散到无穷大。这要求乘积必须发散，因此素数必须是无限的。每种方法都证实了素数是无限的，并且基于不同的数学原理。欧几里得的证明使用了反证法，阶乘方法使用了简单的数论，欧拉的证明使用了解析数论的工具。这三种方法都加深了对素数无限性的理解。

🧪 基准测试

推理使用float16数据类型。
最大令牌数：32786
温度系数：0.7
评估方式：每个基准测试重复运行3次后计算平均分数。
_en基准测试：使用原始基准测试问题。
_ko基准测试：使用高质量翻译为韩语的原始基准测试问题。

模型	AIME24_ko	AIME24_en	MATH500_ko	MATH500_en
DeepSeek-R1-Distill-Llama-8B	25.56	46.67	63.40	88.87
DeepSeek-llama3.1-Bllossom-8B	36.67	40.00	78.07	87.80
DeepSeek-R1-Distill-Llama-70B	58.89	70.00	88.53	93.73
DeepSeek-llama3.3-Bllossom-70B	62.22	65.56	88.40	93.33

📄 许可证

此代码仓库和模型权重遵循MIT许可证。DeepSeek-Bllossom系列模型支持商业使用，允许进行任何修改和衍生工作，包括但不限于为训练其他大语言模型进行蒸馏。请注意：

DeepSeek-R1-Distill-Llama-8B 源自Llama3.1-8B-Instruct，最初遵循llama3.1许可证。
DeepSeek-llama3.1-Bllossom-8B 源自DeepSeek-R1-Distill-Llama-8B，最初遵循llama3.1许可证。