DeepSeek-R1-Distill-Qwen-7B-Japanese开源模型 - 精准日语推理响应提示

首页

Deepseek R1 Distill Qwen 7B Japanese

由 lightblue 开发

这是DeepSeek R1模型的日语版本，专门针对日语推理任务进行微调，能够可靠且准确地以日语响应提示。

大型语言模型

Transformers

日语开源协议:Apache-2.0 #日语推理优化 #数学问题解答 #思维链生成

下载量 1,067

发布时间 : 1/24/2025

模型简介

该模型是基于DeepSeek-R1-Distill-Qwen-7B在日语推理数据集上进行微调的版本，解决了原模型在日语提示下输出不一致的问题。

模型特点

日语优化

专门针对日语进行微调，解决了原模型在日语提示下输出不一致的问题

高效训练

在阿里云8 x L20实例上训练不到10分钟即完成

推理能力

保留了原模型的优秀推理能力，特别适合解决数学和逻辑问题

输出一致性

相比原模型，在日语输出上更加稳定和可靠

模型能力

日语文本生成

数学推理

逻辑问题解答

多轮对话

使用案例

教育

数学问题解答

解答日语数学问题，特别是需要多步推理的问题

在GSM8K日语测试集上达到70%准确率

客服

日语客户咨询

处理日语客户的咨询和问题

🚀 lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese

Deepseek的R1模型是优秀的、最先进的推理模型，它们经过训练可以同时处理英语和中文。然而，这些模型在输出语言上并不一致，当使用日语进行提示时，它们常常会输出中文或英语。因此，我们开发了lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese，作为R1模型的日语版本。

该模型是deepseek-ai/DeepSeek-R1-Distill-Qwen-7B在我们的lightblue/distilabel-reasoning-R1-Llama-70B数据集上进行日语微调的版本，它能够可靠且准确地以日语响应提示。

此模型在阿里云的8 x L20实例（ecs.gn8is-8x.32xlarge）上训练了不到10分钟。

🚀 快速开始

使用建议

当使用这些模型时，我们建议将采样温度设置在0.5 - 0.7之间，正如原始的蒸馏R1模型所建议的那样。

此外，我们观察到该模型有时比原始的R1模型更容易出现重复内容的情况。因此，如果模型在处理你的提示时出现重复内容，我们建议将repetition_penalty设置为1.1或更高。

代码示例

我们提供了在vLLM中使用此模型的脚本：

基础用法

from vllm import LLM, SamplingParams

llm = LLM(
    model="lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese",
    max_model_len=8_000
)

sampling_params = SamplingParams(
    temperature=0.5, 
    max_tokens=8_000,
    repetition_penalty=1.1
)

prompts = [
    """学校には1クラスにつき20人の生徒がおり、クラスは合計3つあります。
学校全体では男子と女子がそれぞれ50%ずついます。
1つ目のクラスには女子が15人、2つ目のクラスには女子が12人います。
3つ目のクラスには何人の男子がいますか？"""
]

conversations = [
    [{"role": "user", "content": x}] for x in prompts
]

outputs = llm.chat(conversations, sampling_params=sampling_params)

for output in outputs:
    print(output.outputs[0].text)

<think>
# まず、学校の総生徒数を算出します。各クラスに20人の生徒があり、クラスは3つあるため、総生徒数は60人です。

# 次に、学校全体で男子と女子は同じ人数で分布しています。したがって、男子と女子各有30人。
...
# したがって、3つ目のクラスの男子数は20 - 3 = 17人です。
# </think>

# **解答：**

# 学校の総生徒数を算出します。
...
# **最終的な答え：**
# \[
# \boxed{17}
# \]

📚 详细文档

评估

我们使用gsm8k-ja-test_250-1319数据集的前50行，对该模型的输出准确性和有效日语<think>部分的比例进行了评估。

我们将其与原始的R1模型进行了比较，并在重复惩罚系数分别为1.0和1.1的两种情况下进行了测试：

模型名称	重复惩罚系数	答案准确率(%)	有效日语`<think>`比例(%)
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B	1.0	60	94
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B	1.1	62	96
lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese	1.0	66	92
lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese	1.1	70	98

SakanaAI/gsm8k-ja-test_250-1319评估的代码可以在这里找到。

我们进一步使用DeL-TaiseiOzaki/Tengentoppa-sft-reasoning-ja的前50个提示，评估了模型响应中有效日语<think>部分的比例。这个基准测试包含了更多样化和复杂的提示，这意味着它能更真实地评估该模型输出日语的可靠性。

模型名称	重复惩罚系数	有效日语`<think>`比例(%)
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B	1.0	48
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B	1.1	48
lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese	1.0	84
lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese	1.1	94

DeL-TaiseiOzaki/Tengentoppa-sft-reasoning-ja评估的代码可以在这里找到。

模型制作过程

我们通过以下步骤为该模型创建了数据：

从argilla/distilabel-reasoning-prompts中采样英语推理风格的提示。
使用基于BAAI/bge-m3嵌入的文本相似度，去除相似的提示。
使用gpt-4o-mini-2024-07-18将英语提示翻译成日语。
使用deepseek-ai/DeepSeek-R1-Distill-Llama-70B生成提示的答案。
过滤掉不满足以下条件的响应：
- 在2048个标记内完成。
- 包含有效的<think>部分。
- <think>部分用日语书写。

我们使用这些数据在LLaMA-Factory上通过监督微调训练了我们的模型，使用的是ecs.gn8is-8x.32xlarge实例。

训练详情

完整训练配置

训练配置YAML文件

### model
model_name_or_path: deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

### method
stage: sft
do_train: true
finetuning_type: full
deepspeed: /root/LLaMA-Factory/examples/deepspeed/ds_z2_config.json

### dataset
dataset: distilabel-reasoning-R1-Llama-70B-ja-train
template: qwen
cutoff_len: 4500
overwrite_cache: true
preprocessing_num_workers: 16
packing: true

### output
output_dir: /root/train_outputs/DeepSeek-R1-Distill-Qwen-7B/distilabel-reasoning-R1-Llama-70B-ja-train
logging_steps: 1
save_steps: 0.99999
plot_loss: true
overwrite_output_dir: true

### train
per_device_train_batch_size: 1
gradient_accumulation_steps: 1
learning_rate: 1.0e-5
num_train_epochs: 1.0
lr_scheduler_type: cosine
warmup_ratio: 0.01
bf16: true
ddp_timeout: 180000000

### eval
val_size: 0.01
per_device_eval_batch_size: 1
eval_strategy: steps
eval_steps: 0.1

训练运行脚本

echo '{
"distilabel-reasoning-R1-Llama-70B-ja-train": {
  "hf_hub_url": "lightblue/distilabel-reasoning-R1-Llama-70B-ja-train",
  "formatting": "sharegpt"
}
}' > /root/LLaMA-Factory/data/dataset_info.json

cd /root/LLaMA-Factory && llamafactory-cli train /root/reasoning_train.yaml

rm -r /root/train_outputs/DeepSeek-R1-Distill-Qwen-7B/distilabel-reasoning-R1-Llama-70B-ja-train/checkpoint*
huggingface-cli upload lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese /root/train_outputs/DeepSeek-R1-Distill-Qwen-7B/distilabel-reasoning-R1-Llama-70B-ja-train

训练超参数

训练期间使用了以下超参数：

学习率：1e-05
训练批次大小：1
评估批次大小：1
随机种子：42
分布式类型：多GPU
设备数量：8
总训练批次大小：8
总评估批次大小：8
优化器：使用adamw_torch，β1 = 0.9，β2 = 0.999，ε = 1e-08，无额外优化器参数
学习率调度器类型：余弦
学习率预热比例：0.01
训练轮数：1.0

训练结果

训练损失	轮数	步数	验证损失
0.766	0.1087	5	0.5912
0.5873	0.2174	10	0.5282
0.3868	0.3261	15	0.4958
0.5101	0.4348	20	0.4761
0.4085	0.5435	25	0.4644
0.5561	0.6522	30	0.4578
0.4683	0.7609	35	0.4542
0.5055	0.8696	40	0.4526
0.5359	0.9783	45	0.4519