模型简介
模型特点
模型能力
使用案例
🚀 lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese
Deepseek的R1模型是优秀的、最先进的推理模型,它们经过训练可以同时处理英语和中文。然而,这些模型在输出语言上并不一致,当使用日语进行提示时,它们常常会输出中文或英语。因此,我们开发了lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese,作为R1模型的日语版本。
该模型是deepseek-ai/DeepSeek-R1-Distill-Qwen-7B在我们的lightblue/distilabel-reasoning-R1-Llama-70B数据集上进行日语微调的版本,它能够可靠且准确地以日语响应提示。
此模型在阿里云的8 x L20实例(ecs.gn8is-8x.32xlarge)上训练了不到10分钟。
🚀 快速开始
使用建议
当使用这些模型时,我们建议将采样温度设置在0.5 - 0.7之间,正如原始的蒸馏R1模型所建议的那样。
此外,我们观察到该模型有时比原始的R1模型更容易出现重复内容的情况。因此,如果模型在处理你的提示时出现重复内容,我们建议将repetition_penalty
设置为1.1或更高。
代码示例
我们提供了在vLLM中使用此模型的脚本:
基础用法
from vllm import LLM, SamplingParams
llm = LLM(
model="lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese",
max_model_len=8_000
)
sampling_params = SamplingParams(
temperature=0.5,
max_tokens=8_000,
repetition_penalty=1.1
)
prompts = [
"""学校には1クラスにつき20人の生徒がおり、クラスは合計3つあります。
学校全体では男子と女子がそれぞれ50%ずついます。
1つ目のクラスには女子が15人、2つ目のクラスには女子が12人います。
3つ目のクラスには何人の男子がいますか?"""
]
conversations = [
[{"role": "user", "content": x}] for x in prompts
]
outputs = llm.chat(conversations, sampling_params=sampling_params)
for output in outputs:
print(output.outputs[0].text)
<think>
# まず、学校の総生徒数を算出します。各クラスに20人の生徒があり、クラスは3つあるため、総生徒数は60人です。
# 次に、学校全体で男子と女子は同じ人数で分布しています。したがって、男子と女子各有30人。
...
# したがって、3つ目のクラスの男子数は20 - 3 = 17人です。
# </think>
# **解答:**
# 学校の総生徒数を算出します。
...
# **最終的な答え:**
# \[
# \boxed{17}
# \]
📚 详细文档
评估
我们使用gsm8k-ja-test_250-1319数据集的前50行,对该模型的输出准确性和有效日语<think>
部分的比例进行了评估。
我们将其与原始的R1模型进行了比较,并在重复惩罚系数分别为1.0和1.1的两种情况下进行了测试:
模型名称 | 重复惩罚系数 | 答案准确率(%) | 有效日语<think> 比例(%) |
---|---|---|---|
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B | 1.0 | 60 | 94 |
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B | 1.1 | 62 | 96 |
lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese | 1.0 | 66 | 92 |
lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese | 1.1 | 70 | 98 |
SakanaAI/gsm8k-ja-test_250-1319评估的代码可以在这里找到。
我们进一步使用DeL-TaiseiOzaki/Tengentoppa-sft-reasoning-ja的前50个提示,评估了模型响应中有效日语<think>
部分的比例。这个基准测试包含了更多样化和复杂的提示,这意味着它能更真实地评估该模型输出日语的可靠性。
模型名称 | 重复惩罚系数 | 有效日语<think> 比例(%) |
---|---|---|
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B | 1.0 | 48 |
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B | 1.1 | 48 |
lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese | 1.0 | 84 |
lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese | 1.1 | 94 |
DeL-TaiseiOzaki/Tengentoppa-sft-reasoning-ja评估的代码可以在这里找到。
模型制作过程
我们通过以下步骤为该模型创建了数据:
- 从argilla/distilabel-reasoning-prompts中采样英语推理风格的提示。
- 使用基于BAAI/bge-m3嵌入的文本相似度,去除相似的提示。
- 使用gpt-4o-mini-2024-07-18将英语提示翻译成日语。
- 使用deepseek-ai/DeepSeek-R1-Distill-Llama-70B生成提示的答案。
- 过滤掉不满足以下条件的响应:
- 在2048个标记内完成。
- 包含有效的
<think>
部分。 <think>
部分用日语书写。
我们使用这些数据在LLaMA-Factory上通过监督微调训练了我们的模型,使用的是ecs.gn8is-8x.32xlarge实例。
训练详情
完整训练配置
训练配置YAML文件
### model
model_name_or_path: deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
### method
stage: sft
do_train: true
finetuning_type: full
deepspeed: /root/LLaMA-Factory/examples/deepspeed/ds_z2_config.json
### dataset
dataset: distilabel-reasoning-R1-Llama-70B-ja-train
template: qwen
cutoff_len: 4500
overwrite_cache: true
preprocessing_num_workers: 16
packing: true
### output
output_dir: /root/train_outputs/DeepSeek-R1-Distill-Qwen-7B/distilabel-reasoning-R1-Llama-70B-ja-train
logging_steps: 1
save_steps: 0.99999
plot_loss: true
overwrite_output_dir: true
### train
per_device_train_batch_size: 1
gradient_accumulation_steps: 1
learning_rate: 1.0e-5
num_train_epochs: 1.0
lr_scheduler_type: cosine
warmup_ratio: 0.01
bf16: true
ddp_timeout: 180000000
### eval
val_size: 0.01
per_device_eval_batch_size: 1
eval_strategy: steps
eval_steps: 0.1
训练运行脚本
echo '{
"distilabel-reasoning-R1-Llama-70B-ja-train": {
"hf_hub_url": "lightblue/distilabel-reasoning-R1-Llama-70B-ja-train",
"formatting": "sharegpt"
}
}' > /root/LLaMA-Factory/data/dataset_info.json
cd /root/LLaMA-Factory && llamafactory-cli train /root/reasoning_train.yaml
rm -r /root/train_outputs/DeepSeek-R1-Distill-Qwen-7B/distilabel-reasoning-R1-Llama-70B-ja-train/checkpoint*
huggingface-cli upload lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese /root/train_outputs/DeepSeek-R1-Distill-Qwen-7B/distilabel-reasoning-R1-Llama-70B-ja-train
训练超参数
训练期间使用了以下超参数:
- 学习率:1e-05
- 训练批次大小:1
- 评估批次大小:1
- 随机种子:42
- 分布式类型:多GPU
- 设备数量:8
- 总训练批次大小:8
- 总评估批次大小:8
- 优化器:使用adamw_torch,β1 = 0.9,β2 = 0.999,ε = 1e-08,无额外优化器参数
- 学习率调度器类型:余弦
- 学习率预热比例:0.01
- 训练轮数:1.0
训练结果
训练损失 | 轮数 | 步数 | 验证损失 |
---|---|---|---|
0.766 | 0.1087 | 5 | 0.5912 |
0.5873 | 0.2174 | 10 | 0.5282 |
0.3868 | 0.3261 | 15 | 0.4958 |
0.5101 | 0.4348 | 20 | 0.4761 |
0.4085 | 0.5435 | 25 | 0.4644 |
0.5561 | 0.6522 | 30 | 0.4578 |
0.4683 | 0.7609 | 35 | 0.4542 |
0.5055 | 0.8696 | 40 | 0.4526 |
0.5359 | 0.9783 | 45 | 0.4519 |
框架版本
- Transformers 4.46.1
- Pytorch 2.5.1+cu124
- Datasets 3.1.0
- Tokenizers 0.20.3
📄 许可证
我们根据Apache 2.0许可证共享此模型。
开发者信息

该模型由Peter Devine(ptrdvn)为Lightblue训练。



