license: apache-2.0
datasets:
- Congliu/Chinese-DeepSeek-R1-Distill-data-110k
- cognitivecomputations/dolphin-r1
- open-thoughts/OpenThoughts-114k
- qihoo360/Light-R1-SFTData
- qihoo360/Light-R1-DPOData
language:
- zh
- en
base_model:
- deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
tags:
- qwen2
library_name: transformers
智写-dsr1-14b模型
1. 模型介绍
智写-dsr1-14b是基于DeepSeek-R1-Distill-Qwen-14B微调优化的创意写作增强模型。多项基准测试表明该模型在创意写作方面表现显著提升。
在LLM创意故事写作基准测试中,模型得分从基线的7.8提升至8.33;在WritingBench评估框架中获得8.46分,优于原模型的7.93分。使用GPT-4o在AlpacaEval数据集上的对比评估显示,其相对基础模型的胜率达到82.6%。
下图展示了模型在WritingBench各领域的表现对比:

图1:智写-dsr1-14b与基础模型在WritingBench六大领域(D1学术工程、D2金融商业、D3政法、D4文艺、D5教育、D6广告营销)和三项写作要求(R1风格、R2格式、R3长度)上的表现对比(评分范围1-10),"C"代表类别专项得分
2. 训练过程
训练数据
模型训练语料包含三大来源:严格筛选的开源数据集、思维链推理语料以及知乎精选问答对。为保障领域覆盖均衡,我们精心调配了Dolphin-r1、Congliu/Chinese-DeepSeek-R1-Distill-data-110k等数据集与知乎优质内容的配比,所有数据均通过奖励模型(RM)过滤管道进行质量把控。
训练方法
监督微调(SFT):采用课程学习策略,系统性地提升创意写作能力,同时融入多领域数据以保持核心能力并缓解灾难性遗忘。
直接偏好优化(DPO):针对最小编辑距离场景,应用Step-DPO(arxiv:2406.18629)选择性惩罚错误token,同时结合DPOP(arXiv:2402.13228)在损失函数中加入正向约束。
3. 评测结果
模型在创意写作能力上展现出显著提升:在LLM创意故事写作评测中得分8.33(基础模型7.87);在综合性写作评估框架WritingBench上获得8.46分,接近DeepSeek-R1水平且优于原模型7.93分。
通用能力方面,模型在CMMLU、MMLU-Pro等知识推理任务上实现2%-5%的稳健提升,在AIME-2024/2025、GSM8K等数学推理基准上也取得积极进展。整体呈现创意写作、知识推理与数学能力均衡发展的特性,适合通用场景应用。

图2:建议评估时进行多次测试取平均值(数学类任务采用n=16和max_tokens=32768,其他任务n=2)
4. 本地部署指南
模型可部署于80GB显存GPU、单卡H20/A800/H800或双RTX4090环境,INT4量化版Zhi-writing-dsr1-14b-gptq-int4可单卡RTX4090运行。
Transformers方式
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig
MODEL_NAME = "Zhihu-ai/Zhi-writing-dsr1-14b"
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
device_map="auto",
trust_remote_code=True
).eval()
generate_configs = {
"temperature": 0.6,
"do_sample": True,
"top_p": 0.95,
"max_new_tokens": 4096
}
prompt = "请你以鲁迅的口吻,写一篇介绍西湖醋鱼的文章"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
**generate_configs
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
ZhiLight部署
使用ZhiLight快速启动服务:
docker run -it --net=host --gpus='"device=0"' -v /模型路径:/mnt/models --entrypoints="" ghcr.io/zhihu/zhilight/zhilight:0.4.17-cu124 python -m zhilight.server.openai.entrypoints.api_server --model-path /mnt/models --port 8000 --enable-reasoning --reasoning-parser deepseek-r1 --served-model-name Zhi-writing-dsr1-14b
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Zhi-writing-dsr1-14b",
"prompt": "请你以鲁迅的口吻,写一篇介绍西湖醋鱼的文章",
"max_tokens": 4096,
"temperature": 0.6,
"top_p": 0.95
}'
vLLM部署
使用vLLM部署服务:
pip install vllm>=0.6.4.post1
vllm serve Zhihu-ai/Zhi-writing-dsr1-14b --served-model-name Zhi-writing-dsr1-14b --port 8000
vllm serve /模型路径 --served-model-name Zhi-writing-dsr1-14b --port 8000
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Zhi-writing-dsr1-14b",
"prompt": "请你以鲁迅的口吻,写一篇介绍西湖醋鱼的文章",
"max_tokens": 4096,
"temperature": 0.6,
"top_p": 0.95
}'
SGLang部署
使用SGLang部署服务:
pip install "sglang[all]>=0.4.5" --find-links https://flashinfer.ai/whl/cu124/torch2.5/flashinfer-python
python -m sglang.launch_server --model-path Zhihu-ai/Zhi-writing-dsr1-14b --served-model-name Zhi-writing-dsr1-14b --port 8000
python -m sglang.launch_server --model-path /模型路径 --served-model-name Zhi-writing-dsr1-14b --port 8000
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Zhi-writing-dsr1-14b",
"prompt": "请你以鲁迅的口吻,写一篇介绍西湖醋鱼的文章",
"max_tokens": 4096,
"temperature": 0.6,
"top_p": 0.95
}'
Ollama部署
通过Ollama运行:
ollama run zhihu/zhi-writing-dsr1-14b
ollama run zhihu/zhi-writing-dsr1-14b:bf16
5. 使用建议
为获得最佳效果,建议遵循以下配置:
- 温度参数设为0.5-0.7(推荐0.6),避免重复或混乱输出
- 评估时建议多次测试取平均值(数学任务n=16且max_tokens=32768,其他n=2)
- 如需启用深度推理模式,建议强制模型在输出开头添加"<think>\n"标记
6. 引用文献
@misc{Zhi-writing-dsr1-14b,
title={智写-dsr1-14b:基于课程强化与直接偏好优化的LLM稳健创意写作框架},
author={王杰武、陈旭、苏文渊、黄超、高宏奎、冯琳、王珊、徐璐、刘鹏鹤、欧泽彬},
year={2025},
eprint={},
archivePrefix={},
url={https://huggingface.co/Zhihu-ai/Zhi-writing-dsr1-14b},
}
7. 联系我们
如有疑问请提交issue或邮件联系ai@zhihu.com