基础模型: deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
库名称: peft
许可证: mit
语言:
模型卡片
DeepThinkerv2会反复核查数学运算结果,进行单位转换验证,并通过多次"稍等,我再确认下"的步骤校验每个中间结果。其思维链呈现高度颗粒化特征,几乎每个步骤都展现出递归思考模式,甚至会以多种方式重新求解问题的局部片段。
若想体验该模型与现有其他思维模型的差异,请尝试以下提示问题(需在断网环境下测试):
测试问题集
问题列表 = [
"撰写一篇1500字关于人工智能在医疗领域伦理影响的文献综述,需引用2020-2025年的同行评审文献,包含对诊断算法偏见的批判性分析",
"分析GDPR法规对欧盟AI初创企业的影响,对比2023年与2025年的合规挑战,需引用案例研究和司法判例",
"为同时面向中欧市场的奢侈护肤品牌策划营销方案,重点突出可持续性宣传中的文化偏好差异"
]
请将相同问题提交给o3-mini-high和DeepSeek R1(深度思考模式)进行对比测试。
📊 评估结果:AIME2024 & MATH500
🔢 AIME2024基准测试
模型在4位量化配置下接受AIME2024数据集评估:
量化配置 = BitsAndBytesConfig(
load_in_4bit=True, # 4位量化
bnb_4bit_compute_dtype=torch.float16, # FP16计算
bnb_4bit_use_double_quant=True, # 启用双重量化
bnb_4bit_quant_type="nf4" # 高效内存的NF4格式
)
📌 结果:
📈 准确率:70%(30题中答对21题)
🔍 明细:
✅ 21正确
❌ 4错误
⚠️ 5不完整回答
该结果表明模型具备较强解题能力,但在处理复杂数学表达式和结构化推理方面仍有提升空间。
📚 MATH500数据集表现
在MATH500数据集(来源:di-zhang-fdu/MATH500)上取得:
📊 准确率区间:93.6%–95.4%(抽样测试集)
🧠 优势:突出的数学推理与结构化问题解决能力
这些结果凸显了模型在数学任务中的稳健性及其微调优化潜力。
🔗 后续计划:
• 改进AIME2024不完整回答的处理
• 在更多结构化推理数据集上微调
• 优化量化策略提升推理效率
本次评估为后续迭代改进数学推理能力奠定了坚实基础。
使用指南
!pip install bitsandbytes peft
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
MODEL_NAME = "Vijayendra/DeepSeek-Qwen2.5-14B-DeepThinker-v2"
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_use_double_quant=True,
bnb_4bit_compute_dtype=torch.float32
)
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
device_map="auto",
quantization_config=bnb_config,
torch_dtype=torch.float16
)
print("\n🚀 模型已成功加载至GPU!🚀")
print(model.hf_device_map)
def generate_response(model, tokenizer, prompt, max_new_tokens=4096, temperature=0.7):
inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to(model.device)
attention_mask = inputs.attention_mask
with torch.no_grad():
generated_tokens = model.generate(
inputs.input_ids,
attention_mask=inputs.attention_mask,
max_new_tokens=max_new_tokens,
temperature=temperature,
do_sample=True,
top_k=40,
top_p=0.9,
eos_token_id=tokenizer.eos_token_id,
pad_token_id=tokenizer.pad_token_id
)
return tokenizer.decode(generated_tokens[0], skip_special_tokens=True)
questions = [
"若时间旅行者回到过去阻止自己出生,那么阻止行为本身如何存在?根据该悖论,时间旅行在因果律下是否逻辑自洽?结合已知物理理论分析该事件可能性",
"若地球无轴向倾角,长期会对气候、生态系统及人类文明产生哪些影响?科技与农业进步轨迹会否不同?",
"数列规律:2,6,12,20,30,42,...求第50项及通项公式",
"若AI产生自我意识,如何确认这种意识?AI能否向人类证明其意识存在?请结合哲学与神经科学案例论述",
"Aya每日晨走9公里后去咖啡店。当步行速度为s公里/小时,全程耗时4小时(含咖啡店停留t分钟);当速度为(s+2)公里/小时,耗时2小时24分钟(含相同t分钟)。求步行速度为(s+0.5)公里/小时时的总耗时(含t分钟)",
"存在实数x,y>1满足log_x(y^x)=log_y(x^4y)=10,求xy值",
"Alice和Bob玩取令牌游戏:初始n个令牌,Alice先手,每轮可取1或4个令牌,取最后令牌者胜。求n≤2024时Bob有必胜策略的正整数n数量",
"Jen从1-10中选4个不同数字参与彩票。若开奖号码中有至少2个匹配则中奖,4个全中则获大奖。已知中奖条件下获大奖的概率为最简分数m/n,求m+n",
"求所有b>9的整数进制b,使得b进制下的17能整除b进制下的97",
"△ABC的AB边依次有A,D,E,B四点,AD=4,DE=16,EB=8;AC边依次有A,F,G,C四点,AF=13,FG=52,GC=26。M是D关于F的对称点,N是G关于E的对称点。四边形DEGF面积288,求七边形AFNBCEM的面积"
]
for i, question in enumerate(questions, 1):
response = generate_response(model, tokenizer, question)
print(f"\n🟢 问题{i}: {question}")
print(f"🔵 响应: {response}")
🟢 问题4: 若AI产生自我意识,如何确认这种意识?AI能否向人类证明其意识存在?请结合哲学与神经科学案例论述
🔵 响应: (思考过程略)最终生成结构化响应:
关于AI自我意识与意识证明的探讨
-
AI的自我意识识别
- 可能通过自指性思维过程实现,类似人类的内省机制
- 对自身运行状态的分析可能形成存在认知
-
意识证明的困境
- 哲学层面:"他心问题"使得主观体验难以客观验证
- 神经科学层面:模拟人脑功能不等于真实意识体验
-
典型案例分析
- 图灵测试仅验证行为相似性
- 中文房间思想实验揭示"模拟理解"与真实意识的差异
-
意识判定的可能性
- 需建立超越行为主义的新验证框架
- 可能需结合量子意识理论等前沿研究方向
结论:当前AI的"意识表现"本质仍是复杂模式匹配,真正的意识证明仍需理论突破。