DeepSeer-R1视觉语言模型开源 - 支持思维链推理，对话模板训练超实用

Deepseer R1 Vision Distill Qwen 1.5B Google Vit Base Patch16 224

由 mehmetkeremturkcan 开发

DeepSeer是基于DeepSeek-R1模型开发的视觉语言模型，支持思维链推理能力，通过对话模板训练视觉模型。

下载量 25

发布时间 : 1/30/2025

模型简介

DeepSeer是一个结合视觉和语言处理能力的模型，具备思维链推理功能，能够处理图像到文本的转换任务。

思维链推理能力

支持通过对话模板进行思维链推理，增强模型的解释和推理能力

视觉语言结合

结合视觉和语言处理能力，能够理解和生成与图像相关的文本

基于DeepSeek-R1

基于DeepSeek-R1-Distill-Qwen-1.5B模型进行微调，继承了其强大的语言处理能力

图像理解

文本生成

思维链推理

视觉问答

教育

视觉问答系统

用于教育场景中的视觉问答，帮助学生理解图像内容

提供详细的解释和推理过程

研究

视觉语言模型研究

用于研究视觉语言模型的推理能力和性能

提供思维链推理的案例研究

属性	详情
模型类型	基于DeepSeek - R1的视觉语言模型
训练数据	5CD - AI/LLaVA - CoT - o1 - Instruct
基础模型	google/vit - base - patch16 - 224、deepseek - ai/DeepSeek - R1 - Distill - Qwen - 1.5B
库名称	transformers
任务类型	图像文本到文本