Q

Qwen2 VL OCR 2B Instruct GGUF

由 prithivMLmods 开发
基于Qwen/Qwen2-VL-2B-Instruct微调的多模态模型,专为OCR、图像转文本、LaTeX数学求解及手写识别优化
下载量 142
发布时间 : 5/15/2025
模型介绍
内容详情
替代品

模型简介

结合视觉与文本理解的对话式模型,支持光学字符识别、手写文本提取、数学公式解析等混合任务

模型特点

多模态OCR能力
可处理印刷体、手写体及数学公式的混合识别任务
量化支持
提供从1位到8位的多种量化版本,适配不同硬件需求
对话式交互
支持基于视觉输入的问答式交互

模型能力

光学字符识别(OCR)
手写文本提取
LaTeX数学公式解析
图像到文本转换
视觉问答(VQA)

使用案例

文档数字化
印刷文档OCR
将扫描件或照片中的印刷文字转换为可编辑文本
支持复杂版式识别
手写笔记转录
识别潦草手写内容并转为数字文本
对非常规笔迹有优化
教育辅助
数学作业解析
识别手写或印刷的数学问题并给出LaTeX格式解析
支持公式符号识别