Qwen2-VL-OCR-2B-Instruct-GGUF开源多模态模型 - 实现OCR、图像转文本及手写识别

首页

Qwen2 VL OCR 2B Instruct GGUF

由 prithivMLmods 开发

基于Qwen/Qwen2-VL-2B-Instruct微调的多模态模型，专为OCR、图像转文本、LaTeX数学求解及手写识别优化

图像生成文本支持多种语言开源协议:Apache-2.0 #多模态OCR #手写识别 #数学公式解析

下载量 142

发布时间 : 5/15/2025

模型简介

结合视觉与文本理解的对话式模型，支持光学字符识别、手写文本提取、数学公式解析等混合任务

模型特点

多模态OCR能力

可处理印刷体、手写体及数学公式的混合识别任务

量化支持

提供从1位到8位的多种量化版本，适配不同硬件需求

对话式交互

支持基于视觉输入的问答式交互

模型能力

光学字符识别(OCR)

手写文本提取

LaTeX数学公式解析

图像到文本转换

视觉问答(VQA)

使用案例

文档数字化

印刷文档OCR

将扫描件或照片中的印刷文字转换为可编辑文本

支持复杂版式识别

手写笔记转录

识别潦草手写内容并转为数字文本

对非常规笔迹有优化

教育辅助

数学作业解析

识别手写或印刷的数学问题并给出LaTeX格式解析

支持公式符号识别

🚀 Qwen2-VL-OCR-2B-Instruct-GGUF [ 视觉 / 光学字符识别 ]

Qwen2-VL-OCR-2B-Instruct-GGUF 是一款专为光学字符识别（OCR）、图像转文本、LaTeX 格式数学问题解答以及潦草手写文字识别等任务量身定制的模型。它基于 Qwen/Qwen2-VL-2B-Instruct 进行微调，融合了对话式交互、视觉理解和文本处理能力，能够高效处理多模态任务。

✨ 主要特性

多任务处理：支持光学字符识别、图像转文本、数学问题解答和潦草手写文字识别等多种任务。
多模态融合：结合视觉和文本理解，实现对话式交互。

📚 详细文档

模型文件（Qwen2-VL-OCR-2B-Instruct，GGUF）

文件名	大小	量化方式	格式	描述
`Qwen2-VL-OCR-2B-Instruct.f16.gguf`	3.09 GB	FP16	GGUF	全精度（float16）
`Qwen2-VL-OCR-2B-Instruct.Q2_K.gguf`	676 MB	Q2_K	GGUF	2 位量化
`Qwen2-VL-OCR-2B-Instruct.Q3_K_L.gguf`	880 MB	Q3_K_L	GGUF	3 位量化（K L 变体）
`Qwen2-VL-OCR-2B-Instruct.Q3_K_M.gguf`	824 MB	Q3_K_M	GGUF	3 位量化（K M 变体）
`Qwen2-VL-OCR-2B-Instruct.Q3_K_S.gguf`	761 MB	Q3_K_S	GGUF	3 位量化（K S 变体）
`Qwen2-VL-OCR-2B-Instruct.Q4_K_M.gguf`	986 MB	Q4_K_M	GGUF	4 位量化（K M 变体）
`Qwen2-VL-OCR-2B-Instruct.Q4_K_S.gguf`	940 MB	Q4_K_S	GGUF	4 位量化（K S 变体）
`Qwen2-VL-OCR-2B-Instruct.Q5_K_M.gguf`	1.13 GB	Q5_K_M	GGUF	5 位量化（K M 变体）
`Qwen2-VL-OCR-2B-Instruct.Q5_K_S.gguf`	1.1 GB	Q5_K_S	GGUF	5 位量化（K S 变体）
`Qwen2-VL-OCR-2B-Instruct.Q6_K.gguf`	1.27 GB	Q6_K	GGUF	6 位量化
`Qwen2-VL-OCR-2B-Instruct.Q8_0.gguf`	1.65 GB	Q8_0	GGUF	8 位量化

i1 量化变体

文件名	大小	量化方式	描述
`Qwen2-VL-OCR-2B-Instruct.i1-IQ1_M.gguf`	464 MB	i1-IQ1_M	i1 1 位中等
`Qwen2-VL-OCR-2B-Instruct.i1-IQ1_S.gguf`	437 MB	i1-IQ1_S	i1 1 位小
`Qwen2-VL-OCR-2B-Instruct.i1-IQ2_M.gguf`	601 MB	i1-IQ2_M	i1 2 位中等
`Qwen2-VL-OCR-2B-Instruct.i1-IQ2_S.gguf`	564 MB	i1-IQ2_S	i1 2 位小
`Qwen2-VL-OCR-2B-Instruct.i1-IQ2_XS.gguf`	550 MB	i1-IQ2_XS	i1 2 位超小
`Qwen2-VL-OCR-2B-Instruct.i1-IQ2_XXS.gguf`	511 MB	i1-IQ2_XXS	i1 2 位极小
`Qwen2-VL-OCR-2B-Instruct.i1-IQ3_M.gguf`	777 MB	i1-IQ3_M	i1 3 位中等
`Qwen2-VL-OCR-2B-Instruct.i1-IQ3_S.gguf`	762 MB	i1-IQ3_S	i1 3 位小
`Qwen2-VL-OCR-2B-Instruct.i1-IQ3_XS.gguf`	732 MB	i1-IQ3_XS	i1 3 位超小
`Qwen2-VL-OCR-2B-Instruct.i1-IQ3_XXS.gguf`	669 MB	i1-IQ3_XXS	i1 3 位极小
`Qwen2-VL-OCR-2B-Instruct.i1-IQ4_NL.gguf`	936 MB	i1-IQ4_NL	i1 4 位无层归一化量化
`Qwen2-VL-OCR-2B-Instruct.i1-IQ4_XS.gguf`	896 MB	i1-IQ4_XS	i1 4 位超小
`Qwen2-VL-OCR-2B-Instruct.i1-Q4_0.gguf`	938 MB	i1-Q4_0	i1 4 位传统量化
`Qwen2-VL-OCR-2B-Instruct.i1-Q4_1.gguf`	1.02 GB	i1-Q4_1	i1 4 位传统变体

元数据

文件名	大小	描述
`.gitattributes`	3.37 kB	Git LFS 跟踪文件
`config.json`	34 B	配置占位符
`README.md`	672 B	模型说明文档

量化使用说明

（按大小排序，不一定代表质量。IQ 量化通常比相同大小的非 IQ 量化更优）

链接	类型	大小/GB	备注
GGUF	Q2_K	0.4
GGUF	Q3_K_S	0.5
GGUF	Q3_K_M	0.5	质量较低
GGUF	Q3_K_L	0.5
GGUF	IQ4_XS	0.6
GGUF	Q4_K_S	0.6	快速，推荐
GGUF	Q4_K_M	0.6	快速，推荐
GGUF	Q5_K_S	0.6
GGUF	Q5_K_M	0.7
GGUF	Q6_K	0.7	质量非常好
GGUF	Q8_0	0.9	快速，质量最佳
GGUF	f16	1.6	16 位每权重，过度配置