Kosmos 2.5
Kosmos-2.5是一款面向文本密集图像机器阅读的多模态读写模型,能够处理图像中的文本识别和结构化输出。
下载量 5,531
发布时间 : 5/13/2024
模型简介
Kosmos-2.5是一款多模态读写模型,专注于文本密集图像的机器阅读任务。它能够生成空间感知的文本块并输出结构化文本,适用于文档级文本识别和图像转Markdown文本生成等任务。
模型特点
多模态读写能力
结合视觉和语言处理能力,实现图像中文本的识别和结构化输出。
空间感知文本块
能够标注每个文本块在图像中的坐标位置,提供空间信息。
结构化输出
将样式与结构转化为Markdown格式,便于后续处理和使用。
任务适配性
通过监督微调配合不同提示词,可快速适配各种文本密集图像理解任务。
模型能力
文本识别
图像转Markdown
文档理解
空间文本标注
使用案例
文档处理
端到端文档级文本识别
从复杂文档图像中提取文本内容并保留结构信息
高精度的文本识别和结构保留
图像转Markdown
将包含文本的图像转换为结构化Markdown格式
保留原始样式和结构的Markdown输出
富文本图像处理
现实世界富文本图像理解
处理包含复杂文本布局的现实世界图像
通用化的文本密集图像理解能力
精选推荐AI模型
Qwen2.5 VL 7B Abliterated Caption It I1 GGUF
Apache-2.0
Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本,支持多语言图像描述任务。
图像生成文本
Transformers 支持多种语言

Q
mradermacher
167
1
Nunchaku Flux.1 Dev Colossus
其他
Colossus Project Flux 的 Nunchaku 量化版本,旨在根据文本提示生成高质量图像。该模型在优化推理效率的同时,将性能损失降至最低。
图像生成 英语
N
nunchaku-tech
235
3
Qwen2.5 VL 7B Abliterated Caption It GGUF
Apache-2.0
这是一个基于Qwen2.5-VL-7B模型的静态量化版本,专注于图像描述生成任务,支持多种语言。
图像生成文本
Transformers 支持多种语言

Q
mradermacher
133
1
Olmocr 7B 0725 FP8
Apache-2.0
olmOCR-7B-0725-FP8是基于Qwen2.5-VL-7B-Instruct模型,使用olmOCR-mix-0225数据集微调后量化为FP8版本的文档OCR模型。
图像生成文本
Transformers 英语

O
allenai
881
3
Lucy 128k GGUF
Apache-2.0
Lucy-128k是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型,在移动设备上也能高效运行。
大型语言模型
Transformers 英语

L
Mungert
263
2