O

Ovis2 1B Dev

由 Isotr0py 开发
Ovis2-1B是多模态大语言模型(MLLM)Ovis系列的最新成员,专注于视觉与文本嵌入的结构对齐,具有小模型高性能、强化推理能力、视频与多图处理以及多语言OCR增强等特性。
下载量 79
发布时间 : 4/9/2025

模型简介

Ovis2-1B是AIDC-AI发布的多模态大语言模型,旨在实现视觉与文本嵌入的结构对齐。作为Ovis1.6的迭代升级,Ovis2在数据构建和训练方法上均有显著提升,特别适合处理复杂的视觉信息和多语言OCR任务。

模型特点

小模型高性能
通过优化训练策略,使小规模模型实现更高能力密度,展现跨层级领先优势。
强化推理能力
结合指令微调与偏好学习,显著增强思维链(CoT)推理能力。
视频与多图处理
将视频和多图数据纳入训练,提升跨帧/跨图像的复杂视觉信息处理能力。
多语言OCR增强
在英汉双语基础上优化多语言OCR能力,提升从表格/图表等复杂视觉元素中提取结构化数据的效果。

模型能力

图像理解
文本生成
视频理解
多图分析
多语言OCR
复杂推理

使用案例

视觉问答
图像内容描述
对输入图像进行详细描述
在MMBench-V1.1测试集上达到68.4分
视觉推理
基于图像内容进行逻辑推理
在MathVista测试精简集上达到59.4分
文档理解
表格数据提取
从复杂表格中提取结构化数据
在OCRBench上达到89.0分
视频理解
视频内容分析
理解视频中的动作和场景
在VideoMME(带字幕)上达到49.5分
AIbase
智启未来,您的人工智能解决方案智库
简体中文