A

Aya Vision 8b

由 CohereLabs 开发
Aya Vision 8B是一个开放权重的80亿参数多语言视觉语言模型,支持23种语言的视觉和语言任务。
下载量 29.94k
发布时间 : 3/2/2025
模型介绍
内容详情
替代品

模型简介

针对多种视觉语言应用场景优化的多语言模型,包括OCR、图像描述、视觉推理、摘要、问答、代码等任务。

模型特点

多语言支持
支持23种语言的视觉和语言任务处理
高效视觉处理
使用169个视觉标记编码364x364像素图像块,支持最多2197个图像标记
长上下文支持
支持16K的上下文长度
开放权重
提供开放权重的80亿参数版本供研究使用

模型能力

图像文本识别(OCR)
图像描述生成
视觉推理
多语言文本生成
图像问答
多模态摘要

使用案例

多语言应用
多语言图像描述
为图像生成不同语言的描述文本
支持23种语言的准确描述
跨语言视觉问答
用不同语言提问关于图像内容的问题
准确理解并用相应语言回答
文档处理
多语言OCR
识别图像中的多语言文本
高精度识别23种语言的文本