Aya Vision 32B开源多模态模型 - 支持23种语言的视觉语言任务应用

首页

Aya Vision 32b

由 CohereLabs 开发

Aya Vision 32B是Cohere实验室开发的开放权重32B参数多模态模型，支持23种语言的视觉语言任务。

图像生成文本

Transformers

支持多种语言#多语言视觉理解 #高精度OCR #跨模态推理

下载量 387

发布时间 : 3/2/2025

模型简介

针对多种视觉语言任务优化的多语言模型，包括OCR、图像描述、视觉推理、摘要、问答、代码生成等。

模型特点

多语言支持

支持23种语言的视觉语言任务处理

高分辨率图像处理

支持364x364像素分辨率，最多2197个图像标记

长上下文支持

16K上下文长度，适合处理复杂任务

多模态适配器

结合先进文本模型与视觉编码器的创新架构

模型能力

图像描述生成

视觉问答

多语言OCR

视觉推理

文本摘要

代码生成

跨模态理解

使用案例

内容理解

多语言图像描述

为图像生成不同语言的描述文本

支持23种语言的准确描述

文档OCR

从图像中提取多语言文本内容

高精度文字识别

智能交互

视觉问答

回答关于图像内容的复杂问题

支持多语言问答

教育辅助

解释图像中的教育内容

多语言教学支持

🚀 Aya Vision 32B模型介绍

Cohere Labs Aya Vision 32B 是一个拥有320亿参数的模型的开放权重研究版本，具备先进的能力，针对多种视觉语言用例进行了优化，包括光学字符识别（OCR）、图像描述、视觉推理、摘要生成、问答、代码处理等。它是一个多语言模型，在视觉和语言方面针对23种语言进行了训练。

本模型卡片对应Aya Vision模型的320亿参数版本。我们还发布了一个80亿参数的版本，你可以点击此处查看。

属性	详情
开发团队	Cohere Labs
联系方式	Cohere Labs
许可证	CC - BY - NC，同时需遵守 Cohere Lab's Acceptable Use Policy
模型名称	Cohere Labs - aya - vision - 32b
模型规模	320亿参数
上下文长度	16K

🚀 快速开始

在线体验

在下载模型权重之前，你可以在 Cohere playground 或我们专门的 Hugging Face Space 中尝试Aya Vision 32B的聊天功能，进行交互式探索。

WhatsApp集成

你还可以通过流行的即时通讯服务WhatsApp与Aya Vision进行对话。使用此链接打开与Aya Vision的WhatsApp聊天窗口。

如果你尚未在设备上安装WhatsApp，可能需要先进行安装；如果你已在手机上安装，可以按照屏幕上的说明将手机与WhatsApp Web进行关联。最后，你将看到一个文本窗口，可用于与模型进行聊天。有关我们WhatsApp集成的更多详细信息，请点击此处查看。

示例笔记本

你可以查看以下笔记本，了解如何将Aya Vision用于不同的用例。

📦 安装指南

请从包含此模型必要更改的源仓库中安装 transformers：

# pip install 'git+https://github.com/huggingface/transformers.git@v4.49.0-AyaVision'

💻 使用示例

基础用法

from transformers import AutoProcessor, AutoModelForImageTextToText
import torch

model_id = "CohereLabs/aya-vision-32b"

processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
    model_id, device_map="auto", torch_dtype=torch.float16
)

# Format message with the aya-vision chat template
messages = [
    {"role": "user",
     "content": [
       {"type": "image", "url": "https://pbs.twimg.com/media/Fx7YvfQWYAIp6rZ?format=jpg&name=medium"},
        {"type": "text", "text": "चित्र में लिखा पाठ क्या कहता है?"},
    ]},
    ]

inputs = processor.apply_chat_template(
    messages, padding=True, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt"
).to(model.device)

gen_tokens = model.generate(
    **inputs, 
    max_new_tokens=300, 
    do_sample=True, 
    temperature=0.3,
)

print(processor.tokenizer.decode(gen_tokens[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)

高级用法

你也可以直接使用transformers的 pipeline 抽象来使用该模型：

from transformers import pipeline

pipe = pipeline(model="CohereLabs/aya-vision-32b", task="image-text-to-text", device_map="auto")

# Format message with the aya-vision chat template
messages = [
    {"role": "user",
     "content": [
       {"type": "image", "url": "https://media.istockphoto.com/id/458012057/photo/istanbul-turkey.jpg?s=612x612&w=0&k=20&c=qogAOVvkpfUyqLUMr_XJQyq-HkACXyYUSZbKhBlPrxo="},
        {"type": "text", "text": "Bu resimde hangi anıt gösterilmektedir?"},
    ]},
    ]
outputs = pipe(text=messages, max_new_tokens=300, return_full_text=False)

print(outputs)

📚 详细文档

模型详情

输入：模型接受文本和图像作为输入。
输出：模型生成文本。
模型架构：这是一个视觉语言模型，使用了最先进的多语言语言模型 Aya Expanse 32B，该模型采用 Aya Expanse 方法进行训练，并通过多模态适配器与 SigLIP2 - patch14 - 384 视觉编码器配对，以实现视觉语言理解。
图像处理：我们使用 169个视觉标记 对分辨率为 364x364像素 的图像块进行编码。任意大小的输入图像会根据宽高比映射到最近的支持分辨率。Aya Vision最多使用12个输入图像块和一个缩略图（调整为364x364）（共2197个图像标记）。
支持语言：该模型在23种语言上进行了训练，包括英语、法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语、中文（简体和繁体）、俄语、波兰语、土耳其语、越南语、荷兰语、捷克语、印尼语、乌克兰语、罗马尼亚语、希腊语、印地语、希伯来语和波斯语。
上下文长度：Aya Vision 32B支持16K的上下文长度。

有关模型训练的更多详细信息，请查看我们的博客文章。

评估

我们使用 Aya Vision Benchmark 和 m - WildVision，将Aya Vision 32B与 Llama - 3.2 90B Vision、Molmo 72B、Qwen2.5 - VL 72B 进行了对比评估。胜率使用claude - 3 - 7 - sonnet - 20250219作为评判模型确定，因为与其他模型相比，它具有更优越的评判性能。

我们还使用 m - ArenaHard 对Aya Vision 32B在仅文本输入情况下的性能与相同模型进行了评估，这是一项具有挑战性的开放式生成评估，使用gpt - 4o - 2024 - 11 - 20作为评判模型，以胜率进行衡量。

Aya Vision 32B综合胜率逐步改进效率与性能对比