aya-vision-8b开源多语言视觉语言模型 - 免费支持23种语言视语任务

首页

Aya Vision 8b

由 CohereLabs 开发

Aya Vision 8B是一个开放权重的80亿参数多语言视觉语言模型，支持23种语言的视觉和语言任务。

图像生成文本

Transformers

支持多种语言#多语言视觉理解 #图像文本生成 #OCR增强

下载量 29.94k

发布时间 : 3/2/2025

模型简介

针对多种视觉语言应用场景优化的多语言模型，包括OCR、图像描述、视觉推理、摘要、问答、代码等任务。

模型特点

多语言支持

支持23种语言的视觉和语言任务处理

高效视觉处理

使用169个视觉标记编码364x364像素图像块，支持最多2197个图像标记

长上下文支持

支持16K的上下文长度

开放权重

提供开放权重的80亿参数版本供研究使用

模型能力

图像文本识别(OCR)

图像描述生成

视觉推理

多语言文本生成

图像问答

多模态摘要

使用案例

多语言应用

多语言图像描述

为图像生成不同语言的描述文本

支持23种语言的准确描述

跨语言视觉问答

用不同语言提问关于图像内容的问题

准确理解并用相应语言回答

文档处理

多语言OCR

识别图像中的多语言文本

高精度识别23种语言的文本

🚀 Cohere Labs Aya Vision 8B模型

Cohere Labs Aya Vision 8B 是一个拥有80亿参数的模型的开放权重研究版本，它具备先进的能力，针对各种视觉语言用例进行了优化，包括光学字符识别（OCR）、图像描述、视觉推理、摘要生成、问答、代码处理等。它是一个多语言模型，在视觉和语言方面针对23种语言进行了训练。

本模型卡片对应Aya Vision模型的80亿参数版本。我们还发布了320亿参数版本，你可以点击此处查看。

开发者：Cohere Labs
联系方式：Cohere Labs
许可证：CC - BY - NC，同时需要遵守 Cohere Lab的可接受使用政策
模型名称：c4ai - aya - vision - 8b
模型大小：80亿参数
上下文长度：16K

🚀 快速开始

在线体验

在下载模型权重之前，你可以在 Cohere playground 或我们专门的 Hugging Face Space 中尝试Aya Vision聊天功能，进行交互式探索。

WhatsApp集成

你还可以通过流行的即时通讯服务WhatsApp与Aya Vision进行对话。点击此链接，即可打开与Aya Vision的WhatsApp聊天窗口。

如果你尚未在设备上安装WhatsApp，可能需要先进行安装；如果你已在手机上安装，可以按照屏幕提示将手机与WhatsApp Web进行关联。最后，你将看到一个文本窗口，可用于与模型进行聊天。有关我们的WhatsApp集成的更多详细信息，请点击此处查看。

示例笔记本

你还可以查看以下笔记本，了解如何将Aya Vision用于不同的用例。

✨ 主要特性

多语言支持：该模型在23种语言的视觉和语言任务上进行了训练，包括英语、法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语、中文（简体和繁体）、俄语、波兰语、土耳其语、越南语、荷兰语、捷克语、印尼语、乌克兰语、罗马尼亚语、希腊语、印地语、希伯来语和波斯语。
先进的视觉语言能力：具备OCR、图像描述、视觉推理、摘要生成、问答、代码处理等多种能力。
长上下文支持：支持16K的上下文长度。

📦 安装指南

请从包含此模型必要更改的源仓库安装 transformers：

# pip install 'git+https://github.com/huggingface/transformers.git@v4.49.0-AyaVision'

💻 使用示例

基础用法

from transformers import AutoProcessor, AutoModelForImageTextToText
import torch

model_id = "CohereLabs/aya-vision-8b"

processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
    model_id, device_map="auto", torch_dtype=torch.float16
)

# Format message with the aya-vision chat template
messages = [
    {"role": "user",
     "content": [
       {"type": "image", "url": "https://pbs.twimg.com/media/Fx7YvfQWYAIp6rZ?format=jpg&name=medium"},
        {"type": "text", "text": "चित्र में लिखा पाठ क्या कहता है?"},
    ]},
    ]

inputs = processor.apply_chat_template(
    messages, padding=True, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt"
).to(model.device)

gen_tokens = model.generate(
    **inputs, 
    max_new_tokens=300, 
    do_sample=True, 
    temperature=0.3,
)

print(processor.tokenizer.decode(gen_tokens[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)

高级用法

from transformers import pipeline

pipe = pipeline(model="CohereLabs/aya-vision-8b", task="image-text-to-text", device_map="auto")

# Format message with the aya-vision chat template
messages = [
    {"role": "user",
     "content": [
       {"type": "image", "url": "https://media.istockphoto.com/id/458012057/photo/istanbul-turkey.jpg?s=612x612&w=0&k=20&c=qogAOVvkpfUyqLUMr_XJQyq-HkACXyYUSZbKhBlPrxo="},
        {"type": "text", "text": "Bu resimde hangi anıt gösterilmektedir?"},
    ]},
    ]
outputs = pipe(text=messages, max_new_tokens=300, return_full_text=False)

print(outputs)

📚 详细文档

模型详情

属性	详情
输入	模型接受文本和图像作为输入。
输出	模型生成文本。
模型架构	这是一个视觉语言模型，它基于 Command R7B 多语言语言模型，并使用 Aya Expanse配方进行进一步的后训练。通过多模态适配器将其与 SigLIP2 - patch14 - 384 视觉编码器配对，以实现视觉语言理解。
图像处理	我们使用 169个视觉标记对分辨率为 364x364像素的图像块进行编码。任意大小的输入图像会根据宽高比映射到最近的支持分辨率。Aya Vision最多使用12个输入图像块和一个缩略图（调整为364x364）（共2197个图像标记）。
支持语言	该模型在23种语言上进行了训练：英语、法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语、中文（简体和繁体）、俄语、波兰语、土耳其语、越南语、荷兰语、捷克语、印尼语、乌克兰语、罗马尼亚语、希腊语、印地语、希伯来语和波斯语。
上下文长度	Aya Vision 8B支持16K的上下文长度。

更多关于模型训练的详细信息，请查看我们的博客文章。

评估

我们使用 Aya Vision Benchmark 和 m - WildVision 对Aya Vision 8B与 Pangea 7B、Llama - 3.2 11B Vision、Molmo - D 7B、Qwen2.5 - VL 7B、Pixtral 12B 和 Gemini Flash 1.5 8B 进行了评估。胜率使用claude - 3 - 7 - sonnet - 20250219作为评判模型确定，因为与其他模型相比，它具有更优越的评判性能。

我们还使用 m - ArenaHard 对Aya Vision 8B在仅文本输入情况下的性能与上述模型进行了评估，这是一项具有挑战性的开放式生成评估，使用gpt - 4o - 2024 - 11 - 20作为评判模型，以胜率进行衡量。

评估结果1 评估结果2 评估结果3 评估结果4