推理: false
库名称: transformers
语言:
- 英语
- 法语
- 德语
- 西班牙语
- 意大利语
- 葡萄牙语
- 日语
- 韩语
- 中文
- 阿拉伯语
- 希腊语
- 波斯语
- 波兰语
- 印尼语
- 捷克语
- 希伯来语
- 印地语
- 荷兰语
- 罗马尼亚语
- 俄语
- 土耳其语
- 乌克兰语
- 越南语
许可证: cc-by-nc-4.0
额外授权提示: >-
提交此表单即表示您同意遵守许可协议,并确认您提供的信息将根据Cohere的隐私政策被收集、使用和共享。您将收到关于Cohere实验室、研究活动、产品及服务的邮件更新。可随时取消订阅。
额外授权字段:
姓名: 文本
所属机构: 文本
国家: 国家选择
我同意仅将此模型用于非商业用途: 复选框
任务标签: 图像文本到文本
Aya Vision 32B 模型卡
Cohere实验室Aya Vision 32B是一个开放权重的32B参数模型研究版本,针对多种视觉语言任务进行了优化,包括OCR、图像描述、视觉推理、摘要、问答、代码生成等。该多语言模型在23种语言的视觉与语言任务中表现卓越。
本模型卡对应Aya Vision的320亿参数版本。我们还发布了80亿参数版本,可在此处获取。
立即体验:Aya Vision实战
下载权重前,您可通过Cohere交互平台或专属的Hugging Face Space试用Aya Vision 32B的对话功能。
WhatsApp集成
您还可以通过WhatsApp与Aya Vision交流。点击此链接即可打开与Aya Vision的聊天窗口。
若设备未安装WhatsApp,需先下载;或通过手机版WhatsApp按提示链接至网页版。最终您将看到可与模型对话的文本窗口。更多集成细节详见此处。
示例笔记本
通过此笔记本了解Aya Vision在不同场景下的使用方法。
使用指南
请安装包含本模型必要修改的transformers
源码库:
from transformers import AutoProcessor, AutoModelForImageTextToText
import torch
model_id = "CohereLabs/aya-vision-32b"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
model_id, device_map="auto", torch_dtype=torch.float16
)
messages = [
{"role": "user",
"content": [
{"type": "image", "url": "https://pbs.twimg.com/media/Fx7YvfQWYAIp6rZ?format=jpg&name=medium"},
{"type": "text", "text": "चित्र में लिखा पाठ क्या कहता है?"},
]},
]
inputs = processor.apply_chat_template(
messages, padding=True, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt"
).to(model.device)
gen_tokens = model.generate(
**inputs,
max_new_tokens=300,
do_sample=True,
temperature=0.3,
)
print(processor.tokenizer.decode(gen_tokens[0][inputs.input_ids.shape[1]:], skip_special_tokens=True))
也可直接使用transformers的pipeline
抽象:
from transformers import pipeline
pipe = pipeline(model="CohereLabs/aya-vision-32b", task="image-text-to-text", device_map="auto")
messages = [
{"role": "user",
"content": [
{"type": "image", "url": "https://media.istockphoto.com/id/458012057/photo/istanbul-turkey.jpg?s=612x612&w=0&k=20&c=qogAOVvkpfUyqLUMr_XJQyq-HkACXyYUSZbKhBlPrxo="},
{"type": "text", "text": "Bu resimde hangi anıt gösterilmektedir?"},
]},
]
outputs = pipe(text=messages, max_new_tokens=300, return_full_text=False)
print(outputs)
模型详情
输入: 接受文本与图像输入。
输出: 生成文本。
架构: 该视觉语言模型采用最先进的多语言模型Aya Expanse 32B(基于Aya Expanse方案训练),通过多模态适配器与SigLIP2-patch14-384视觉编码器结合。
图像处理: 使用169个视觉标记编码分辨率364x364像素的图像块。任意尺寸的输入图像会根据宽高比映射至最近支持的分辨率。Aya Vision最多支持12个输入块及缩略图(调整为364x364),共计2197个图像标记。
支持语言: 23种语言:英语、法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语、中文(简繁)、俄语、波兰语、土耳其语、越南语、荷兰语、捷克语、印尼语、乌克兰语、罗马尼亚语、希腊语、印地语、希伯来语和波斯语。
上下文长度: 支持16K上下文。
训练细节详见我们的博客。
评估
我们使用Aya Vision Benchmark和m-WildVision评估Aya Vision 32B与Llama-3.2 90B Vision、Molmo 72B、Qwen2.5-VL 72B的对比。胜率由claude-3-7-sonnet-20250219作为裁判判定(经测试其裁判性能优于其他模型)。
在纯文本输入场景下,使用m-ArenaHard开放生成评估集,以gpt-4o-2024-11-20为裁判评估胜率。
模型卡联系
如有错误或补充问题,请联系labs@cohere.com
使用条款
我们希望通过发布这个高性能320亿参数视觉语言模型的权重,助力全球研究者的社区研究。
本模型受CC-BY-NC许可约束,需同时遵守Cohere实验室可接受使用政策。