推理: false
库名称: transformers
语言:
- 英语
- 法语
- 德语
- 西班牙语
- 意大利语
- 葡萄牙语
- 日语
- 韩语
- 中文
- 阿拉伯语
- 希腊语
- 波斯语
- 波兰语
- 印尼语
- 捷克语
- 希伯来语
- 印地语
- 荷兰语
- 罗马尼亚语
- 俄语
- 土耳其语
- 乌克兰语
- 越南语
许可证: cc-by-nc-4.0
额外授权提示: >-
提交此表单即表示您同意遵守许可协议,并确认您提供的信息将根据Cohere的隐私政策被收集、使用和共享。您将收到关于C4AI和Cohere研究、活动、产品和服务的电子邮件更新。您可以随时取消订阅。
额外授权字段:
姓名: 文本
所属机构: 文本
国家: 国家选择
我同意仅将此模型用于非商业用途: 复选框
管道标签: 图像文本到文本
Aya Vision 8B模型卡
Cohere实验室Aya Vision 8B是一个开放权重的8B参数模型研究版本,针对多种视觉语言应用场景进行了优化,包括OCR、图像描述、视觉推理、摘要、问答、代码等。这是一个多语言模型,在23种语言的视觉和语言任务中表现优异。
本模型卡对应Aya Vision模型的80亿参数版本。我们还发布了320亿参数版本,您可以在这里找到。
试用:Aya Vision实战演示
在下载权重前,您可以在Cohere游乐场或我们专用的Hugging Face Space中体验Aya Vision的聊天功能。
WhatsApp集成
您还可以通过流行的消息服务WhatsApp与Aya Vision对话。使用此链接打开与Aya Vision的WhatsApp聊天窗口。
如果您的设备上没有安装WhatsApp,可能需要先下载安装;如果您手机已安装,可以按照屏幕指示链接手机和WhatsApp网页版。最终您将看到一个可以与模型对话的文本窗口。关于WhatsApp集成的更多详情请见此处。
示例笔记本
您可以查看以下笔记本了解如何将Aya Vision用于不同用例。
如何使用Aya Vision
请从包含本模型必要修改的源代码库安装transformers
:
from transformers import AutoProcessor, AutoModelForImageTextToText
import torch
model_id = "CohereLabs/aya-vision-8b"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
model_id, device_map="auto", torch_dtype=torch.float16
)
messages = [
{"role": "user",
"content": [
{"type": "image", "url": "https://pbs.twimg.com/media/Fx7YvfQWYAIp6rZ?format=jpg&name=medium"},
{"type": "text", "text": "चित्र में लिखा पाठ क्या कहता है?"},
]},
]
inputs = processor.apply_chat_template(
messages, padding=True, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt"
).to(model.device)
gen_tokens = model.generate(
**inputs,
max_new_tokens=300,
do_sample=True,
temperature=0.3,
)
print(processor.tokenizer.decode(gen_tokens[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
您也可以直接使用transformers的pipeline
抽象:
from transformers import pipeline
pipe = pipeline(model="CohereLabs/aya-vision-8b", task="image-text-to-text", device_map="auto")
messages = [
{"role": "user",
"content": [
{"type": "image", "url": "https://media.istockphoto.com/id/458012057/photo/istanbul-turkey.jpg?s=612x612&w=0&k=20&c=qogAOVvkpfUyqLUMr_XJQyq-HkACXyYUSZbKhBlPrxo="},
{"type": "text", "text": "Bu resimde hangi anıt gösterilmektedir?"},
]},
]
outputs = pipe(text=messages, max_new_tokens=300, return_full_text=False)
print(outputs)
模型详情
输入: 模型接受文本和图像输入。
输出: 模型生成文本。
模型架构: 这是一个视觉语言模型,基于Command R7B多语言语言模型,采用Aya Expanse配方进行后训练,通过多模态适配器与SigLIP2-patch14-384视觉编码器结合实现视觉语言理解。
图像处理: 我们使用169个视觉标记编码分辨率为364x364像素的图像块。任意尺寸的输入图像会根据宽高比映射到最接近的支持分辨率。Aya Vision最多使用12个输入块和一个缩略图(调整为364x364)(共2197个图像标记)。
支持语言: 模型支持23种语言:英语、法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语、中文(简体和繁体)、俄语、波兰语、土耳其语、越南语、荷兰语、捷克语、印尼语、乌克兰语、罗马尼亚语、希腊语、印地语、希伯来语和波斯语。
上下文长度: Aya Vision 8B支持16K的上下文长度。
有关模型训练的更多详情,请查看我们的博客文章。
评估
我们使用Aya Vision基准和m-WildVision评估了Aya Vision 8B与Pangea 7B、Llama-3.2 11B Vision、Molmo-D 7B、Qwen2.5-VL 7B、Pixtral 12B和Gemini Flash 1.5 8B的性能对比。使用claude-3-7-sonnet-20250219作为评判标准确定胜率,因其评判性能优于其他模型。
我们还使用m-ArenaHard评估了Aya Vision 8B在纯文本输入下的性能,这是一个具有挑战性的开放式生成评估,使用gpt-4o-2024-11-20作为评判标准测量胜率。
模型卡联系方式
对于本模型卡中的错误或补充问题,请联系labs@cohere.com
使用条款
我们希望通过发布这个模型,向全球研究人员开放一个高性能的80亿参数视觉语言模型的权重,使基于社区的研究工作更加便利。
本模型受CC-BY-NC许可约束,同时需遵守Cohere实验室可接受使用政策。