库名称:transformers
许可证:cc-by-nc-4.0
支持语言:
- 多语言
- 南非荷兰语
- 阿姆哈拉语
- 阿拉伯语
- 阿萨姆语
- 南阿塞拜疆语
- 白俄罗斯语
- 保加利亚语
- 班巴拉语
- 孟加拉语
- 藏语
- 波斯尼亚语
- 加泰罗尼亚语
- 宿务语
- 捷克语
- 威尔士语
- 丹麦语
- 德语
- 荷兰语
- 希腊语
- 英语
- 世界语
- 西班牙语
- 爱沙尼亚语
- 巴斯克语
- 波斯语
- 芬兰语
- 法语
- 爱尔兰语
- 苏格兰盖尔语
- 加利西亚语
- 豪萨语
- 印地语
- 克罗地亚语
- 海地克里奥尔语
- 匈牙利语
- 印尼语
- 伊博语
- 冰岛语
- 意大利语
- 希伯来语
- 日语
- 爪哇语
- 格鲁吉亚语
- 基库尤语
- 哈萨克语
- 高棉语
- 韩语
- 拉丁语
- 卢森堡语
- 林加拉语
- 老挝语
- 立陶宛语
- 拉脱维亚语
- 毛利语
- 马拉地语
- 马来语
- 马耳他语
- 缅甸语
- 挪威语
- 奥克语
- 旁遮普语
- 波兰语
- 葡萄牙语
- 克丘亚语
- 罗马尼亚语
- 俄语
- 梵语
- 撒丁语
- 信德语
- 桑戈语
- 斯洛伐克语
- 斯洛文尼亚语
- 萨摩亚语
- 索马里语
- 阿尔巴尼亚语
- 塞尔维亚语
- 斯瓦蒂语
- 瑞典语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 泰语
- 提格里尼亚语
- 他加禄语
- 茨瓦纳语
- 托克皮辛语
- 土耳其语
- 聪加语
- 特威语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 瓦瑞语
- 沃洛夫语
- 科萨语
- 约鲁巴语
- 中文
- 祖鲁语
基础模型:
- CohereForAI/aya-expanse-8b
- timm/ViT-SO400M-14-SigLIP-384
任务标签:图像文本到文本
Centurio Aya
模型详情
模型描述
- 模型类型: Centurio 是一个开源的多语言大型视觉语言模型。
- 训练数据: 即将公布
- 支持语言: 模型训练涵盖以下100种语言:
af, am, ar, ar-eg, as, azb, be, bg, bm, bn, bo, bs, ca, ceb, cs, cy, da, de, du, el, en, eo, es, et, eu, fa, fi, fr, ga, gd, gl, ha, hi, hr, ht, hu, id, ig, is, it, iw, ja, jv, ka, ki, kk, km, ko, la, lb, ln, lo, lt, lv, mi, mr, ms, mt, my, no, oc, pa, pl, pt, qu, ro, ru, sa, sc, sd, sg, sk, sl, sm, so, sq, sr, ss, sv, sw, ta, te, th, ti, tl, tn, tpi, tr, ts, tw, uk, ur, uz, vi, war, wo, xh, yo, zh, zu
- 许可证: 本作品采用知识共享署名非商业性4.0许可证发布。
模型来源
用途
直接使用
该模型可通过transformers
库结合我们的定制代码直接使用。
from transformers import AutoModelForCausalLM, AutoProcessor
import timm
from PIL import Image
import requests
url = "https://upload.wikimedia.org/wikipedia/commons/b/bd/Golden_Retriever_Dukedestiny01_drvd.jpg"
image = Image.open(requests.get(url, stream=True).raw)
model_name = "WueNLP/centurio_aya"
processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)
prompt = "<image_placeholder>\n用德语简要描述这张图片。"
messages = [
{"role": "user", "content": prompt}
]
text = processor.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model = AutoModelForCausalLM.from_pretrained(
model_name,
trust_remote_code=True
)
model_inputs = processor(text=[text], images=[image], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=128
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
多图像输入
原生支持多图像输入。只需:1) 在提示中添加更多<image_placeholder>
标记;2) 将所有图像以扁平列表形式传入整个批次:
[...]
image_multi_1, image_multi_2 = [...]
prompt_multi = "以下图片有什么区别?\n<image_placeholder><image_placeholder>\n用德语回答。"
messages_multi = [
{"role": "user", "content": prompt_multi}
]
text_multi = processor.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = processor(text=[text, text_multi], images=[image, image_multi_1, image_multi_2], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=128
)
[...]
偏见、风险与限制
- 存在大型视觉语言模型的通用问题,如幻觉或训练数据偏见。
- 此为研究项目,不推荐用于生产环境。
- 多语言性能:不同语言的生成质量和表现差异较大。
- 文字识别:对小字体和非拉丁文字的处理能力较弱。
引用
BibTeX:
@article{centurio2025,
author = {Gregor Geigle and
Florian Schneider and
Carolin Holtermann and
Chris Biemann and
Radu Timofte and
Anne Lauscher and
Goran Glava\v{s}},
title = {Centurio: 大型视觉语言模型多语言能力的驱动因素研究},
journal = {arXiv},
volume = {abs/2501.05122},
year = {2025},
url = {https://arxiv.org/abs/2501.05122},
eprinttype = {arXiv},
eprint = {2501.05122},
}