许可证:apache-2.0
数据集:
- CohereLabs/xP3x
- CohereLabs/aya_dataset
- CohereLabs/aya_collection
- DataProvenanceInitiative/Commercially-Verified-Licenses
- CohereLabs/aya_evaluation_suite
语言:
- 南非荷兰语
- 阿姆哈拉语
- 阿拉伯语
- 阿塞拜疆语
- 白俄罗斯语
- 孟加拉语
- 保加利亚语
- 加泰罗尼亚语
- 宿务语
- 捷克语
- 威尔士语
- 丹麦语
- 德语
- 希腊语
- 英语
- 世界语
- 爱沙尼亚语
- 巴斯克语
- 芬兰语
- 菲律宾语
- 法语
- 西弗里斯兰语
- 苏格兰盖尔语
- 爱尔兰语
- 加利西亚语
- 古吉拉特语
- 海地克里奥尔语
- 豪萨语
- 希伯来语
- 印地语
- 匈牙利语
- 亚美尼亚语
- 伊博语
- 印尼语
- 冰岛语
- 意大利语
- 爪哇语
- 日语
- 卡纳达语
- 格鲁吉亚语
- 哈萨克语
- 高棉语
- 吉尔吉斯语
- 韩语
- 库尔德语
- 老挝语
- 拉脱维亚语
- 拉丁语
- 立陶宛语
- 卢森堡语
- 马拉雅拉姆语
- 马拉地语
- 马其顿语
- 马尔加什语
- 马耳他语
- 蒙古语
- 毛利语
- 马来语
- 缅甸语
- 尼泊尔语
- 荷兰语
- 挪威语
- 北索托语
- 齐切瓦语
- 奥里亚语
- 旁遮普语
- 波斯语
- 波兰语
- 葡萄牙语
- 普什图语
- 罗马尼亚语
- 俄语
- 僧伽罗语
- 斯洛伐克语
- 斯洛文尼亚语
- 萨摩亚语
- 绍纳语
- 信德语
- 索马里语
- 南索托语
- 西班牙语
- 阿尔巴尼亚语
- 塞尔维亚语
- 巽他语
- 斯瓦希里语
- 瑞典语
- 泰米尔语
- 泰卢固语
- 塔吉克语
- 泰语
- 土耳其语
- 契维语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 科萨语
- 意第绪语
- 约鲁巴语
- 中文
- 祖鲁语
评估指标:
- 准确率
- BLEU分数
Aya 101模型卡
模型概览
Aya模型是一个支持101种语言指令的大规模多语言生成式语言模型。
尽管覆盖语言数量翻倍,Aya在各类自动评估和人工评估中均优于mT0和BLOOMZ。
训练数据包括xP3x、Aya数据集、Aya语料库、DataProvenance商业验证授权子集及ShareGPT-Command。
我们以Apache-2.0许可证发布模型,践行"多语言技术赋能多语言世界"的使命。
使用示例
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
checkpoint = "CohereLabs/aya-101"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
aya_model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
tur_inputs = tokenizer.encode("Translate to English: Aya cok dilli bir dil modelidir.", return_tensors="pt")
tur_outputs = aya_model.generate(tur_inputs, max_new_tokens=128)
print(tokenizer.decode(tur_outputs[0]))
hin_inputs = tokenizer.encode("भारत में इतनी सारी भाषाएँ क्यों हैं?", return_tensors="pt")
hin_outputs = aya_model.generate(hin_inputs, max_new_tokens=128)
print(tokenizer.decode(hin_outputs[0]))
模型细节
微调配置
- 架构: 与mt5-xxl相同
- 微调样本量: 2500万
- 批大小: 256
- 硬件: TPUv4-128集群
- 软件栈: T5X框架, Jax
数据来源
训练数据包含:
所有数据均筛选至mT5支持的101种语言范围。数据过滤和处理细节详见论文。
评估表现
论文第5章详细阐述了99种语言的评估结果,涵盖判别式与生成式任务、人工评估、保留任务测试及分布内性能模拟胜率等全方位测试。
偏差风险与局限性
关于安全性缓解措施及多语言毒性/偏差基准测试的完整讨论,请参阅论文第6-7章:《Aya模型:指令微调的开源多语言大模型》。
我们希望通过开源Aya模型推动社区开展红队测试,为超大规模多语言模型的安全研究提供开放平台。
引用文献
BibTeX格式:
@article{üstün2024aya,
title={Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model},
author={Ahmet Üstün and Viraat Aryabumi and Zheng-Xin Yong and Wei-Yin Ko and Daniel D'souza and Gbemileke Onilude and Neel Bhandari and Shivalika Singh and Hui-Lee Ooi and Amr Kayid and Freddie Vargus and Phil Blunsom and Shayne Longpre and Niklas Muennighoff and Marzieh Fadaee and Julia Kreutzer and Sara Hooker},
journal={arXiv preprint arXiv:2402.07827},
year={2024}
}
覆盖语言列表
点击展开完整语言列表
下表按Joshi等(2020)的资源分级标准,列出Aya模型支持的101种语言。完整分析参见论文。
ISO代码 |
语言名称 |
文字系统 |
语系 |
语族 |
资源等级 |
afr |
南非荷兰语 |
拉丁字母 |
印欧语系 |
日耳曼语族 |
中 |
amh |
阿姆哈拉语 |
吉兹字母 |
亚非语系 |
闪米特语族 |
低 |
... |
... |
... |
... |
... |
... |
zho |
中文 |
汉字 |
汉藏语系 |
汉语族 |
高 |
zul |
祖鲁语 |
拉丁字母 |
大西洋-刚果语 |
贝努埃-刚果语支 |
低 |
模型卡维护
如有修正建议,请联系Ahmet或Viraat:{ahmet, viraat}@cohere.com