推理: false
库名称: transformers
语言:
- 英文
- 法语
- 德语
- 西班牙语
- 意大利语
- 葡萄牙语
- 日语
- 韩语
- 中文
- 阿拉伯语
- 希腊语
- 波斯语
- 波兰语
- 印尼语
- 捷克语
- 希伯来语
- 印地语
- 荷兰语
- 罗马尼亚语
- 俄语
- 土耳其语
- 乌克兰语
- 越南语
许可证: cc-by-nc-4.0
额外授权提示: "提交此表单即表示您同意许可协议,并确认您提供的信息将根据Cohere的隐私政策进行收集、使用和共享。您将收到关于Cohere实验室和Cohere研究、活动、产品和服务的电子邮件更新。您可以随时取消订阅。"
额外授权字段:
姓名: 文本
所属机构: 文本
国家: 国家
我同意仅将此模型用于非商业用途: 复选框
Aya-Expanse-32B模型卡
Aya Expanse 32B是一个开放权重的多语言能力高度先进的研究发布模型。它结合了高性能预训练的Command系列模型与Cohere实验室一年专注研究的成果,包括数据套利、多语言偏好训练、安全调优和模型融合。最终成果是一个强大的多语言大语言模型,支持23种语言。
本模型卡对应Aya Expanse模型的320亿参数版本。我们还发布了80亿参数版本,您可以在这里找到。
支持语言
我们覆盖23种语言:阿拉伯语、中文(简体与繁体)、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。
试用:Aya Expanse实战
使用Cohere游乐场或我们的Hugging Face空间进行交互式探索。
如何使用Aya Expanse
安装transformers库并按以下方式加载Aya Expanse 32B:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/aya-expanse-32b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
messages = [{"role": "user", "content": "给妈妈写一封表达我爱她的信"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
示例笔记本
微调:
社区贡献用例::
以下由Cohere实验室社区成员贡献的笔记本展示了Aya Expanse在不同场景下的应用:
模型详情
输入: 模型仅接受文本输入。
输出: 模型仅生成文本输出。
架构: Aya Expanse 32B是一个基于优化Transformer架构的自回归语言模型。训练后处理包括监督微调、偏好训练和模型融合。
覆盖语言: 该模型特别针对多语言优化,支持以下语言:阿拉伯语、中文(简体与繁体)、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。
上下文长度: 128K
评估
我们使用Aya评估套件数据集中的dolly_human_edited
子集和m-ArenaHard(基于Arena-Hard-Auto数据集并翻译为Aya Expanse支持的23种语言)对Aya Expanse 32B与Gemma 2 27B、Llama 3.1 70B、Mixtral 8x22B和Qwen 2.5 35B进行了对比评估。胜率由gpt-4o-2024-08-06作为评判标准确定。为保守起见,我们报告gpt-4o-2024-08-06的结果,尽管gpt-4o-mini评分显示性能更优。
用于评估Aya Expanse能力的m-ArenaHard数据集可在此公开获取。
WhatsApp集成
您还可以通过流行的通讯服务WhatsApp与Aya Expanse对话。使用此链接打开与Aya Expanse的WhatsApp聊天框。如果您的设备未安装WhatsApp,可能需要先下载;或如果手机已安装,可按照屏幕指示链接手机与WhatsApp网页版。完成后,您将看到一个可与模型对话的文本窗口。关于WhatsApp集成的更多详情请见此处。
模型卡联系人
对于本模型卡中的错误或补充问题,请联系labs@cohere.com
使用条款
我们希望通过发布此模型使全球研究者更容易开展基于社区的研究工作。本模型受CC-BY-NC许可约束,同时需遵守Cohere实验室可接受使用政策。
引用
您可以使用以下方式引用Aya Expanse:
@misc{dang2024ayaexpansecombiningresearch,
title={Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier},
author={John Dang and Shivalika Singh and Daniel D'souza and Arash Ahmadian and Alejandro Salamanca and Madeline Smith and Aidan Peppin and Sungjin Hong and Manoj Govindassamy and Terrence Zhao and Sandra Kublik and Meor Amer and Viraat Aryabumi and Jon Ander Campos and Yi-Chern Tan and Tom Kocmi and Florian Strub and Nathan Grinsztajn and Yannis Flet-Berliac and Acyr Locatelli and Hangyu Lin and Dwarak Talupuru and Bharat Venkitesh and David Cairuz and Bowen Yang and Tim Chung and Wei-Yin Ko and Sylvie Shang Shi and Amir Shukayev and Sammie Bae and Aleksandra Piktus and Roman Castagné and Felipe Cruz-Salinas and Eddie Kim and Lucas Crawhall-Stein and Adrien Morisot and Sudip Roy and Phil Blunsom and Ivan Zhang and Aidan Gomez and Nick Frosst and Marzieh Fadaee and Beyza Ermis and Ahmet Üstün and Sara Hooker},
year={2024},
eprint={2412.04261},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.04261},
}