inference: false
library_name: transformers
language:
- 英语
- 法语
- 德语
- 西班牙语
- 意大利语
- 葡萄牙语
- 日语
- 韩语
- 中文
- 阿拉伯语
- 希腊语
- 波斯语
- 波兰语
- 印尼语
- 捷克语
- 希伯来语
- 印地语
- 荷兰语
- 罗马尼亚语
- 俄语
- 土耳其语
- 乌克兰语
- 越南语
license: cc-by-nc-4.0
extra_gated_prompt: "提交此表单即表示您同意遵守许可协议,并确认您提供的信息将根据Cohere的隐私政策被收集、使用和共享。您将收到关于C4AI和Cohere研究、活动、产品及服务的电子邮件更新。您可随时取消订阅。"
extra_gated_fields:
姓名: text
所属机构: text
国家/地区: country
我同意仅将此模型用于非商业用途: checkbox
Aya Expanse 8B 模型卡
Aya Expanse 8B 是一款具有高度先进多语言能力的开放权重研究模型。它结合了高性能预训练的Command系列模型与Cohere Labs一年来的专项研究成果,包括数据套利、多语言偏好训练、安全调优和模型融合技术,最终形成了这款强大的多语言大语言模型。
本模型卡对应Aya Expanse模型的80亿参数版本。我们还发布了320亿参数版本,可在此处获取。
支持语言
覆盖23种语言:阿拉伯语、中文(简体和繁体)、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。
体验Aya Expanse
通过Cohere交互平台或我们的Hugging Face空间进行互动探索。
使用指南
安装transformers库并按以下方式加载Aya Expanse 8B:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "CohereLabs/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
messages = [{"role": "user", "content": "帮我写一封向母亲表达爱意的信"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)
gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)
示例笔记本
微调指南:
社区贡献案例::
以下由Cohere Labs社区成员提供的笔记本展示了Aya Expanse在不同场景的应用:
模型详情
输入: 仅接受文本输入
输出: 仅生成文本输出
架构: Aya Expanse 8B采用优化的自回归Transformer架构,经过监督微调、偏好训练和模型融合等后训练过程
语言覆盖: 特别优化多语言能力,支持阿拉伯语、中文(简体和繁体)、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语
上下文长度: 8K
更多训练细节请参阅我们的博客文章。
评估表现
我们使用Aya评估套件数据集的dolly_human_edited
子集和基于Arena-Hard-Auto数据集翻译的m-ArenaHard数据集,将Aya Expanse 8B与Gemma 2 9B、Llama 3.1 8B、Ministral 8B和Qwen 2.5 7B进行对比评估。胜率由gpt-4o-2024-08-06作为评判标准得出。m-ArenaHard数据集已公开在此。
WhatsApp集成
您可以通过流行的通讯服务WhatsApp与Aya Expanse对话。点击此链接即可打开与Aya Expanse的WhatsApp聊天窗口。若设备未安装WhatsApp,需先下载应用;或通过手机按屏幕指示链接WhatsApp网页版。最终您将看到可与模型对话的文本窗口。更多集成细节参见此处。
模型卡联系
如发现错误或有其他问题,请联系labs@cohere.com
使用条款
我们希望通过发布此模型,向全球研究人员开放高性能多语言模型的权重,使基于社区的研究工作更易开展。本模型受CC-BY-NC许可约束,并需遵守Cohere实验室可接受使用政策。
引用
可参考以下格式引用Aya Expanse:
@misc{dang2024ayaexpansecombiningresearch,
title={Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier},
author={John Dang and Shivalika Singh and Daniel D'souza and Arash Ahmadian and Alejandro Salamanca and Madeline Smith and Aidan Peppin and Sungjin Hong and Manoj Govindassamy and Terrence Zhao and Sandra Kublik and Meor Amer and Viraat Aryabumi and Jon Ander Campos and Yi-Chern Tan and Tom Kocmi and Florian Strub and Nathan Grinsztajn and Yannis Flet-Berliac and Acyr Locatelli and Hangyu Lin and Dwarak Talupuru and Bharat Venkitesh and David Cairuz and Bowen Yang and Tim Chung and Wei-Yin Ko and Sylvie Shang Shi and Amir Shukayev and Sammie Bae and Aleksandra Piktus and Roman Castagné and Felipe Cruz-Salinas and Eddie Kim and Lucas Crawhall-Stein and Adrien Morisot and Sudip Roy and Phil Blunsom and Ivan Zhang and Aidan Gomez and Nick Frosst and Marzieh Fadaee and Beyza Ermis and Ahmet Üstün and Sara Hooker},
year={2024},
eprint={2412.04261},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.04261},
}