Aya Expanse 8B开源研究模型 - 免费使用具备高度先进多语言能力

首页

Aya Expanse 8b

由 CohereLabs 开发

Aya Expanse 8B 是一款具有高度先进多语言能力的开放权重研究模型，结合了高性能的预训练模型与Cohere Labs一年专注研究的成果。

大型语言模型

Transformers

支持多种语言#23种语言支持 #多语言写作助手 #8K长文本处理

下载量 21.35k

发布时间 : 4/25/2025

模型简介

Aya Expanse 8B 是一款强大的多语言大语言模型，特别优化了多语言能力，支持23种语言。

模型特点

多语言能力

支持23种语言，特别优化了多语言能力。

高性能预训练

结合了高性能的预训练Command系列模型与Cohere Labs一年专注研究的成果。

安全调优

包括数据套利、多语言偏好训练、安全调优和模型融合。

模型能力

文本生成

多语言文本处理

聊天机器人

使用案例

写作助手

多语言写作助手

帮助用户用多种语言进行写作，如写邮件、文章等。

问答系统

多语言问答系统

支持多种语言的问答系统。

聊天机器人

WhatsApp集成

通过WhatsApp与Aya Expanse对话。

🚀 Aya Expanse 8B模型介绍

Aya Expanse 8B 是一款具有高度先进多语言能力的模型的开放权重研究版本。它将高性能的预训练 Command系列模型与 Cohere Labs 一年的专注研究成果相结合，这些研究成果包括数据套利、多语言偏好训练、安全调优和模型融合。最终得到的是一个强大的多语言大语言模型。

🚀 快速开始

试用Aya Expanse

你可以使用 Cohere playground 或我们的 Hugging Face Space 进行交互式探索。

安装与使用

安装 transformers 库并按如下方式加载Aya Expanse 8B：

from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "CohereLabs/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# Format the message with the chat template
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
## <BOS_TOKEN><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>

gen_tokens = model.generate(
    input_ids, 
    max_new_tokens=100, 
    do_sample=True, 
    temperature=0.3,
    )

gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)

示例笔记本

微调：详细微调笔记本。
社区贡献用例：以下由 Cohere Labs社区 成员贡献的笔记本展示了Aya Expanse在不同用例中的应用：

✨ 主要特性

多语言能力：支持23种语言，包括阿拉伯语、中文（简体和繁体）、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。
高性能：结合了多种先进的研究成果，如数据套利、多语言偏好训练、安全调优和模型融合。

📦 安装指南

安装 transformers 库并加载Aya Expanse 8B的代码如下：

from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "CohereLabs/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "CohereLabs/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# Format the message with the chat template
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
## <BOS_TOKEN><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>

gen_tokens = model.generate(
    input_ids, 
    max_new_tokens=100, 
    do_sample=True, 
    temperature=0.3,
    )

gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)

📚 详细文档

模型详情

输入：模型仅接受文本输入。
输出：模型仅生成文本输出。
模型架构：Aya Expanse 8B是一个自回归语言模型，使用了优化的Transformer架构。训练后包括监督微调、偏好训练和模型融合。
支持语言：该模型针对多语言进行了特别优化，支持23种语言，具体语言列表见上文。
上下文长度：8K

更多关于模型训练的详细信息，请查看我们的博客文章。

评估

我们使用 Aya评估套件数据集中的 dolly_human_edited 子集和基于 Arena-Hard-Auto数据集并翻译为Aya Expanse 8B支持的23种语言的m-ArenaHard数据集，将Aya Expanse 8B与Gemma 2 9B、Llama 3.1 8B、Ministral 8B和Qwen 2.5 7B进行了评估。胜率使用gpt-4o-2024-08-06作为评判标准。为了进行保守基准测试，我们报告了gpt-4o-2024-08-06的结果，不过gpt-4o-mini的得分显示出更强的性能。

用于评估Aya Expanse能力的m-ArenaHard数据集可在此处公开获取。

WhatsApp集成

你还可以通过流行的消息服务WhatsApp与Aya Expanse进行对话。使用此链接打开与Aya Expanse的WhatsApp聊天框。如果你没有在设备上下载WhatsApp，可能需要先下载；或者，如果你在手机上安装了WhatsApp，可以按照屏幕上的说明将手机与WhatsApp Web链接起来。最后，你将看到一个文本窗口，可用于与模型聊天。有关我们的WhatsApp集成的更多详细信息，请查看此处。

模型卡片联系信息

如果你对本模型卡片中的细节有错误反馈或额外问题，请联系 labs@cohere.com。

使用条款

我们希望通过向世界各地的研究人员发布高性能多语言模型的权重，使基于社区的研究工作更加容易开展。该模型受 CC-BY-NC 许可协议的约束，同时还需要遵守 Cohere Lab的可接受使用政策。

引用

你可以使用以下方式引用Aya Expanse：

@misc{dang2024ayaexpansecombiningresearch,
      title={Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier}, 
      author={John Dang and Shivalika Singh and Daniel D'souza and Arash Ahmadian and Alejandro Salamanca and Madeline Smith and Aidan Peppin and Sungjin Hong and Manoj Govindassamy and Terrence Zhao and Sandra Kublik and Meor Amer and Viraat Aryabumi and Jon Ander Campos and Yi-Chern Tan and Tom Kocmi and Florian Strub and Nathan Grinsztajn and Yannis Flet-Berliac and Acyr Locatelli and Hangyu Lin and Dwarak Talupuru and Bharat Venkitesh and David Cairuz and Bowen Yang and Tim Chung and Wei-Yin Ko and Sylvie Shang Shi and Amir Shukayev and Sammie Bae and Aleksandra Piktus and Roman Castagné and Felipe Cruz-Salinas and Eddie Kim and Lucas Crawhall-Stein and Adrien Morisot and Sudip Roy and Phil Blunsom and Ivan Zhang and Aidan Gomez and Nick Frosst and Marzieh Fadaee and Beyza Ermis and Ahmet Üstün and Sara Hooker},
      year={2024},
      eprint={2412.04261},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2412.04261}, 
}

信息表格

属性	详情
模型类型	自回归语言模型，使用优化的Transformer架构
训练数据	结合了多种研究成果，包括数据套利、多语言偏好训练、安全调优和模型融合
支持语言	阿拉伯语、中文（简体和繁体）、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语
上下文长度	8K
许可证	CC-BY-NC，需遵守 Cohere Lab's Acceptable Use Policy
开发团队	Cohere Labs
联系信息	labs@cohere.com
模型大小	80亿参数
其他版本	Aya Expanse 32B
评估数据集	Aya评估套件数据集中的 `dolly_human_edited` 子集和m-ArenaHard数据集
评估评判标准	gpt-4o-2024-08-06
WhatsApp集成链接	https://wa.me/14313028498
详细信息链接	博客文章、m-ArenaHard数据集、WhatsApp集成详细信息
引用信息	见上文引用代码