Aya Expanse 32B开源多语言大模型 - 支持23种语言沟通交流！

首页

Aya Expanse 32b

由 CohereLabs 开发

Aya Expanse 32B是一个开放权重的多语言大语言模型，支持23种语言，结合了高性能预训练与多语言偏好训练等技术。

大型语言模型

Transformers

支持多种语言#23种语言支持 #128K长上下文 #多语言写作助手

下载量 9,666

发布时间 : 10/23/2024

模型简介

Aya Expanse 32B是一个强大的多语言大语言模型，支持23种语言，适用于多语言文本生成和理解任务。

模型特点

多语言支持

支持23种语言，包括主要欧洲和亚洲语言。

高性能预训练

结合了Command系列模型的高性能预训练技术。

安全调优

经过安全调优，确保生成内容的安全性。

长上下文支持

支持128K的上下文长度。

模型能力

多语言文本生成

多语言问答

多语言写作辅助

多语言对话系统

使用案例

写作辅助

多语言信件写作

帮助用户用不同语言撰写信件，如给妈妈的信。

生成情感丰富、语法正确的多语言信件。

问答系统

多语言问答

回答用户用不同语言提出的问题。

提供准确、相关的多语言回答。

内容创作

多语言内容生成

生成多语言的博客文章、故事等内容。

生成流畅、连贯的多语言内容。

🚀 Aya-Expanse-32B模型介绍

Aya Expanse 32B 是一款具有高度先进多语言能力的模型的开放权重研究版本。它将高性能的预训练 Command系列模型与 Cohere Labs 一年的专项研究成果相结合，这些研究包括数据套利、多语言偏好训练、安全调优和模型融合。最终得到的是一个支持23种语言的强大多语言大语言模型。

此模型卡片对应Aya Expanse模型的320亿参数版本。我们还发布了80亿参数版本，你可以在此找到。

🚀 快速开始

试用Aya Expanse

你可以使用 Cohere playground 或我们的 Hugging Face Space 进行交互式探索。

如何使用Aya Expanse

安装transformers库并按如下方式加载Aya Expanse 32B：

from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "CohereLabs/aya-expanse-32b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# Format message with the chat template
messages = [{"role": "user", "content": "Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz"}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
## <BOS_TOKEN><|START_OF_TURN_TOKEN|><|USER_TOKEN|>Anneme onu ne kadar sevdiğimi anlatan bir mektup yaz<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>

gen_tokens = model.generate(
    input_ids, 
    max_new_tokens=100, 
    do_sample=True, 
    temperature=0.3,
    )

gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)

示例笔记本

微调：详细微调笔记本。
社区贡献用例：以下由 Cohere Labs社区 成员贡献的笔记本展示了Aya Expanse在不同用例中的应用：

✨ 主要特性

多语言支持：该模型特别针对多语言进行了优化，支持23种语言，包括阿拉伯语、中文（简体和繁体）、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。
高性能架构：Aya Expanse 32B是一个自回归语言模型，采用了优化的Transformer架构。训练后处理包括监督微调、偏好训练和模型融合。
长上下文处理：上下文长度可达128K。

📚 详细文档

模型详情

属性	详情
输入	模型仅接受文本输入。
输出	模型仅生成文本。
模型架构	Aya Expanse 32B是一个自回归语言模型，采用优化的Transformer架构。训练后包括监督微调、偏好训练和模型融合。
支持语言	阿拉伯语、中文（简体和繁体）、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语
上下文长度	128K

评估

我们使用 Aya评估套件数据集中的 dolly_human_edited 子集和基于 Arena-Hard-Auto数据集并翻译成Aya Expanse支持的23种语言的m-ArenaHard数据集，将Aya Expanse 32B与Gemma 2 27B、Llama 3.1 70B、Mixtral 8x22B和Qwen 2.5 35B进行了对比评估。胜率使用gpt - 4o - 2024 - 08 - 06作为评判标准。为了进行保守基准测试，我们报告了gpt - 4o - 2024 - 08 - 06的结果，不过gpt - 4o - mini的得分显示出更强的性能。

用于评估Aya Expanse能力的m-ArenaHard数据集在此公开可用。

WhatsApp集成

你还可以通过流行的消息服务WhatsApp与Aya Expanse进行对话。使用此链接打开与Aya Expanse的WhatsApp聊天框。如果你没有在设备上下载WhatsApp，可能需要先下载；或者如果你在手机上安装了它，可以按照屏幕上的说明将手机与WhatsApp Web进行关联。最后，你将看到一个文本窗口，可用于与模型聊天。有关我们的WhatsApp集成的更多详细信息在此提供。

📄 许可证

本模型受 CC-BY-NC 许可证约束，同时还需遵守 Cohere Lab的可接受使用政策。

模型卡片联系方式

如果你发现此模型卡片中的错误或有其他问题，请联系labs@cohere.com。

引用

你可以使用以下方式引用Aya Expanse：

@misc{dang2024ayaexpansecombiningresearch,
      title={Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier}, 
      author={John Dang and Shivalika Singh and Daniel D'souza and Arash Ahmadian and Alejandro Salamanca and Madeline Smith and Aidan Peppin and Sungjin Hong and Manoj Govindassamy and Terrence Zhao and Sandra Kublik and Meor Amer and Viraat Aryabumi and Jon Ander Campos and Yi-Chern Tan and Tom Kocmi and Florian Strub and Nathan Grinsztajn and Yannis Flet-Berliac and Acyr Locatelli and Hangyu Lin and Dwarak Talupuru and Bharat Venkitesh and David Cairuz and Bowen Yang and Tim Chung and Wei-Yin Ko and Sylvie Shang Shi and Amir Shukayev and Sammie Bae and Aleksandra Piktus and Roman Castagné and Felipe Cruz-Salinas and Eddie Kim and Lucas Crawhall-Stein and Adrien Morisot and Sudip Roy and Phil Blunsom and Ivan Zhang and Aidan Gomez and Nick Frosst and Marzieh Fadaee and Beyza Ermis and Ahmet Üstün and Sara Hooker},
      year={2024},
      eprint={2412.04261},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2412.04261}, 
}