license: apache-2.0
language:
Cendol:面向印尼语的开源指令调优生成式大语言模型
Cendol是一个开源的精调生成式大语言模型集合,涵盖解码器专用和编码器-解码器架构的Transformer模型,参数量级从3亿到130亿不等。
本仓库为3亿参数Cendol mT5-small聊天模型。其他模型链接如下所示。
模型详情
注意:使用Cendol需遵守Apache 2.0许可证
概览
IndoNLP开发并公开了Cendol系列大语言模型(LLMs),包含参数量从5.6亿到130亿不等的预训练和精调生成式文本模型。
Cendol模型包含两种指令调优版本:
- Cendol-Instruct:针对情感分析、主题建模、机器翻译、摘要生成、问答、复述等特定NLP任务进行指令调优
- Cendol-Chat:在Cendol-Instruct基础上继续针对通用知识和以人为本的提示进行指令调优
两个版本均设计用于单轮对话。在多数测试基准上,Cendol以显著优势超越开源多语言及区域专用LLMs,其小参数量版本(<10亿)即可与其他70亿参数LLMs抗衡。
开发团队:IndoNLP
变体说明
Cendol基于mT5和LLaMA-2两种架构,各有不同参数量级。mT5系包含3亿(mT5-small)、5.8亿(mT5-base)、12亿(mT5-large)、37亿(mT5-XL)和130亿(mT5-XXL)模型;LLaMA-2系包含70亿(LLaMA2-7B)和130亿(LLaMA2-13B)模型。所有变体均包含Instruct和Chat版本。130亿参数模型采用LoRA调优,其余为全参数精调。
研究论文表明,LoRA适配区域专用LLMs效果欠佳:130亿(mT5-XXL)Cendol模型性能略逊于12亿(mT5-large)版本,且训练耗时增加3倍、推理耗时增加4倍。我们提出词汇表替换作为高效替代方案,训练效率提升11.50%,推理效率提升18.71%,性能与原始词汇表模型相当。同步发布印尼语适配词汇表模型Indonesian-Vocab Instruct
。
输入输出:纯文本格式
模型架构
训练周期:2023年10月至2024年1月
许可证:Apache 2.0
研究论文:"Cendol:面向印尼语的开源指令调优生成式大语言模型"
使用场景
适用场景:Cendol适用于印尼语相关研究。Instruct版本面向特定任务指令,Chat版本面向通用知识指令。
限制场景:违反法律法规的使用;非英语/印尼语场景;违反Cendol使用政策的行为。
评估结果
采用内部评估库进行大规模NLU/NLG基准测试:
NLU性能

NLG性能

人工评估

伦理考量
作为新兴技术,Cendol存在输出不可预测性风险。当前测试仅覆盖印尼语场景,模型可能产生不准确/偏见内容。开发者需针对具体应用场景进行安全测试。
引用规范
使用相关资源时请引用:
@misc{cahyawijaya-etal-2024-cendol,
title={Cendol:面向印尼语的开源指令调优生成式大语言模型},
author={Samuel Cahyawijaya and Holy Lovenia and Fajri Koto and Rifki Afina Putri and Emmanuel Dave and Jhonson Lee and Nuur Shadieq and Wawan Cenggoro and Salsabil Maulana Akbar and Muhammad Ihza Mahendra and Dea Annisayanti Putri and Bryan Wilie and Genta Indra Winata and Alham Fikri Aji and Ayu Purwarianti and Pascale Fung},
year={2024},
eprint={2404.06138},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
(后续引用内容保持原格式不变,此处省略完整翻译)