许可证:其他
许可证名称:seallms
许可证链接:https://huggingface.co/SeaLLMs/SeaLLM-13B-Chat/blob/main/LICENSE
语言:
- 英语
- 中文
- 越南语
- 印尼语
- 泰语
- 马来语
- 高棉语
- 老挝语
- 缅甸语
- 菲律宾语
标签:
- 多语言
- 东南亚
SeaLLM-7B-v2 - 面向东南亚的大型语言模型
重大新闻:SeaLLM3已发布,其在多样化任务上达到最先进性能,并特别增强了可信度。请考虑使用最新模型版本。
技术博客
🤗 技术备忘录
🤗 演示
Github
技术报告
我们推出SeaLLM-7B-v2,这是面向东南亚(SEA)语言🇬🇧 🇨🇳 🇻🇳 🇮🇩 🇹🇭 🇲🇾 🇰🇭 🇱🇦 🇲🇲 🇵🇭的最先进多语言大模型。作为SeaLLM-13B后最重要的升级,其体积减半,却在世界知识、数学推理、指令遵循等多语言任务上表现更优。
亮点
- SeaLLM-7B-v2在零样本思维链GSM8K任务上以78.2分创下7B模型最佳记录,并在东南亚语言(🇨🇳 🇻🇳 🇮🇩 🇹🇭)的GSM8K翻译任务及MGSM(🇨🇳 🇹🇭)中超越GPT-3.5。泰语🇹🇭的MATH思维链任务同样优于GPT-3.5。
- 在零样本思维链常识基准测试中与GPT-3.5竞争激烈,Arc-C、Winogrande和Hellaswag分别获得82.5、68.3、80.9分。
- 英语🇬🇧MT-bench得分7.54,位列7B模型排行榜第三,是最强的多语言模型。
- 越南语🇻🇳VMLU基准得分45.74,是唯一能与同规模单语模型(Vistral-7B)竞争的开源多语言模型。
发布与演示
使用条款与许可:
使用我们发布的权重、代码及演示,即表示您同意并遵守SeaLLMs使用条款中的规定。
免责声明:
尽管我们以开放方式发布权重、代码和演示,与其他预训练语言模型类似,且尽管我们已尽最大努力进行红队测试、安全微调和强化,模型仍存在潜在风险,包括但不限于生成不准确、误导性或潜在有害内容。
开发者和利益相关方应在部署前自行进行红队测试并提供相关安全措施,且必须遵守当地法律法规。
作者不对因使用发布内容引发的任何索赔、损害或其他责任负责。
徽标由DALL-E 3生成。
SeaLLM-13B-v1和SeaLLM-7B-v1后的新变化?
评估
零样本思维链多语言数学推理
SeaLLM-7B-v2在GSM8K零样本思维链推理中获得78.2分,成为7B模型领域的标杆。其在东南亚语言(🇨🇳 🇻🇳 🇮🇩 🇹🇭)的GSM8K翻译测试中也优于GPT-3.5。泰语翻译的MATH基准测试中,以22.4对18.1分超越GPT-3.5。

查看英语及翻译版GSM8K和MATH零样本推理详情
模型 |
GSM8K 英语 |
MATH 英语 |
GSM8K 中文 |
MATH 中文 |
GSM8K 越南语 |
MATH 越南语 |
GSM8K 印尼语 |
MATH 印尼语 |
GSM8K 泰语 |
MATH 泰语 |
GPT-3.5 |
80.8 |
34.1 |
48.2 |
21.5 |
55 |
26.5 |
64.3 |
26.4 |
35.8 |
18.1 |
Qwen-14B-chat |
61.4 |
18.4 |
41.6 |
11.8 |
33.6 |
3.6 |
44.7 |
8.6 |
22 |
6 |
Vistral-7b-chat |
48.2 |
12.5 |
|
|
48.7 |
3.1 |
|
|
|
|
Qwen1.5-7B-chat |
56.8 |
15.3 |
40 |
2.7 |
37.7 |
9 |
36.9 |
7.7 |
21.9 |
|
SeaLLM-7B-v2 |
78.2 |
27.5 |
53.7 |
17.6 |
69.9 |
23.8 |
71.5 |
24.4 |
59.6 |
22.4 |
基线模型使用各自聊天模板和系统提示评估(Qwen1.5-7B-chat, Vistral)。
零样本MGSM
SeaLLM-7B-v2在中文和泰语的多语言MGSM测试中同样超越GPT-3.5和Qwen-14B。
模型 |
MGSM-中文 |
MGSM-泰语 |
ChatGPT(报告值) |
61.2 |
47.2 |
Qwen-14B-chat |
59.6 |
28 |
SeaLLM-7B-v2 |
64.8 |
62.4 |
零样本常识推理
我们比较SeaLLM-7B-v2与ChatGPT和Mistral-7B-instruct在多种零样本常识基准(Arc挑战赛、Winogrande和Hellaswag)的表现。采用(Kojima et al., 2023)的两阶段技术提取答案,未使用"让我们逐步思考"触发显式思维链。
零样本推理 |
Arc挑战赛 |
Winogrande |
Hellaswag |
ChatGPT(报告值) |
84.6* |
66.8* |
72.0* |
ChatGPT(复现值) |
84.1 |
63.1 |
79.5 |
Mistral-7B-Instruct |
68.1 |
56.4 |
45.6 |
Qwen1.5-7B-chat |
79.3 |
59.4 |
69.3 |
SeaLLM-7B-v2 |
82.5 |
68.3 |
80.9 |
基线模型使用各自聊天模板和系统提示评估(Qwen1.5-7B-chat, Mistral)。
多语言世界知识
我们按推荐默认设置评估三个基准:英语5-shot MMLU,英语、中文、越南语、印尼语、泰语3-shot M3Exam(M3e),越南语零-shot VMLU。
模型 |
语言 |
英语 MMLU |
英语 M3e |
中文 M3e |
越南语 M3e |
越南语 VMLU |
印尼语 M3e |
泰语 M3e |
GPT-3.5 |
多语言 |
68.90 |
75.46 |
60.20 |
58.64 |
46.32 |
|
|