库名称:transformers
流水线标签:文本生成
基础模型:
- aisingapore/Llama-SEA-LION-v3-70B-IT
支持语言:
- 英语
- 中文
- 越南语
- 印尼语
- 泰语
- 菲律宾语
- 泰米尔语
- 马来语
- 高棉语
- 老挝语
- 缅甸语
- 爪哇语
- 巽他语
许可证:llama3.1
当前版本:2025年4月14日
Llama-SEA-LION-v3.5-70B-R
SEA-LION 是一系列专为东南亚(SEA)地区预训练和指令调优的大语言模型(LLMs)集合。
SEA-LION 代表 东南亚语言一体化网络(Southeast Asian Languages In One Network)。
- 开发团队: AI Singapore 产品部门
- 资助方: 新加坡国家研究基金会(NRF)
- 模型类型: 解码器
- 支持语言: 缅甸语、中文、英语、菲律宾语、印尼语、爪哇语、高棉语、老挝语、马来语、巽他语、泰米尔语、泰语、越南语
- 许可证: Llama 3.1 社区许可证
模型详情
模型描述
Llama-SEA-LION-v3.5-70B-R 是一个混合功能模型,既能处理复杂推理任务,也能进行通用文本生成,其模式选择通过分词器的聊天模板管理。
我们在 指令调优的 Llama-SEA-LION-v3-70B-IT(基于 Llama 3.1 架构的解码器模型)基础上,进一步对英语及东南亚语言(如菲律宾语、印尼语、泰米尔语、泰语和越南语)进行了指令调优,从而开发出 Llama-SEA-LION-v3.5-70B-R。
该模型采用 Llama 3.1 70B Instruct 的默认分词器,上下文长度为 128k。
基准性能
我们评估了 Llama-SEA-LION-v3.5-70B-R 在通用语言能力和指令遵循能力上的表现。
通用语言能力
为评估通用语言能力,我们使用了 SEA-HELM 评估基准,涵盖多种任务,包括问答(QA)、情感分析(Sentiment)、毒性检测(Toxicity)、双向翻译(Eng>Lang & Lang>Eng)、摘要生成(Abssum)、因果推理(Causal)、自然语言推理(NLI)以及语言诊断(LINDSEA)。
注:SEA-HELM 通过严格格式的提示来获取答案。所有任务中,模型需提供带标签的答案以便自动提取。对于有选项的任务,答案应为预定义选项之一。各项任务的分数已归一化,以消除随机基线性能的影响。
评估采用 零样本 方式,使用原生提示,每个数据集采样 100-1000 个实例。
指令遵循能力
由于 Llama-SEA-LION-v3.5-70B-R 是指令遵循模型,我们还使用两个数据集评估其指令遵循能力:SEA-IFEval(基于 IFEval)和 SEA-MTBench(基于 MT-Bench)。
这两个数据集原为英语,团队中的语言学家和母语者合作筛选、本地化并翻译为目标语言,确保示例合理、有意义且自然。
SEA-IFEval
SEA-IFEval 评估模型遵循提示约束的能力,例如以特定词/短语开头回答或按指定分段数量回答。此外,准确性通过正确语言回答的比例归一化(若任务完成但语言错误,则判定失败)。
SEA-MTBench
SEA-MTBench 评估模型在多轮(2轮)对话中响应人类需求的能力。我们使用 gpt-4-1106-preview
作为评判模型,以 gpt-3.5-turbo-0125
为基线模型。指标为相对于基线模型的加权胜率(即各类别平均胜率:数学、推理、STEM、人文、角色扮演、写作、信息提取)。平局得分为 0.5。
更多性能详情,请参考 SEA-HELM 排行榜:https://leaderboard.sea-lion.ai/。
使用方法
可通过 🤗 Transformers 库运行 Llama-SEA-LION-v3.5-70B-R:
import transformers
import torch
model_id = "aisingapore/Llama-SEA-LION-v3.5-70B-R"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "user", "content": "以下句子的情感是什么?\n句子:这本书非常无聊。\n答案:"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])
思维模式切换
Llama-SEA-LION-v3.5-70B-R 默认启用推理模式(thinking_mode="on"
)。如需关闭,传递 thinking_mode="off"
至聊天模板:
import transformers
import torch
model_id = "aisingapore/Llama-SEA-LION-v3.5-70B-R"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
tokenizer = pipeline.tokenizer
messages = [
{"role": "user", "content": "以下句子的情感是什么?\n句子:这本书非常无聊。\n答案:"},
]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False, thinking_mode="off")
outputs = pipeline(
prompt,
max_new_tokens=256,
)
print(outputs[0]["generated_text"])
注意事项
用户需注意模型存在一定局限性。与其他大语言模型类似,该模型可能产生幻觉或无关内容,引入虚构信息。由于其推理可能存在不一致性,用户应谨慎验证模型回答。
局限性
安全性
当前 SEA-LION 模型(包括此商业许可版本)未进行安全对齐。开发者与用户需自行实施安全微调及相关防护措施。作者不对因使用模型权重及代码引发的任何索赔、损害或其他责任负责。
贡献邀请
我们鼓励研究人员、开发者和语言爱好者积极参与 SEA-LION 的改进与扩展。贡献方式包括:报告漏洞、分享预训练/指令/偏好数据、优化文档、提出新评估任务与指标,或训练更多东南亚语言版本。详情请访问 GitHub 仓库。
团队成员
Antonyrex Sajeban, Chan Adwin, Cheng Nicholas, Choa Esther, Huang Yuli, Hulagadri Adithya Venkatadri, Lau Wayne, Lee Chwan Ren, Leong Wai Yi, Leong Wei Qi, Liew Rachel, Limkonchotiwat Peerat, Liu Bing Jie Darius, Montalan Jann Railey, Ng Boon Cheong Raymond, Ngui Jian Gang, Nguyen Thanh Ngan, Ong Brandon, Ong Tat-Wee David, Ong Zhi Hao, Rengarajan Hamsawardhini, Siow Bryan, Susanto Yosephine, Tai Ngee Chia, Tan Choon Meng, Teng Walter, Teo Eng Sipp Leslie, Teo Wei Yi, Tjhi William, Yeo Yeow Tong, Yong Xianbin
致谢
AI Singapore 是由新加坡国家研究基金会支持、新加坡国立大学承办的国家项目。本文所述观点、发现和结论仅为作者个人意见,不代表国家研究基金会或新加坡国立大学的立场。
联系
更多信息,请通过 SEA-LION 咨询表 联系我们。
SEA-LION GitHub 仓库链接
免责声明
此仓库为商业指令调优模型发布。
该模型 未 进行安全对齐。
开发者与用户需自行实施安全微调及相关防护措施。
作者不对因使用模型权重及代码引发的任何索赔、损害或其他责任负责。