L

Llm Jp 3 8x13b Instruct3

由 llm-jp 开发
由日本国立信息学研究所开发的大规模日语-英语混合MoE语言模型,支持8x13B参数规模,经过指令微调优化
下载量 162
发布时间 : 3/5/2025
模型介绍
内容详情
替代品

模型简介

基于Transformer架构的混合专家(MoE)模型,专注于日语和英语的文本生成任务,经过监督微调和直接偏好优化对齐

模型特点

混合专家架构
采用8专家路由设计,每个前向传播仅激活2个专家,平衡计算效率与模型容量
双语优化
针对日语和英语进行专门优化,在日语任务表现尤其突出
安全对齐
通过AnswerCarefully等安全数据集进行偏好优化,违规率低于2.2%
长上下文支持
4096 tokens的上下文窗口长度,适合处理长文档

模型能力

日语文本生成
英语文本生成
多轮对话
指令跟随
知识问答
文本摘要

使用案例

智能助手
日语客服机器人
处理日语用户的咨询和问题解答
在llm-jp-eval测试中阅读理解得分0.904
教育应用
语言学习辅助
生成日语和英语的学习材料与练习题