Z

Ziya LLaMA 13B Pretrain V1

由 IDEA-CCNL 开发
基于LLaMa架构的130亿参数大规模预训练模型,针对中文分词进行优化,完成1100亿token的中英文增量预训练,显著提升中文生成与理解能力
下载量 113
发布时间 : 6/1/2023
模型介绍
内容详情
替代品

模型简介

姜子牙-LLaMA-13B-预训练-v1是基于LLaMa架构的130亿参数大规模预训练模型,针对中文分词进行优化,并完成1100亿token的中英文增量预训练,显著提升中文生成与理解能力。

模型特点

中文优化
在LLaMA原生词表基础上新增7000+高频中文字符,显著提升中文处理效率
大规模增量预训练
完成1100亿token的中英文增量预训练,是目前公开的LLaMA-13B模型最大规模增量训练
高性能训练
使用160张40GB显存A100显卡,单卡计算吞吐达118 TFLOP/s,训练仅耗时8天

模型能力

文本生成
文本理解
翻译
编程
文本分类
信息抽取
摘要生成
文案创作
常识问答
数学计算

使用案例

内容创作
旅游计划生成
根据用户需求生成详细的旅游计划
生成结构清晰、内容丰富的旅游计划
教育
学科问答
回答各学科领域的知识问题
在中文多学科评测中表现优于原始LLaMA模型