C

Csmpt7b

由 BUT-FIT 开发
基于英语MPT7b模型持续预训练的大型捷克语模型,训练语料达2720亿token,使用捷克语分词器在约670亿token的捷克大型语料集上预训练
下载量 234
发布时间 : 3/11/2024
模型介绍
内容详情
替代品

模型简介

CSMPT7b是通过词汇替换方法实现的捷克语大语言模型,在Karolina超算集群完成训练,主要用于捷克语文本生成任务

模型特点

词汇替换技术
通过对齐英捷词汇表并复制词向量实现知识迁移,显著优于从头训练的效果
大规模捷克语训练
使用约670亿token的捷克大型语料集进行预训练
动态语料切换
训练过程中动态切换三套不同语料,包括原始语料和过滤后的语料

模型能力

捷克语文本生成
语言理解

使用案例

文本生成
捷克语内容创作
生成捷克语文章、故事等文本内容